EN

资讯中心

NEWS

大数据版图:大数据、AI与云计算结合已是大势所趋
阅读量:6281 2017-09-19

来源:杭州市计算机协会

 

    2017年大数据开始进入部署阶段,大数据的炒作逐渐散去,它的应用却正在蓬勃发展,代表成熟度的标志性IPO也正在出现。而大数据在几年前经历的泡沫正在无可争议地转移到人工智能身上,过去几个月AI所经历的共同意识“大爆炸”与大数据当年相比甚至有过之而无不及。从2013开始制作大数据版图的Matt Turck刚刚发布了最新的2017年大数据版图,我们一起来看看在这个领域有哪些最新趋势和玩家的分布情况。

高层趋势

大数据+AI=新栈

    2016年无疑是机器学习之年,任何目睹过众多pitch的VC都应该能感受到这一点,那就是每一家初创企业都成为了“机器学习公司”,“.ai”变成了必备域名,而“等等,可是我们是用机器学习做到这个的”也成为了pitch deck的必备幻灯片。机器学习正在迅速成为许多应用的关键建构块。

    相应地,一个新兴的技术栈正在出现,在这个技术栈里面,大数据被用于处理核心的数据工程挑战,而机器学习则用于以分析洞察或者行动的形式从数据中析取出价值。

    换言之,大数据提供管道,AI提供智能。当然,这种共生关系已经出现多年,只是能实现这个的目前还不多而已。

    但是,现在这些技术开始大众化的普及。“大数据+AI”正在成为众多现代应用(不管是消费者型还是企业型)的默认技术栈。无论是初创企业还是一些财富1000强公司都在利用这一新的技术栈。而且在云巨头的努力下,这个技术栈往往还有云计算这个更基础的建构块的加入,以机器学习云的形式出现。

    但是AI的大众化是否就意味着这种技术在短期内能实现商品化呢?现实是AI在技术上仍然非常困难。尽管许多工程师都在争先培养AI技能,但全球这方面的领域专家仍然十分稀缺。

    不过这股大众化的趋势已经不可逆转,而机器学习早晚都要从竞争优势演变成桌面筹码。

    这对初创企业和大公司都会产生影响。对于初创企业来说,除非你把AI软件做成自己的最终产品,否则的话自我标榜为“机器学习公司”将变得毫无意义。对于大公司来说,如果现在你不积极推进大数据+AI的战略,就会有变得过时的风险。AI已经是下一个风口了。

 

企业预算:一切向钱看

    从2016年的情况来看,财富1000强公司已经在纷纷增加预算用于升级核心基础设施以及分析,其关键的关注点正是大数据技术。分析机构IDC预计大数据和分析市场将从2016年的1300亿美元增长到2020年的超过2030亿美元。

    而且财富1000强公司里面的许多买家在大数据技术方面正在变得越来越娴熟、越来越目光敏锐。这些公司过去几年做了很多功课,正在进入全面部署阶段。这种情况不仅发生在技术导向型的公司,在很多行业都是如此。

    在大公司每隔几年就要发生的旧技术替代自然周期的推动下,这种情况得到进一步加速。大数据遭遇的环境也从逆风变成了顺风。当然,很多大公司仍然处在大数据部署的早期阶段,但是情况似乎在快速演变。

 

企业数据向云端迁移

    直到几年前,把企业数据迁移到公有云上面对于大公司CIO来说还是不可想象的事情,顶多是在开发环境下或者拿非关键的、面向外部的应用来尝试一下。但现在画风开始有所变化,大家对此的态度似乎变得更加开放了,比方说你会听到这样的说法“不管怎么说我们的客户数据已经放到Salesforce云上面了”,或者“在网络安全方面我们永远也不会有像AWS那么多的预算”。但目前里大多数企业都向公有云迁移还远得很,这部分是因为遗留系统和管制方面的原因。不过云供应商正在竭尽全力来加速这一趋势的转变。比如说AWS甚至可以开卡车来运你的硬盘到云端。

 

2017年大数据版图

作为对比我们先看看2016年版本:

2017年版本:

 

    整合要来了吗?

    从上图可看出,这张图已经变得越来越拥挤,那么一个显然的问题来了:行业是否濒临大规模整合的边缘了呢?

    似乎还没有。至少目前如此。

    首先VC仍然继续乐于给新老公司提供资金扶持。2017年的第一季度成长阶段的大数据初创企业拿到了不少的可观融资,其中包括:Looker(8100万美元D轮),InsideSales (5000万美元F轮),DataRobot (5400万美元C轮),Confluent (5000万美元C轮),Collibra (5000万美元C轮),Uptake (4000万美元C轮),WorkFusion (35M00万美元D轮) and MapD (3500万美元B轮)等。去年12月DataBricks也拿到了6000万美元的C轮。

    2016年,大数据初创企业的总融资达到了148亿美元,占到了全球技术风险投资的10%。

    其次,自去年的大数据版图推出以来,本领域的并购活动一直在稳步推进,但不是特别显著,其中部分原因也许是未上市公司的估值仍然高企。入选2016大数据版图的公司当中共有41家被收购(完整清单参见附注),这个节奏跟上一年是一致的。

    另一方面,2017年刚开始就发生了一些大型的并购事件,其中包括Mobileye(被英特尔以153亿美元收购),AppDynamics(被思科以37亿美元收购),以及Nimble Storage(被HPE以12亿美元收购)。

    去年还有一个显著的现象,那就是大型技术公司纷纷收购AI初创企业,尤其是那些解决水平问题、有着很好团队的AI初创企业。其中包括Turi(苹果)、Magic Pony(Twitter)、Viv Labs(三星)、MetaMind(Salesforce)、Geometric Intelligence(Uber)、API.ai(Google)以及Wise.io(GE)。当然,这种现象未必能持续太久,因为对AI的需求太旺盛了,人才实在是不够用了。

    第三,一些较大的大数据初创企业羽翼渐丰,正在成为独立的上市公司。Snap无疑引领了技术公司IPO的复兴,但是目前为止是大数据公司借了这股东风。

    2016年只有Talend一家大数据公司上市,但2017年大数据公司已经呈现出爆发之势。其中Mulesoft和Alteryx已经上市并且表现不错,而Cloudera也即将上市,其最新估值(41亿美元)与收入(2.61亿美元)之间的差异将延至“独角兽”估值现象的成色。另外,MapR以及定位智能公司Yext也已经在排队等待了。

    下一个会是谁呢?也许是Palantir这个超级独角兽。这家多年以来保持神秘的公司已经公开表达了上市的兴趣。其最新估值达到了200亿美元,如果上市的话必将引起轰动。

 

云大战

    虽然大规模并购尚未出现,但业界的另一股趋势值得注意,这就是“功能性整合”,这种现象在云端尤其显著。一些关键的玩家正在通过自研产品和开源计算引擎的实现逐步构建“大数据+AI”的基础构件,面向众多客户群提供其所期盼的“一站式”的服务。

    AWS在产品发布的速度和幅度方面继续给人留下深刻印象。目前AWS几乎提供了大数据和AI方面的所有服务,包括分析框架、实时分析、数据库(NoSQL、图谱等)、商业智能以及日益丰富的AI能力,尤其是深度学习方面的能力。按照这种速度发展下去,AWS产品几乎就要把大数据版图的所有的基础设施和分析细分领域都占据了。

    加入云大战稍晚的Google一直在积极开发广泛的大数据产品(BigQuery、DataFlow、Dataproc、Datalab以及Dataprep等),并且把AI视为跨越式发展的杀手锏。在AI方面Google去年做了很多事情,包括推出了新的翻译引擎,聘请了李飞飞和李佳领导新成立的Cloud AI and Machine Learning部门,推出了视频识别的机器学习API,并且收购了数据科学家社区Kaggle。

    其他大型的IT供应商,比如微软、IBM、SAP、Oracle以及Salesforce等也在努力推出大数据产品(包括云端和本地)。除了技术自研和进行收购以外,这些玩家还越来越重视通过合作来打造生态链,其合作的重点是手上有数据的公司以及有“头脑(AI)”的公司。IBM与Salesforce的合作以及SAP与Google的合作就是值得注意的案例。

    用企业IT的行业标准来看,云供应商还比较小,但是其不断膨胀的野心(其中包括从企业栈底层的IaaS向应用发展的企图)与企业数据逐渐向云端迁移的趋势结合,将打开庞大的企业技术市场大门,与传统IT供应商展开激战,而大数据和AI将是核心战场。

 

2017数据生态体系概览

基础设施

    去年的许多趋势今年仍将延续,比如流处理技术,这方面Spark目前是主宰,不过像Flink这样的有趣竞争者正在出现。此外,还有以下一些趋势:

SQL正式回归

    在给NoSQL当了10年副手之后,曾经的霸主SQL数据库正式吹响了回归的号角。Google最近发布了Spanner数据库的云端版。Spanner和CockroachDB(Spanner的开源版)都提供了可行的、强一致性的、可伸缩的SQL数据库。Amaozn推出了Athena,跟Snowflake等产品类似,这是一款SQL数据引擎,可直接查询S3下的数据。Google BigQuery、SparkSQL以及Presto等在企业逐渐获得采用——这些都是SQL产品。

 

数据可视化

    与公有云采用相关的一个有趣的趋势是数据可视化。旧的ETL处理需要转移大量的数据(而且往往要建立冗余数据集)并且建立数据仓库,而数据可视化可以在数据保持不动的情况对其进行分析,提高了速度和敏捷性。许多下一代的分析供应商现在都可以同时提供数据可视化和数据准备服务,并让客户可访问存储在云端的数据。

 

 

数据治理与安全

    随着大数据在企业侧走向成熟,以及数据的多样性和体量的不断发展,像数据治理这样的主题也变得日益重要。许多公司已经选择了“数据湖”作为把所有数据收集起来的手段。但除非你知道里面有什么东西,并且能够访问到合适的数据进行分析,否则的话数据湖再大也没有意义。但是想让用户方便地找到想要的东西同时管理好权限并不容易。除了数据湖以外,治理的另一个集中的主题是以安全的、可审计的方式为任何人提供对可靠数据的便捷访问。Informatica、 Collibra、Alation等大小供应商提供了数据目录、参考数据管理、数据字典以及数据帮助台等服务。

结论

    通过大数据与AI的黄金搭档,我们正在进入大数据技术的“收获”阶段。其潜能将非常巨大。随着核心基础设施不断走向成熟,以及在AI推动下应用侧的爆发,2017年的大数据(以及AI)生态体系将开足马力,驶向光明的未来。