评人工智能技术发展、产业与玩家：与“大数据”同生同涨

本文是 TalkingData"数说 AI"人工智能专栏供稿，未经授权请勿转载。

2016 年，AlphaGo 战胜李世石引爆了新的舆论点，人工智能（AI）以及其背后的机器学习（machine learning）、深度学习（deep learning）进入了更多人的讨论视野。HBO 最近推出的人工智能题材连续剧《西部世界》又再次激发了人们对人工智能的关注，人们开始思考，未来的世界会不会真的有人工智能意识觉醒的那天。不过，在担心人工智能是否会打败人类之前，不妨先仔细思考一下人工智能是怎么产生的。

人工智能的驱动力是什么

就目前而言，人工智能的产生需要足够的硬件能力支撑、匹配的机器学习算法和充足的数据资源。人们常提到，大数据与人工智能将会是未来发展的两大趋势，这容易让人误解为这是两个平行、独立发展的领域。但实际上，大数据是人工智能发展的基础，人工智能的发展往往是紧随大数据的发展。按照华裔人工智能专家吴恩达（Andrew Ng）的说法是，数据是人工智能的燃料，如果只有很大的引擎（算法）而没有充足的数据作为燃料，人工智能这艘火箭是无法实现腾飞的。

按照各个时期不同的驱动力，我们可以将 AI 的发展分为三个阶段：数据技术驱动阶段、数据驱动阶段和情景驱动阶段。三个阶段的 AI 发展对数据的要求各不相同，但从总体上看，人工智能与大数据之间是同生同涨的有机关系。每一次人工智能的增长，大数据行业都起着重要的推动作用。数据量级的增长、计算能力的提升、存储效率的优化、数据可分析程度的提高……都在加快人工智能的发展。其中，数据是人工智能发展的一个重要的竞争优势来源。

图 1：AI 的三阶段发展与数据的关系（资料来源 TalkingData）

人工智能 1.0：技术驱动

人工智能发展的第一个阶段，是集中诞生基础理论的阶段。这个阶段奠定了人工智能发展的基本规则，并诞生了基本的开发工具，为日后人工智能的研发工具的升级开辟了先河。在这个阶段，技术的发展，尤其是算法的发展，成了推动人工智能进步的最大动力。达特茅斯会议之后，人们对于算法程序和语言开发投入了极大热情，掀起了人工智能发展的第一波高潮。

公认的人工智能发展起点是 1956 年于美国达特茅斯学院举办的第一节人工智能会议。尽管这次会议并未达成普遍的共识，但是却为会议确定了主题：人工智能。第一批的人工智能研究从此开始。

图 2：2006 年，达特茅斯会议五十年后，当事人重聚达特茅斯。（左起：摩尔，麦卡锡，明斯基，赛弗里奇，所罗门诺夫）

1946 年，人类历史上第一台电子计算机 ENIAC 诞生，尽管它有点笨重，但是毫无疑问广泛应用于人工智能和计算机领域。计算机与编程算法的相继出现，从技术层面推动了人工智能的发展。研究者们乐此不疲地运用新的算法和计算工具去解决应用题、证明几何定理、学习和使用英语……每一次的成功都进一步增强了人们对人工智能的信心。他们甚至认为”在二十年内，机器将能完成人能做到的一切工作“。这一目标显然是高估了人工智能发展速度。

计算机性能的瓶颈、计算复杂性的指数级增长、数据量的缺失，使得人工智能的研究停滞不前，人们逐渐对人工智能的发展逐渐丧失信心，人工智能研究进入了第一个低谷期。

人工智能 2.0：数据驱动

人工智能发展的第二个阶段，是数据推动人工智能更新迭代的阶段。这个阶段，可获得和分析的数据飞速增长，不仅磨练和提高了计算的能力，使人工智能的大规模运算成为可能，并且也反过来倒逼了数据的采集、清洗和积累，以及相应的软硬件基础设施的发展——这些都带动了大数据行业的腾飞。大企业在这个阶段发挥出了规模优势，成为了推动人工智能发展第二波高潮的主要动力。

从 1981 年 IBM 推出第一台个人电脑起，到 1993 年美国政府宣布实施“国家信息基础设施”计划，也就是我们常说的信息高速公路，电子计算机与信息数据从实验室走进普通人的生活，人工智能的研究不再只是局限于实验室的理论，针对日常生活的具体应用也在不断增多。在这一阶段，数据主要从两方面来影响人工智能的发展：

一方面，大量的数据要求人工智能不断提高其计算能力。信息时代数据量的快速增长，对整个人工智能的处理水平提出了更高的要求。人类大脑对数据的处理是十分强悍的，人的大脑拥有几百亿个脑细胞，每个脑细胞大约有几百条脑神经，每条脑神经上又有几百个突触，每个突触的作用又相当于一块计算机芯片。计算机人工智能如果想要实现与人类相似的智能水平，就必须要具备相应的计算能力。1997 年，IBM“深蓝”在世界象棋中战胜世界棋王卡斯帕罗夫，最重要原因就是其强悍的数据处理能力。在研发过程中，IBM 研制小组向”深蓝“输入 100 年来所有国际特级大师开局和残局的下法。“深蓝”每秒能够进行 2 亿次的运算，能够通过计算预判之后的 12 步，对比做出最优的决策。

图 3：卡斯帕罗夫对战深蓝

另一方面，大量的数据也在不断地训练着人工智能。数据量的增加对人工智能而言，不是负担，而是财富，因为数据能帮助训练人工智能，使结果更加精准。回顾“深蓝”，令人惊叹的计算能力并不意味着它就是坚不可摧的。深蓝在 1996 年第一次挑战时，就以 2：4 败给卡斯帕罗夫。在之后的一年，研发团队引入美国特级大师本杰明，将他对象棋的理解变成程序教给“深蓝”。此外，在与卡斯帕罗夫每一场对战后，都不断挑战系统参数，强迫“深蓝”进行学习。

如果说主要作为实验室研究成果的“深蓝”并不足以说明数据对于人工智能的重要性，那不妨看看目前占据位居全球市值 TOP5 中的谷歌与亚马逊。谷歌的搜索引擎与亚马逊的智能推荐系统都是人工智能的具体应用领域，在大量数据的训练下，无论是谷歌的搜索结果，还是亚马逊的推荐结果，都越来越精准——这构成了两家数据公司的核心竞争力。

人工智能 3.0：情景驱动

人工智能发展的第三个阶段，是情境推动人工智能更深入到具体应用的阶段。随着人工智能的技术发展和数据积累，行业逐渐发现短期内通用智能和强人工智能是难以实现的，数据分布的情境化特性使得人工智能在特定情境下的垂直发展成为了可能。

这个阶段，新的实用情境的识别与发现，以及对该情境的人工智能解决方案的研究，极大的推动了人工智能行业的前进。移动互联网时代，各种移动终端设备的出现，使得数据呈现指数级的增长。相对于之前，现阶段的“数据”包含的信息量越来越大、维度越来越多，从图像、声音等富媒体数据，到动作、姿态、轨迹等人类行为数据，再到地理位置、天气等环境数据……按照以往数据处理的思路已经难以适应“数据”本身的发展。这对于人工智能应用者来说，既是惊喜，又是挑战，因为一个融合人类智慧、人工智能以及海量数据的智能数据时代已经来临。

在围棋领域战胜人类的 AlphaGo 已是人工智能的典型代表，但除了 AlphaGo，人工智能研究中更多的是各种具体应用。2011 年，苹果推出语音虚拟助手 Siri，让人们开始体验“人机对话”，当用户懒得输入时，便可以直接询问 Siri。尽管 Siri 刚推出时的回答经常让人啼笑皆非，但是大量的数据训练使 Siri 的语音识别越来越精准，反馈的答案也让用户越来越满意。2014 年，亚马逊推出语音智能家庭管家 Echo，人们无需触碰手机，就能直接唤醒 Echo，让其完成指令，享受智能家居。

图 4：Siri 能够回答越来越多的问题

人们更能感受到的是生活中的各类推荐系统（比如图书、音乐、新闻相关的手机 App），在搜集用户的个性化数据之后，利用机器学习，为用户反馈出独一无二的结果。一直将自己定义为科技公司而非媒体公司的“今日头条”便是利用数据获取成功的典型案例。大量场景化的数据为人工智能应用于各种情景提供了发展的土壤，没有数据就不会有智能。李开复也曾提到，人工智能更适合于拥有大数据、且数据量可以实现自我推动的公司，没有数据的人工智能是无法前行的。

情景驱动对应用型人工智能企业的数据处理能力提出了要求。企业不仅需要采集数据，还需要利用深度学习将这些数据转化为人工智能的“知识”，最后根据企业的需求，转化为相应的应用决策。也就是说，应用型的企业至少要形成纵向的生态链，才能实现完成整个场景闭环。令人庆幸的是，有些公司提供的智能数据平台能够协助企业完成整个数据流程的服务，让企业无需重新开发一套自己的平台系统。以 TalkingData 的智能数据平台（SmartDP）为例，SmartDP 能够提供数据管理、数据科学、数据工程的能力，企业能够利用这一平台与自己的具体产业行业相结合，全面利用数据创造更多商业价值。结语

互联网的发展将大家带入了大数据的时代，而智能数据时代是大数据时代的新的阶段。人工智能与大数据一样，对社会经济起到赋能的作用，帮助人类感知、认知、分析和预测这个世界。

对于人工智能这艘火箭，算法是引擎，数据是燃料。当行业日渐开放，越来越多的算法选择了开源，此时数据便成为了影响人工智能成败的关键点。丰富、多维度的情景化数据使人工智能更多更深的被应用起来，而人工智能的深度应用，又产生了更加海量、精准、高质量的面向情景的数据，为模型的进一步优化提供了条件。

对于未来，我们相信，人工智能和大数据将会共同发展，给人类带来更加智能的生活。

人工智能的“微笑曲线”

『在过去一年中，中国大陆在人工智能领域进行了 202 次投资，共涉及 10 亿美元（约合人民币 68 亿元），市场规模庞大。纵览全球，据 Venture Capital 调查报告，截至 2016 年 11 月，全球范围内总计 1485 家与人工智能技术有关公司的融资总额达到了 89 亿美元。大量的投资资金涌入人工智能行业，整个行业呈现一种欣欣向荣的景象。』

图１：全球 AI 初创企业投资资金（资料来源 CB Insights）

重要科技业者施振荣先生曾提出有名的施氏“产业微笑曲线”，这一理论影响了台湾产业的中长期发展。从数据流通的角度看，看似一片繁荣的人工智能产业，也呈现出“微笑曲线”的特性。

一、数据视角下的人工智能行业价值链

从数据流通的角度出发，我们可以将行业价值链分为供给、流通、分析、需求四个环节。人工智能行业价值链也会存在一个微笑曲线：数据交易市场的完善与分析算法的趋同使这两个环节的附加价值不断降低；而数据的供给测与最后的解决方案则会成为附加价值最高处。因此，占据特别的数据来源，将别人无法结构化的数据进行结构化转化，或者发现适合人工智能解决的实际需求并提供解决方案，成为价值最高的环节。

图 2：人工智能行业价值微笑曲线

(1) 供给环节

供给环节也就是采集数据的环节，是让人工智能所使用的数据进入到流通环节的入口。现阶段数据的供给主要有三种：

自筹数据，即从零开始，投入大量资源采集数据。但是，这需要解决采集什么（要求企业资深对数据有更深的理解）、如何采集（要求企业具备数据采集的能力，包括线上和线下）以及采集以后如何处理（技术平台、指标体系、发布利用等）的问题，有可能需要引入有经验的第三方数据解决方案提供商，比如 TalkingData 这样已经在金融、地产等领域有深厚积累的企业
公共数据，例如美国、英国、加拿大、新西兰等国家政府都已经有自己的线上数据平台，我国地方政府也在逐步走向开放，比如香港、上海、北京、武汉、无锡、佛山和南海等城市也都已经初步上线了数据平台。
产业数据协同，即下游创业公司或行业公司和产业链上游的数据或平台型公司建立合作，连接对双方均有利的产品或数据。国内有价值的产业数据一般集中在 BAT 巨头的生态体系中，对外开放度相对有限。企业也可以寻求一些第三方的数据平台公司合作。

简单的结构化数据无法满足人工智能的发展需求，人工智能的应用需要大量的能够反映用户信息、行为的非结构化、情景化数据作为支撑，这些数据往往需要通过具有针对性的识别才能转化为后期可利用的数据。而非结构化数据的识别需要投入大量的研发，这形成了一个较高的技术壁垒，决定了真正核心、具有高价值的情景化数据最后只会集中在少数企业手中。对于整个人工智能产业价值链而言，这一部分所能带来的价值无疑是巨大的。

(2) 流通环节

数据流通的环节也就是数据整合、交易的环节。对于分析层与应用层的人工智能厂商而言，他们的不一定会涉及到数据的采集的自行采集。此时，直接向拥有数据采集经验的基础层厂商购买数据绝对是最高效易行的方式。

目前国内的数据交易市场发展并不成熟，许多数据交易都是企业之间直接点对点地进行，缺乏一个完善的数据交易市场体系。在未来，无论是大数据还是人工智能，都需要大量的多源化数据作为支撑，数据交易机制的形成成为一个必然的趋势。

数据交易市场的存在是必不可少的，它是消除交易摩擦、促进市场连接与匹配的重要工具。但从产业价值链的角度出发，数据流通环节并不会参与全新的价值创造，这决定了数据流通环节所带来的产业附加值并不会太高。

(3) 分析环节

人工智能的分析环节，也就是人工智能利用数据级逆行建模、迭代算法的环节。目前人工智能的算法研究，主要集中于学术科研机构与国际领先的互联网厂商，如 Google、Facebook、微软等企业，这些机构与实验室为前瞻性的理论算法研究做出来不少贡献。此外，在某些具体的行业领域，也会出现一些具有的算法企业，它们的算法更具有针对性。

大型企业的人工智能实验室，逐渐将最新的人工智能算法开源，供全球人工智能研究者共同借鉴和使用。其中的典型案例就是谷歌的 DeepMind，所使用的系统正是来自于 Facebook。行业内一些创业公司也在加大开源的力度，比如 TalkingData 在今年也开源了超大规模算法引擎 Fregata，能够在 10 亿样本、1 亿维度的数据集上快速训练模型，大大降低数据科学在工程上的门槛和成本。

算法可是算是人工智能的核心引擎，没有合适的算法，人工智能将无法实现。算法的开源推动了全球人工智能产业的发展，对于许多相对小型的企业而言，这将成为它们算法的基础。不过，这也意味着，在算法分析层面上，各厂商之间的差距并不会太大。

(4) 需求环节

需求环节也就是将现实中的需求转化为人工智能需要解决的目标问题集，并概念化成一套亟待解决的方案的环节。在需求环节中，往往对应着明确的行业解决方案，而这些方案的结果最终也将以潜移默化的形式出现在具体的日常应用之中。例如，如果你在 Facebook 上厌倦了各种晒娃的动态，但你无需命令式地告诉它：“不要再出现这些晒娃照了！”。Facebook 可以通过往期的浏览速度、浏览历史等判断你是否对类似内容感兴趣，并在之后逐渐减少相关信息的推送。这一看似简单的功能正是对人工智能应用的典型案例。

但是想实现人工智能的解决方案应用并不容易，问题的发现与解决方案的提出都需要投入大量的人力、物力，但这也是人工智能走出实验室，走向生活应用的关键一步，其产生的价值也是相对较高的，这也意味着对人工智能技术提出了很高的要求。

二、微笑曲线对 AI 行业的影响

由于这样微笑曲线的存在，未来中国人工智能行业的发展会呈“两化”趋势——生态化和开源化。

(1) 生态化

为了满足人工智能对数据多源的需求，人工智能公司会倾向于在数据供给和需求两方形成壁垒并打通端到端全价值链，形成生态是必然趋势；中小企业将存活于交易和算法两个环节，依附于大公司的生态。最后会以数据的流通、算法的不断迭代提升为基础，形成端到端的闭环生态。

(2) 开源化

为了满足人工智能向通用人工智能 / 强人工智能发展过程中对数据多源性、交叉性的要求，数据生态的开放性将进入一个新的阶段——大规模开源阶段。许多顶尖的技术和算法确实都是免费提供的，并且很容易就能下载。比如，Google、Facebook、微软等巨头都已投入大量资源在支持 AI 开源社区，同时众多初创企业也在努力参与。

图 3：世界知名科技媒体 InfoWorld 的 BOSSIE Awards 每年都会评选出最佳开源算法项目

AI 开源社区持续升温，原因至少有两点：

首先，AI 公司和组织是由科学家和学术研究推动的，他们自身的理念推崇共享和公开发表自己的研究成果。

第二，开源可以抬高行业的壁垒：如果大家都认可使用 TensorFlow 可以做到什么，那么另一家竞争者如果想要取代谷歌的的地位，至少需要证明自己也可以提供不逊于 TensorFlow 的能力。同时开源还会培养数据科学家的忠诚度，因为一旦他们适应了 TensorFlow，就会在下意识的把尽可能多的工作都建立在 TensorFlow 之上——这就挤占了别的开放平台的生存空间。Bostrom 在 2016 年的一篇文章中说过，短期内，更高的开放度可能会加速 AI 的普及。软件和知识都是非竞争性商品，这也会让更多的人使用它。人们可以用最低的成本在此前顶级的应用和技术基础之上进行开发，或者修正 bugs。对于大公司来说，这也是塑造品牌的一个良机。

目前的人工智能行业依旧处于初创期的混战状态，大多数企业的业务内容差异性并不明显，市场格局尚不稳定。但随着市场的成熟，在价值链“微笑曲线”的驱动下，由数据所连通的 AI 产业将会向生态化的方向发展。在市场竞争稳定之前，如何选择合理的企业定位，规划自己的企业发展路径将成为每个企业必须要慎重考虑的事情。

数据视角下的 AI 产业布局与玩家分类

2006 年，“深度学习”神经网络的出现，使人工智能的发展又迎来了一个小高潮。越来越多的学术界研究者步入工业界，又为人工智能的应用发展增加了强劲的动力。图像识别、语音识别、语意转换、姿态识别……人工智能在各个领域的识别应用令人眼花缭乱，不知如何区分。就在你为各个领域划分而感到困扰时，不妨换个思路，从数据的角度去审视人工智能的各个层次，这是因为，无论是哪个领域的人工智能，都离不开数据的训练。

如果将这些人工智能相关的技术如果按照数据处理和应用的生命周期来划分，可以归结成三大类人工智能技术：基础类人工智能技术、分析类人工智能技术、应用类人工智能技术。如果将这三类技术作为纵坐标，以行业垂直领域作为横坐标，可以将现在国内的人工智能竞争领域划分成如下的一个行业结构图：

图 1：数据视角下人工智能行业布局示意图（资料来源 TalkingData）

一、数据视角下的 AI 技术划分

AI 技术的发展离不开硬件设备的支持，硬件支持构成了人工智能发展的基础。在人工智能的整个应用过程中，数据贯穿始终。根据数据生命周期，在数据的生命历程的各个环节——收集、链接、准备，认知、分析，预测——都会有不同的企业进行分工。有些企业能够打通数据上周期的多个环节，形成端到端的交付能力。按照对数据的利用程度不同，我们可以将人工智能大致划分为三个阶段，基础搜集阶段、数据分析阶段与具体应用阶段。目前有些企业是深耕于某一具体层面，而有些企业则是打通数据利用上下游，形成完整的产业链。

按照人工智能对数据的利用程度，我们大致可以将其划分为三个层次：基础层、分析层与应用层。

图 2：纵向角度人工智能产业分布（资料来源 TalkingData）

（1）基础层

人工智能的基础层，主要从事的是搜集数据，并将自然语言、图片、视频等非结构化信息转化为结构化的可用于分析的信息。这些内容看上去相对简单，与人们印象中通用的人工智能相差甚远。但事实上，正是这些看似简单的部分，构成了人工智能的基础。基础层的发展，推动了人类对于非结构化数据的处理，这将丰富后期人工智能应用的进行。

（2）分析层

分析层主要是利用基础层已经获得的数据，利用算法对其进行分析。在具体的分析过程中，往往会根据领域的不同和数据的差异化，选择合适的算法。然后不断对算法进行优化，以得到更好的分析洞察。目前以谷歌为首的人工智能领先企业在逐渐将算法开源，这在一定程度上拉动了整个算法领域的发展，推动着人工智能的进步。

（3）应用层

应用层主要是将人工智能应用于特定领域，例如医疗、金融、自动驾驶等。这部分企业往往提供最终的、可实际操作的人工智能产品。相对于基础层与分析层，应用层的企业往往涉及的领域层次会更广，或多或少会利用到具体的算法分析。

二、企业玩家分类及各自的速赢策略

在前文提到的在行业布局中，由于不同的人工智能企业在纵向上打通的程度不同，横向覆盖的行业范围也不同，总体上来说，我们可以将现有市场上的人工智能企业分为五种类型的玩家：

（1）硬件驱动者：

这类企业的核心优势是硬件集成性、计算能力以及一体化能力。GPU 虽然最初是为了提高计算机图像渲染效率而生，但因为具有很强的并行计算的能力，所以也大量应用于深度学习，为深度学习提供了硬件支撑。为了在市场上占有一席之地，各大硬件厂商争相推出定位在机器学习的硬件设备，在 GPU 芯片方面，Nvida 很早就开始布局，推出了很多款不同配置的 GPU 芯片，占领低中高端市场，并专门为深度学习推出了 GeForce 1080P 和 Tesla K40 和 K80。尤其是 GeForce 1080P，具有极高的性价比，一经推出，一卡难求。Intel 也不甘人后，推出了适合深度学习的大规模参数服务器。Google 有深度学习的一体机，并计划开放云端的计算资源。Amazon 也专门在 AWS 上面推出了配置 GPU 硬件的主机，供数据科学从业人员使用。。

（2）入口占有者：

入口占有者，也就是把握住数据供给和需求端口的企业。这类企业的核心优势是数据和需求的洞察和采集。一般行业的数据都有较强的行业特点，但是会遇到数据类型单一的挑战，提升数据价值会有一定难度，必须引入外部数据源来补充数据维度，于是产生了对数据供应商的需求。一些企业针对这种情况，着眼于对数据的汇聚、治理和增值，开始构建数据市场，打通自己的数据和第三方数据，逐步提高数据价值，并累积属于自己的数据资产。当这部分数据资产积累到一定程度，会形成壁垒，掌握上下游玩家的数据流向。

（3）算法服务提供者：

算法提供者是指拥有较强的算法能力并能够以服务方式提供的企业。这类企业的核心优势是算法的可复制性、可扩展性和研发迭代的速度。由于开源社区的活跃，很多开源算法包已经能够满足用户的需求，算法本身已经无法形成足够的壁垒，比如，在数据量很大的情况下，可以用 TalkingData 大规模机器学习算法包 Fregata，小数据量的时候可以用基于 Python 的 Sklearn 或基于 Java 的 Weka 等。在深度学习方面，Facebook 开源了 Caffe，Google 开源了 TensorFlow，百度开源了 Paddle……这些框架都具有相当的成熟度，用它们能够很快搭建深度学习模型。

但是开源算法有时候并不能完全匹配使用场景，所以又出现一些企业能提供更加专业的算法模型训练的服务，以帮助客户规避模型训练带来的风险和成本，比如 Explosion 就为客户提供类似的服务，甚至如果客户对模型结果不满意，就不收费。这类公司拥有专业的数学和工程方面的人才，通常对某些问题有自己的专业解决方案，在算法的优化和模型的训练上面积累了大量的经验，从而能够提供高效优质的服务。由于算法科学方面人才的紧缺，也出现了一些算法服务平台，算法科学家可以把算法代码托管到平台上，使用者按照某种模式（比如，调用次数）付费。

（4）垂直领域玩家：

垂直领域玩家是指在探索数据在垂直行业的智能化应用的企业。这类企业的核心优势是对于该垂直领域需求的深耕和闭环的运营。在探寻智能行业应用的过程中，通常以自身行业应用场景和需求为出发点，围绕新兴数据的生命全周期，快速构建“数据平台层、数据分析层、数据应用层”的智能化应用建设体系，挖掘出契合、提升自身业务体系效率或模式的数据智能化应用，实现行业产能的提升。

以医疗科技公司 Lifegraph 开发的移动健康产品为例，智能可穿戴设备为实时采集用户健康信息提供了可能（基础层）。Lifegraph 围绕医疗专家智库建立智能化情感与健康识别模型（分析层），帮助医师与病患家属实时交流病患健康信息（应用层），保障病患异常信息被有效监测，从而降低病患事故发生的概率。传感器技术的发展，为 Lifegraph 拓展了数据维度；通过与专业医疗机构的合作，快速定位移动医疗健康产业需求，并获取专家知识能力，开发垂直领域数据产品，形成行业竞争优势。

其他垂直领域案例还包括 Tele-Lauguage 的医疗智能代理语音治疗，Mapquest 的智能交通规划，K-12 的教育辅助机器人，蚂蚁金服的芝麻信用，今日头条等等。

（5）生态领域玩家：

生态领域玩家是指能够建立起跨行业、跨业态、贯穿数据生命周期的数据平台、分析平台以及应用平台的智能数据科技企业。这类企业通常具备极强的平台技术能力，通过平台向合作伙伴提供数据整合、分析和算法能力，并最终在平台上实现横向差异化、纵向专业一体化的数据应用服务能力。为了快速建立行业壁垒、形成竞争优势，生态领域玩家必须具备至少三种核心能力：

一是具备较强的数据平台与自有数据优势，支撑生态合作伙伴的数据整合，帮助生态上的合作伙伴的数据交换与整合，加速完整的数据视图的构建，实现各种场景化数据的有效支撑。

二是具备较强自有数据科学优势，与合作伙伴进行能力互补，依托合作伙伴垂直领域的专业性，快速构建行业智能数据分析能力，实现对多维度数据的钻取，加速从数据到数据价值挖掘的进程。

三是具备较强的客户渠道优势或品牌优势，以合作伙伴为应用验证场景，加速垂直领域智能数据应用的形成，快速复制并输出。

比如， Google 生态中的 Niantic Labs 与任天堂在数据与技术上紧密合作，最终推出了风靡全球的游戏 Pokemon Go（精灵宝可梦）。百度生态中的百度联盟以平台为支撑，与广告生态商进行数据合作，最后形成国内最大的网盟之一。苹果移动设备的功能生态与 IBM 达成合作，通过 IBM 的集客资源与大数据能力，打造更加垂直的商业应功能。

数据贯穿了人工智能的始终，虽然不同层级和领域的企业对数据的应用程度和应用方式各不相同，但是对数据数量和质量上的要求是相同的。许多学术界学者开始进入工业界的一大原因，就是因为工业界拥有大量、一手的数据——这是人工智能发展必不可少的动力与燃料。李开复曾提到，人工智能更适用于拥有大数据基础，且数据量可以实现自我推动的公司，所以，在加入人工智能领域的竞争之前，不妨先看看自己的数据准备是否充分。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

创作场景