AI前线导读：

事实证明，从大数据到数据分析再到AI的转变是一个很自然的过程。这不仅是因为这个过程有助于调整人类的思维模型，或者因为大数据和数据分析在被AI夺去光彩之前浸淫在AI的各种炒作中，主要还是因为我们需要通过大数据来构建AI。

更多干货内容请关注微信公众号“AI前线”（ID：ai-front）

AI走向主流只用了几年时间，尽管在很多方面已经取得了快速进展，但真正了解AI的人并不多，能够掌握AI的人就更少了。

2016年，AI炒作刚刚开始，很多人在提到“AI”一词时仍然十分谨慎。毕竟，多年来我们一直被灌输要尽量避免使用这个术语，因为这些事情已经引起了混乱，它们承诺过度，却无法兑现。事实证明，从大数据到数据分析再到AI的转变是一个很自然的过程。

这不仅是因为这个过程有助于调整人类的思维模型，或者因为大数据和数据分析在被AI夺去光彩之前浸淫在AI的各种炒作中，主要还是因为我们需要通过大数据来构建AI。

让我们回顾一下Big Data Spain（BDS）大会，它是欧洲最大和最具前瞻性的大会之一，标志着从大数据到AI的转变，并尝试回答一些与AI相关的问题。

在真正成功之前，我们能先假装成功吗？

简单地说：不行。Gartner分析成熟度模型的一个要点是，如果你想构建AI功能，就必须在可靠的大数据基础上进行。

其中一部分是关于存储和处理大量数据的能力，但这真的只是冰山一角。现在的技术解决方案已经琳琅满目，但要构建AI，你不能忘了人和流程。

更具体地说：不要忘了组织中的数据素养和数据治理。如果你认为可以通过某种方式跨过数据分析的演化链在你的组织中开发AI解决方案，那么请三思。

Stratio首席执行官Oscar Mendez在他的主题演讲中强调，要超越华而不实的AI，需要采取整体方法。做好数据基础设施和数据治理，并在此基础上训练正确的机器学习（ML）模型，这样可以获得令人印象深刻的结果。但这些可以带给你的好处是有限的，Alexa、Cortana和Siri的日常失误足以证明这一点。

关键是要具备上下文和推理能力，以便更接近地模拟人类智能。并不是Mendez一个人这么认为，因为这也是AI研究人员同样持有的观点，例如深度学习领域顶级的思想家之一Yoshua Bengio。深度学习（DL）在模式匹配方面表现优异，数据和计算能力的爆发让它在基于模式匹配的任务中胜过人类。

然而，智能并非只是关于模式匹配。推理能力不能只通过ML方法来建立——至少现在不行。因此，我们需要整合远离炒作的AI方法：知识表示和推理、本体论等。这是我们一直在倡导的，并且看到了它在BDS上很受推崇，这是一种正面的肯定。

应该将AI外包吗？

简单地说：也许可以，但应该要十分谨慎。我们可以直截了当地说：AI其实很难。是的，AI绝对应该建立在数据治理的基础之上，因为这无论如何对你的组织来说都是有好处的。有些组织，比如Telefonica，通过执行战略计划设法从大数据转向AI，但这并非易事。

这一点已经被一份相当可靠的ML采用调查报告所证实，超过1万1千多个受访者参与了这次调查。来自Derwen的Paco Nathan展示了O’Reilly的一份调查的结果，这或多或少地证实了我们的想法：采用AI和没有采用AI的组织之间的差距越来越大。

在AI采用频谱的一边是谷歌和微软这样的领导者：他们将AI作为其战略和运营的核心要素。他们的资源、数据和技术成为他们领导AI竞赛的先决条件。然后是AI采用者，他们在自己的领域中应用AI。然后是落后者，他们陷于技术债务之中，无法在AI采用方面做出任何有意义的事情。

从表面上看，AI领导者提供的产品似乎是在普及“AI”。谷歌和微软都在BDS上展示了这些，他们做了一些演示，在几分钟内通过点击的方式就构建出一个图像识别应用程序。

很明显，他们在向我们传达这样的一个信息：让我们来操心模型和培训的事，你只要专注在你领域内的细节上。我们可以识别机械部件——只需要提供给我们特定的机械部件就可以了，然后你该干什么干什么去。

谷歌还在BDS上发布了一些新产品：Kubeflow和AI Hub。它们背后的想法是编排ML管道，类似于Kubernetes为Docker容器提供的应用程序。这些并不是唯一能够带来类似优势的产品。它们看起来有点诱人，但你应该使用它们吗？

谁不想直接跳过AI这道坎，拿到想要的结果，而且不需要面对那么多麻烦？这确实是一种可以让你领先于竞争对手的方法。但问题是，如果你完全将AI外包，那么你就无法获得在中长期内自给自足所需的技能。

想想数字化转型。是的，数字化、探索技术和重新设计流程也是很难的。并非所有组织都能做到，或者有能力投入足够的资源，但那些做到的组织现在已经跑在了前面。AI具有类似甚至更大的颠覆潜力。因此，可以立即获得成果固然好，但AI的投资仍然应该被视为战略的重点。

当然，你可以考虑外包基础设施。对于大多数组织而言，维护自己的基础设施的数量并未增加。在云端运行基础设施所带来的规模经济性和领先优势将带来实质性好处。

我们将去向何处？

简单地说：就像登月一样。ML反馈闭环似乎正在全面展开，因此，采用者试图跟上，落后者保持滞后，但领导者却越来越领先。

Pablo Carrier在演讲指出，如果你尝试线性提高DL的准确率，计算量将呈指数级增长。在过去六年中，计算量增加了1000万倍。即使是谷歌云也很难跟上，更不用说其他的了。

Google Cloud AI技术主管Viacheslav Kovalevskyi在开始他的“分布式DL理论和实践”演讲之前，警告说：如果有可能，请避免使用它。如果你真的必须这么做，请注意与分布式相关的开销，并准备在计算和复杂性以及基础账单方面付出代价。

Kovalevskyi提供了一些不同的使用分布式DL的历史视角——分布数据、模型或二者。分布数据是最简单的方法，分布两者是最难的。但是，无论如何，分布式DL仍然是一个“童话之地”——通过增加k倍计算时间，你并不会获得k倍的性能提升。

当然，Google的演示主要关注Google Cloud上的TensorFlow，但这不是唯一可用的方法。Databricks刚刚宣布支持HorovodRunner，通过Horovod来辅助分布式DL。Horovod是一个开源框架，由Uber推出，谷歌也在使用它。

微软数据科学家和Azure数据/AI技术专家Marck Vaisman在他的演讲中提出了替代方案，他使用了Python和R，而不使用Spark。他介绍了Dask，一个Python开源库。Dask承诺为分析提供高级并行性，可以与Numpy、Pandas和Scikit-Learn等项目协同工作。

最后，图和图数据库也是整个BDS的关键主题：微软的知识图、AWS Neptune和Oracle Labs。

云计算、分发式以及在ML中引入图结构是未来需要关注的一些关键主题。

英文原文：https://www.zdnet.com/article/from-big-data-to-ai-where-are-we-now-and-what-is-the-road-forward/

创作场景

从大数据到 AI：AI 的现状和未来