在巴塞罗那 StrataHadoop 会议最后一周,在 IBM 新兴互联网技术组织的副总裁罗德·史密斯介绍其正在开发的一款内部产品,它集成了数据源和数据分析以提供客户的咨询工作。使用基于网络IPython 风格的notebook 接口,用户可以搜索数据集,提取数据,并创建可实时嵌入到文档中的可视化。
史密斯说,商人们只有当他们看到时才知道他们想要什么,所以关键是要有一个平台,数据科学家可以在上面快速的开发、并对想法做出原型。这个工具到目前为止仅在内部使用,还有更多的一些技术观点,如它可以直接连接到Python 和Spark 上。最终数据的分析结果,可以很容易地通过REST 接口来对外提供,这样就可以生成例如基于JavaScript 的可视化效果。
notebook 是 IPython 中的一个特性,它提供类似于在 Web 浏览器上文本控制台界面的功能。以此为起点,它一直在扩展,集成了绘图功能,使它变成了一种独立于操作系统的提供图形输出的控制台。 Zeppelin(飞艇)是一个开源项目,它也包括了其他的语言,如 Scala 或 SQL。
这种方法成为会议期间的一个主题。来自 GraphLab 的肖恩·斯库利展示了他们新的数据分析产品 GraphLab Create ,它遵循了非常类似的方法。在现场演示中,斯库利将推荐器(recommender)放在网络笔记本(web notebook)中,然后从那里部署学会(机器学习)的模型。他们的目标是提供一个简单的工具,它允许数据科学家能够快速创建他们所谓的预测应用程序。斯库利表示,与在一种编程语言上开发系统原型,然后重新实现管道(Pipeline)来实现部署不同,通过这种工具你可以轻松地部署管道而无需更改工具集。
预测的 API 也是 PAPIs.io 会议上的焦点,这个会议在 StrataHadoop 会议的前两天举行。据组织会议的 Louis Dorard 说,弥补数据集分析和将分析结果转化为生产之间的差距实际上仍然是个很大的挑战,而他预计在这一领域未来将会有很多的创新潜力。
其中第一个预测应用程序是 Google’s prediction API ,首次发布于 2010 年。最近发布的类似产品有微软 Azure ML ,或 Databricks cloud 提供的基于网络统一接口的类似方法来实现快速原型和部署数据分析的解决方案。
当被问及这些不同的产品最终是否会被合并成统一的解决方案时,罗德·史密斯说,不同的受众仍然需要不同类型的解决方案。像 Databricks cloud,Azure ML,或 GraphLab 工具对数据科学家更适合,他们也可能精通编程,然而他们的工作更侧重于展示一个干净的界面来让数据科学家和商业人士可以更好地交流。总之,“笔记本(notebooks)将成为新的电子表格”。
查看英文原文: IBM, Databricks, GraphLab Present Notebooks as Unified Interfaces for Building Prediction Apps
评论