2016机器学习大盘点（第四篇）

这是机器学习和深度学习领域 2016 年盘点系列文章的第四篇。

第一篇介绍了该领域的重要趋势，包括有关偏见的担忧，互操作性，深度学习的爆发式增长，更加平易近人的超级计算，以及机器学习云平台的涌现。
第二篇介绍了开源机器学习项目，例如 R、Python、Spark、Flink、H2O、TensorFlow 等的重大进展。
第三篇介绍了在软件开发和营销方面有大笔预算，业界领先的大型科技公司在机器学习和深度学习领域的举措。

这一系列的第四篇文章，将介绍机器学习和深度学习领域的 11 家初创公司。在 Crunchbase 使用“机器学习”作为关键字可以搜索到 2,264 家公司，其中包括诸如 MemSQL 这样绝对没有提供机器学习产品，但出于营销等目的进行炒作的公司；同时也包括诸如 Zebra Medical Imaging 这样的应用程序软件和服务供应商，他们在自己提供的服务中融合了机器学习功能。

本文涉及的所有公司均以软件或服务的方式为数据科学家或业务用户提供机器学习工具。这样的范畴使得这些公司的形态非常多样：

Continuum Analytics 、 Databricks 和 H2O.ai 推动开源项目（分别为 Anaconda、Apache Spark，以及 H2O）的发展，并为其提供商业化支持。
Alpine Data 、 Dataiku 和 Domino Data Lab 为数据科学家团队提供商业化许可的协作工具，这些工具都基于开源平台。
KNIME 和 RapidMiner 立足欧洲，培养了庞大的用群体。这两家公司都为业务用户提供了操作大数据平台的接口。
Fuzzy Logix 和 Skytree 主要为数据科学家提供专业化的功能。
DataRobot 为数据科学家和业务用户的预测分析工作提供了完全自动化的工作流，可运行在开源平台上。

有四家公司由于“多年来的不懈努力而值得一提”，但还没有深入介绍过：

两家初创公司 BigML 和 SkyMind 依然处于种子期投资阶段，下文不准备详细介绍，但他们都很值得关注。BigML 是一种机器学习云服务，SkyMind 主要从事 DL4J 开源项目在深度学习方面的发展。
另外两家并不是初创公司，他们的业务已经有超过 30 年的历史。 Salford Systems 为 CART 和 Random Forests 开发了最初使用的软件，多年来该公司在自己的产品中逐渐融入了更多技术，已经培养出一批忠实客户。最近被戴尔放弃的 Statistica 提供了包含多种功能的统计学程序，在用户满意度调查中，该公司的表现非常稳定。

另外我还想在这里感谢为这一系列文章出谋划策的人：Sri Ambati、Betty Candel、Leslie Miller、Bob Muenchen、Thomas Ott、Peter Prettenhofer、Jesus Puente、Dan Putler、David Smith，以及 Oliver Vagner。

Alpine Data

这家原名 Alpine Data Labs 的公司在 2016 年改名换帅。Alpine 从品牌名中取消了“Labs”的字眼，我猜他们不希望人们误以为他们是那种检测标本的公司，所以这家公司现在叫 Alpine Data 。公司前任 CEO Joe Otto 现在担任“顾问”，CEO 一职由 Dan Udoutch 接任，这位“经验丰富的高管”有着超过 30 年的业务经验，但对机器学习或深度分析领域全无了解。该公司还在 2016 年换掉了自己的 CFO 和销售主管，也许是因为他们的投资人对 Alpine 的业务成果极为满意吧。

该公司最初的产品主要运行在 Greenplum 数据库上，并在 2013 年上半年将一些算法移植到 MapReduce。随着 Hadoop 兴起，Alpine 在 2013 年 11 月结束了风投轮投资，正是在那时大家开始意识到MapReduce 并不适用于机器学习。该公司很快转向Spark，Databricks 在2014 年对Alpine 的Spark 技术进行了认证，随后该公司逐渐将自己的分析产品移植到其他新框架。

(点击放大图像)

似乎针对Spark 重建对Alpine 来说是个苦差事，因为该公司自2013 年起再没能吸引新一轮投资。作为一种“共识”，有成果的初创公司会每12-24 个月获得新一轮的投资，而无法获得新一轮投资的公司主要是因为成果不够醒目。投资人并不蠢，他们更像是从不乱叫的狗，无法获得风投轮的投资对于一家公司的前景来说“别有深意”。

产品新闻方面，该公司在5 月发布了一个大版本： Chorus 6 ，并在 9 月发布了 Chorus 6.1 。新版的改进包括：

与 Jupyter notebooks 集成。
更多机器学习算法。
Spark 自动调优。Chorus 可将处理任务推送至 Spark，同时 Alpine 开发了一种可以对所生成的 Spark 代码进行调优的优化器。
PFA 支持模型导出。这是一项很棒、很先进的功能。
运行时性能改进。
用户体验调整。

Alpine 的工程副总裁 Lawrence Spracklen 将在波士顿举行的 Spark Summit East 活动中介绍 Spark 的自动调优。

潜在用户与客户应当寻找能证明这是一家“能活下来的公司”的证明，例如新一轮投资，或能证明该公司现金流良性发展的金融审计。

Continuum Analytics

Continuum Analytics 开发并支持着 Anaconda ，这是一种面向数据科学家的开源 Python 发行版。Anaconda 产品的核心包括：管理应用程序、软件包、环境以及渠道的桌面 GUI 工具 Navigator；数据科学领域广泛运用的 150 个 Python 软件包；以及有关性能的优化。Continuum 还为 Anaconda 提供了商业化许可，借此可获得更好的缩放性、更高性能，以及更好的易用性。

(点击放大图像)

Anaconda 2.5发布于 2 月，该版本真对 Intel Math Kernel Library 进一步优化了性能。从这个版本开始，Continuum 将 Anaconda 与 Microsoft R Open 捆绑在了一起，后者是一款增强的免费 R 发行版。

2016 年，Continuum 为自己的 Anaconda 平台增加了两个重要的补充技术：

Anaconda Enterprise Notebooks ，一种增强版的 Jupyter notebooks。
Anaconda Mosaic ，一种对异构数据创建编录的工具。

该公司还公布了与 Cloudera 、 Intel ，以及 IBM 等合作。9 月，Continuum披露了总额4 百万美元的股权融资。该公司的这一轮融资非常低调，甚至没有新闻通稿，估计是因为认购不足吧。

Continuum 的 AnacondaCon 2017 大会将于 2 月 7-9 日在奥斯丁举办。

Databricks

Databricks 领导着 Apache Spark 的开发（已在本系列文章的第二篇进行过介绍），并提供了基于Spark 的托管式云服务。该公司还提供有培训和认证，并负责组织Spark 峰会。

2013 年，Spark 的首批开发者团队创建了 Databricks。该公司员工至今依然在 Apache Spark 项目中扮演了重要角色，不仅大量参与项目管理委员会的职务，而且比其他任何公司为该项目贡献了更多的代码。

(点击放大图像)

2016 年，Databricks 在自己的核心托管服务中提供了一个仪表板工具，并为作业和群集管理工作提供了一个 RESTful 接口。这一年里，该公司作出的最大改进主要围绕 Databricks安全框架，他们通过了企业安全领域的SOC 2 Type 1 认证，同时公布了 HIPAA 合规认证并将该技术发布至 Amazon Web Services 的 GovCloud，主要用来处理敏感数据和在管控方面有特殊要求的工作负载。

Databricks 还提供了一个免费的社区版本，在MOOC 上提供了包含五部分的免费系列课程，同时完成了Spark 用户社区的年度调查，并组织了三场 Spark 峰会。

12 月，Databricks公布了总值6 千万美元的“C”轮风险投资。该轮投资由New Enterprise Associates 领导，并有Andreessen Horowitz 参与。

Dataiku

Dataiku 主要开发并推广 Data Science Studio （DSS），这是一种适用于机器学习和高级分析的工作流和协作环境。用户可通过拖拽式界面与软件交互，DSS 可将处理任务推送至 Hadoop 和 Spark。该产品还包含到各类文件系统、SQL 平台、云数据存储，以及 NoSQL 数据库的连接器。

(点击放大图像)

2016 年，Dataiku 发布了 3.0 和 3.1 版产品。主要新功能包括 H2O 集成（通过 Sparkling Water）、支持额外的数据源（IBM Netezza、SAP HANA、Google BigQuery，以及 Microsoft Azure Data Warehouse）、增加了对 Spark MLLib 算法的支持、性能及其他方面的改进等。

10 月，Dataiku结束了金额1400 万美元的“A”轮风险投资。本次投资由FirstMark Capital 领导，并有Serena Capital 参与。

DataRobot

DataRobot ，这家位于波士顿的初创公司由保险行业的老手成立，所提供的自动化机器学习平台将内部经验与“测试并学习”的方法有效融为一体。通过使用开源后端，与该公司同名的软件可以通过不同算法的组合进行搜索，完成预处理、特征归纳和转换任务，并对参数进行调优，借此真对具体问题确定最适合的模型。

(点击放大图像)

该公司的团队成员包含获奖的数据科学家Kaggle，借助此人的经验，他们可以更好地识别新出现的机器学习算法，对工程技术进行归纳，并对方法进行优化。2016 年，DataRobot 为自家产品增加了很多新功能，包括支持Hadoop 部署，通过TensorFlow 实现深度学习，能够对预测结果进行解释的推断代码，特征影响分析，以及其他模型部署功能。

DataRobot 还宣布了与 Alteryx 和 Cloudera 的结盟。Cloudera 为该公司颁发了顶级认证：证明该公司的软件可以集成于Spark、YARN、Cloudera Service Descriptors 以及Cloudera Parcels。

2016 年上半年，DataRobot结束了 3300 万美元的 B 轮融资。New Enterprise Associates 领导此轮融资，并有 Accomplice、Intel Capital、IA Ventures、Recruit Strategic Partners，以及 New York Life 参与。

Domino Data Lab

Domino Data Lab 提供的 Domino Data Science Platform （DDSP）是一种可以在本地、私有云，或 Domino 在 AWS 基础架构中托管的云环境中运行，可缩放的协作环境。

(点击放大图像)

DDSP 为数据科学家提供了共享的项目管理环境和可缩放的计算平台，可运行各类开源和商业化许可的软件，支持作业调度和追踪，并能通过 Shiny 和 Flask 发布。Domino 支持回滚、修订历史、版本控制和复制功能。

11 月，Domino公布已完成1050 万美元的“A”轮融资，本次融资由Sequoia Capital 领导，并有Bloomberg Beta、In-Q-Tel，以及Zetta Venture Partners 参与。

Fuzzy Logix

Fuzzy Logix 推广的 DB Lytix 是一种包含超过八百个机器学习和高级分析函数的库。这些函数可作为数据库表函数运行于关系型数据库（Informix、MySQL、Netezza、ParAccel、SQL Server、Sybase IQ、Teradata Aster 以及 Teradata Database）中，并可通过 Hive 支持 Hadoop。

用户可以通过 SQL、R、或通过自定义 Web 接口使用 BI 工具调用 DB Lytix 函数。这些函数支持广泛的机器学习能力，包括特征工程（Feature engineering），通过不同算法的组合对模型进行训练，以及模拟和蒙特卡洛分析。所有函数均支持原生的数据库内记分。该软件可扩展能力极高，Fuzzy Logix 还组建了由经验丰富的顾问和开发者组成的团队，进行自定义应用程序的开发工作。

4 月，该公司宣布 DB Lytix 已经可用于 Teradata Aster Analytics，所有认为 Aster 从此“站立起来了”的人都对此感到激动。

H2O.ai

H2O.ai 开发并支持着 H2O，这个开源的机器学习项目曾在本系列文章的第二篇介绍过。正如在第二篇中所说，H2O.ai 已将用于与Spark 集成的Sparkling Water更新至 2.0 版，并发布了模型部署框架 Steam 的生产用版本，同时发布了 Deep Water 预览版，这是一个供深度学习系统使用由 GPU 加速的后端所用的接口。

(点击放大图像)

2016 年，H2O.ai 新发展了 3,200 家企业组织客户，以及超过 43,000 名用户，他们家的开源社区也扩展涵盖了全球超过 8,000 家企业和接近70,000 名用户。针对数据科学家的年度性KDnuggets投票调查显示，该公司的产品用量已经翻了三倍。新增客户包括Kaiser Permanente、Progressive、Comcast、HCA、McKesson、Macy’s，以及eBay。

KNIME

KNIME.com AG 是一家位于瑞士苏黎世的商业化企业，该公司基于 GPL 许可发布 KNIME Analytics Platform ，但同时允许第三方在自己的专有扩展中使用这些 API。KNIME Analytics Platform 以图形化用户界面和形象化的工作流为主要特征，用户可以通过拖拽式工具构建任务管道，随后可以交互式或批处理的方式运行。

(点击放大图像)

KNIME 产品可通过商业化的许可获得更完善的缩放性、与更多数据平台的集成、协作，以及生产力功能。该公司还为这些扩展软件提供了技术支持。

2016 年，KNIME 提供了两个 Dot 发布和三个维护版本。在 3.2 和 3.3 版的开源版产品中增加的新功能包括：基于社区使用量统计信息进行推荐的 Workflow Coach ，流式执行，特征选择，树编排和梯度提升树，DL4J 深度学习，以及其他诸多改进。6 月，KNIME 在 Microsoft Azure 上发布了 KNIME Cloud Analytics Platform。

KNIME 于 9 月在美国举办了首场峰会，并宣布将通过O’Reilly Media 提供在线培训课程。

RapidMiner

位于马萨诸塞州剑桥的 RapidMiner 开发并支持着 RapidMiner，这是一款简单易用的业务分析、预测式分析及优化软件包。该公司成立于 2006 年（当时名为 Rapid-I），主要负责推动 RapidMiner 软件项目的开发、支持和推广。公司于 2013 年将总部搬迁至美国。

(点击放大图像)

该公司软件的桌面版本名为 RapidMiner Studio ，分为免费版和商业化许可的版本。RapidMiner 还提供了商业化许可的服务器版本以及 Radoop ，后者是一种扩展，可将处理任务推送至 Hive、Pig、Spark 和 H2O。

RapidMiner 在 2016 年公布了 7.x 版产品，该版本更新了用户界面。从 7.0 到 7.3 版的其他改进包括：新的数据导入功能，与 Tableau 的集成，并行交叉验证，以及与 H2O 的集成（特征深度学习、梯度提升树，以及通用的线性模型）。

该公司还提供了一个名为 Single Process Pushdown 的功能，该功能使得 RapidMiner 用户能够为 RapidMiner 管道提供原生的 Spark 和 H2O 算法，并通过 Hadoop 执行。7.3 版的 RapidMiner 开始支持 Spark 2.0。

2016 年 1 月，RapidMiner完成了 1600 万美元的股权融资，本次融资由 Nokia Growth Partners 领导，并有 Ascent Venture Partners、Earlybird Venture Capital、Longworth Venture Partners，以及 OpenOcean 参与。

Skytree

Skytree 开发并推广了与公司同名的机器学习商业化许可软件包。为了将原本学术目的的机器学习项目（佐治亚理工大学的 FastLab）货币化，公司创始人于 2012 年开始接受风投。

(点击放大图像)

该公司于2013 年接受 1800 万美元的风险投资，在这之后再没有进行融资。（这意味着什么？看看上文中我对 Alpine Data 的看法吧。）更重要的是，该公司产品所用的底层算法似乎从那时起就没有进行过太多改动，不过 Skytree 到是陆续增加并放弃了几个加载项和外围组件。

用户可通过 Skytree 命令行接口（CLI）、Java 和 Python API，或基于浏览器的 GUI 用户界面与软件交互。输出结果包含以直白的英文对模型的解释。Skytree 通过网格搜索（Grid search）功能实现了参数化，并将其注册为 AutoModel 商标，称这是个“革命性”的功能，并试图对其申请专利。不懂网格搜索的分析师都认为这个功能很惊艳。

2016 年，Skytree 提供了一种基本功能免费，高级功能收费的版本，名为 Skytree Express 。相信只要再坚持半年，到时候他们会付钱吸引你试用的。

与 Alpine Data 的情况类似，如果你喜欢 Skytree 的技术，请等待该公司完成下一轮融资，或让该公司提供能证明现金流一切正常的证据。

作者

Thomas W. Dinsmore ，阅读英文原文： THE YEAR IN MACHINE LEARNING (PART FOUR)

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

创作场景

2016 机器学习大盘点（第四篇）

Alpine Data

Continuum Analytics

Databricks

Dataiku

DataRobot

Domino Data Lab

Fuzzy Logix

H2O.ai

KNIME

RapidMiner

Skytree

作者