InfoQ导读： 相信读者们在科幻电影中肯定没少见过可触控的空中全息 3D 技术，再加上人工智能，真是炫酷得不要不要的。这真是的幻想吗？不，在研究人员的努力下，我们正一步一步走向未来。

多年来，麻省理工学院（MIT）和布朗大学的研究人员一直在开发一种交互式系统，让用户可以在任何触摸屏上进行拖放并操纵数据，包括智能手机和交互式白板。现在，他们已经开发了一个工具，可以立即自动生成机器学习模型，对这些数据运行预测任务。

该系统允许非专业人员使用机器学习模型对医学研究、销售等进行预测。

在《钢铁侠》系列电影中，Tony Stark 使用全息计算机将三维数据投射到空气中，用双手操纵它们，并找到解决超级英雄麻烦的方法。同样，麻省理工学院和布朗大学的研究人员现在开发了一套可在触摸屏上运行的交互式数据分析系统，让每个人，而不仅仅是像 Tony 那样的亿万富翁技术天才，都能够解决现实问题。

多年来，研究人员一直在开发一种名为 Northstar 的交互式数据科学系统，该系统在云端中运行，但它的界面支持任何触摸屏设备，包括智能手机和大型交互式白板。用户馈送系统数据集，并使用手指或数字笔在用户友好的界面上操作、组合和提取功能，以发现趋势和模式。

在 ACM SIGMOD 会议上发表的一篇论文中，研究人员详细介绍了 Northstar 的一个新组件，称为 VDS，意为“虚拟数据科学家”（virtual data scientist），它可以立即生成机器学习模型，以便在数据集上运行预测任务。例如，医生可以使用该系统来帮助预测哪些患者更容易患上某些疾病，而企业主可能希望预测销售额。如果使用交互式白板的话，每个人都可以实时协作。

其目的是，通过使复杂的分析变得简单、快速和准确，从而实现数据科学的民主化。

“即使是不懂数据科学的咖啡店老板，也应该能够预测未来几周的销售额，从而计算出应该购买多少咖啡。”Tim Kraska 说，他是麻省理工学院计算机科学与人工智能实验室（Computer Science and Artificial Intelligence Laboratory，CSAIL）的电子工程与计算机科学副教授，也是新成立的数据系统和人工智能实验室（Data System and AI Lab，DSAIL）的创始联席主任。“在拥有数据科学家的公司中，数据科学家和非专家之间有很多反复来回的沟通，所以我们也可以把他们带到一个房间来一起进行分析。”

VDS 是基于一种日益流行的人工智能技术，称为自动机器学习（AutoML），这种技术让缺乏数据科学知识背景的人们能够训练人工智能模型，使其根据他们的数据集进行预测。目前，该工具在 DARPA D3M 自动机器学习竞赛中处于领先地位，这种竞赛每六个月评出性能最佳的自动机器学习工具。

与 Kraska 共同撰写论文的有：第一作者 Zeyuan Shang，研究生；还有 Emanuel Zgraggen，博士后，也是 NorthStar 的主要贡献者。他们都是 EECS、CSAIL 和 DSAIL 的成员。Benedetto Buratti、Yeounoh Chung、Philipp Eichmann 和 Eli Upfal 都在布朗大学；而 Carsten Binnig 最近从布朗大学转到了德国达姆施塔特工业大学。

用于分析的“无界画布”

这项新研究是建立在麻省理工学院和布朗大学的研究人员在 Northstar 项目上多年合作的基础之上。四年多来，研究人员发表了大量论文，详细介绍了 Northstar 的组件，包括交互式界面、多平台操作、加速结果以及对用户行为的研究。

Northstar 一开始是一个空白的白色界面。用户将数据集上传到系统中，这些数据集将显示在左侧的“datasets”（数据集）框中。任何数据标签都会自动填充下面单独的“attributes”（属性）框。还有一个“operators”（操作）框，其中包含各种算法，以及新的 AutoML 工具。所有数据都存储在云端中并进行分析。

研究人员喜欢在包含重症监护病房患者信息的公共数据及上演示该系统。以医学研究人员为例，他们想要检查某些疾病在某些年龄组中的共同发病情况。他们将一个模式检查算法拖放到界面的中间，这个算法最初显示为一个空白框。作为输入，他们进入标有“blood”、“infectious”和“metabolic”的疾病特征框。数据集中这些疾病的百分比显示在框中。然后，他们将“age”特征拖到界面中，界面显示了患者年龄分布的条形图。在两个框之间画一条线将它们连接在一起。通过圈定年龄范围，该算法可以立即计算出这三种疾病在年龄范围内的共同发病情况。

Northstar 交互式界面的主要发明者 Zgraggen 说：“这就想一张巨大的、没有边界的画布，你可以在上面展示你想要的一切，然后，你可以将所有内容链接在其，来创建有关数据的更复杂的问题。”

近似自动机器学习

使用 VDS，用户现在还可以对数据进行预测分析，方法是通过定制让模型适合其任务，例如数据预测、图像分类或分析复杂的图形结构。

就上面的例子而言，医学研究人员希望根据数据集中的所有特征来预测哪些病人可能患有血液疾病。他们从算法列表中拖放“AutoML”。它将首先生成一个空白框，但带了一个“target”（目标）标签，在这个标签下面，他们会将“blood”特征拖入其中。系统就将自动找到性能最佳的机器学习管道，以标签的形式显示，并不断更新正确率的百分比。用户可以随时停止该过程，改进搜索，并检查每个模型的错误率、结构、计算和其他内容。

据研究人员称，VDS 是迄今为止最快的交互式 AutoML 工具，这在一定程度上要归功于他们定制的“估算引擎”。引擎位于界面和云端存储之间。该引擎利用自动创建数据集的几个代表性样本，这些样本可以逐步处理，以在几秒钟内生成高质量的结果。

Shang 表示，“我和合作作者花了两年的时间设计 VDS 来模仿数据科学家的思维方式，”这意味着它可以根据各种编码规则，立即确定应该或不应该在特定任务上运行的模型和与处理步骤。它首先从大量可能的机器学习管道列表中进行选择，并在样本集上运行模拟。在做此事过程中，它会记住结果并改进选择。

Kraska 说，“对于使用预测器，你肯定不希望为了得到第一个结果需要等上四个小时。你想知道发生了什么，如果发现错误，可以立即纠正。而这在其他系统中通常是不可能完成的任务。”事实上，研究人员之前的用户研究表明，“一旦你延迟向用户提供结果的那一刻，他们就会开始与系统失去联系。”

研究人员在 300 个真实数据集上对该工具进行了评估。与其他最先进的 AutoML 系统相比，VDS 的近似值同样准确，但生成时间只有几秒钟，这点比其他工具要快得多，须知其他工具生成结果需要几分钟到几个小时不等。

接下来，研究人员希望增加一个功能，提醒用户注意潜在的数据偏差或错误。例如，为了保护患者隐私，有时候研究人员会在医疗数据集中标注为 0 岁（如果他们不知道年龄的话）和 200 岁（如果患者年龄超过 95 岁）的标签。但是新手可能不会意识到这样的错误，这可能会完全打乱他们的分析。

“如果你是一个新用户，你可能会得到结果，并认为他们很棒，”Kraska 说，“但我们可以警告人们，事实上，数据集中可能存在一些异常值，这些异常值可能表明存在问题。”

原文链接：Drag-and-drop data analytics

创作场景

麻省理工交互式数据科学系统 Northstar：将复杂分析变得简单快速、人人可用