写点什么

麻省理工交互式数据科学系统 Northstar:将复杂分析变得简单快速、人人可用

  • 2019-07-02
  • 本文字数:2771 字

    阅读完需:约 9 分钟

麻省理工交互式数据科学系统Northstar:将复杂分析变得简单快速、人人可用

InfoQ 导读: 相信读者们在科幻电影中肯定没少见过可触控的空中全息 3D 技术,再加上人工智能,真是炫酷得不要不要的。这真是的幻想吗?不,在研究人员的努力下,我们正一步一步走向未来。


多年来,麻省理工学院(MIT)和布朗大学的研究人员一直在开发一种交互式系统,让用户可以在任何触摸屏上进行拖放并操纵数据,包括智能手机和交互式白板。现在,他们已经开发了一个工具,可以立即自动生成机器学习模型,对这些数据运行预测任务。


该系统允许非专业人员使用机器学习模型对医学研究、销售等进行预测。


在《钢铁侠》系列电影中,Tony Stark 使用全息计算机将三维数据投射到空气中,用双手操纵它们,并找到解决超级英雄麻烦的方法。同样,麻省理工学院和布朗大学的研究人员现在开发了一套可在触摸屏上运行的交互式数据分析系统,让每个人,而不仅仅是像 Tony 那样的亿万富翁技术天才,都能够解决现实问题。


多年来,研究人员一直在开发一种名为 Northstar 的交互式数据科学系统,该系统在云端中运行,但它的界面支持任何触摸屏设备,包括智能手机和大型交互式白板。用户馈送系统数据集,并使用手指或数字笔在用户友好的界面上操作、组合和提取功能,以发现趋势和模式。


在 ACM SIGMOD 会议上发表的一篇论文中,研究人员详细介绍了 Northstar 的一个新组件,称为 VDS,意为“虚拟数据科学家”(virtual data scientist),它可以立即生成机器学习模型,以便在数据集上运行预测任务。例如,医生可以使用该系统来帮助预测哪些患者更容易患上某些疾病,而企业主可能希望预测销售额。如果使用交互式白板的话,每个人都可以实时协作。


其目的是,通过使复杂的分析变得简单、快速和准确,从而实现数据科学的民主化。


“即使是不懂数据科学的咖啡店老板,也应该能够预测未来几周的销售额,从而计算出应该购买多少咖啡。”Tim Kraska 说,他是麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的电子工程与计算机科学副教授,也是新成立的数据系统和人工智能实验室(Data System and AI Lab,DSAIL)的创始联席主任。“在拥有数据科学家的公司中,数据科学家和非专家之间有很多反复来回的沟通,所以我们也可以把他们带到一个房间来一起进行分析。”


VDS 是基于一种日益流行的人工智能技术,称为自动机器学习(AutoML),这种技术让缺乏数据科学知识背景的人们能够训练人工智能模型,使其根据他们的数据集进行预测。目前,该工具在 DARPA D3M 自动机器学习竞赛中处于领先地位,这种竞赛每六个月评出性能最佳的自动机器学习工具。


与 Kraska 共同撰写论文的有:第一作者 Zeyuan Shang,研究生;还有 Emanuel Zgraggen,博士后,也是 NorthStar 的主要贡献者。他们都是 EECS、CSAIL 和 DSAIL 的成员。Benedetto Buratti、Yeounoh Chung、Philipp Eichmann 和 Eli Upfal 都在布朗大学;而 Carsten Binnig 最近从布朗大学转到了德国达姆施塔特工业大学。



用于分析的“无界画布”


这项新研究是建立在麻省理工学院和布朗大学的研究人员在 Northstar 项目上多年合作的基础之上。四年多来,研究人员发表了大量论文,详细介绍了 Northstar 的组件,包括交互式界面、多平台操作、加速结果以及对用户行为的研究。


Northstar 一开始是一个空白的白色界面。用户将数据集上传到系统中,这些数据集将显示在左侧的“datasets”(数据集)框中。任何数据标签都会自动填充下面单独的“attributes”(属性)框。还有一个“operators”(操作)框,其中包含各种算法,以及新的 AutoML 工具。所有数据都存储在云端中并进行分析。



研究人员喜欢在包含重症监护病房患者信息的公共数据及上演示该系统。以医学研究人员为例,他们想要检查某些疾病在某些年龄组中的共同发病情况。他们将一个模式检查算法拖放到界面的中间,这个算法最初显示为一个空白框。作为输入,他们进入标有“blood”、“infectious”和“metabolic”的疾病特征框。数据集中这些疾病的百分比显示在框中。然后,他们将“age”特征拖到界面中,界面显示了患者年龄分布的条形图。在两个框之间画一条线将它们连接在一起。通过圈定年龄范围,该算法可以立即计算出这三种疾病在年龄范围内的共同发病情况。


Northstar 交互式界面的主要发明者 Zgraggen 说:“这就想一张巨大的、没有边界的画布,你可以在上面展示你想要的一切,然后,你可以将所有内容链接在其,来创建有关数据的更复杂的问题。”



近似自动机器学习


使用 VDS,用户现在还可以对数据进行预测分析,方法是通过定制让模型适合其任务,例如数据预测、图像分类或分析复杂的图形结构。


就上面的例子而言,医学研究人员希望根据数据集中的所有特征来预测哪些病人可能患有血液疾病。他们从算法列表中拖放“AutoML”。它将首先生成一个空白框,但带了一个“target”(目标)标签,在这个标签下面,他们会将“blood”特征拖入其中。系统就将自动找到性能最佳的机器学习管道,以标签的形式显示,并不断更新正确率的百分比。用户可以随时停止该过程,改进搜索,并检查每个模型的错误率、结构、计算和其他内容。


据研究人员称,VDS 是迄今为止最快的交互式 AutoML 工具,这在一定程度上要归功于他们定制的“估算引擎”。引擎位于界面和云端存储之间。该引擎利用自动创建数据集的几个代表性样本,这些样本可以逐步处理,以在几秒钟内生成高质量的结果。


Shang 表示,“我和合作作者花了两年的时间设计 VDS 来模仿数据科学家的思维方式,”这意味着它可以根据各种编码规则,立即确定应该或不应该在特定任务上运行的模型和与处理步骤。它首先从大量可能的机器学习管道列表中进行选择,并在样本集上运行模拟。在做此事过程中,它会记住结果并改进选择。


Kraska 说,“对于使用预测器,你肯定不希望为了得到第一个结果需要等上四个小时。你想知道发生了什么,如果发现错误,可以立即纠正。而这在其他系统中通常是不可能完成的任务。”事实上,研究人员之前的用户研究表明,“一旦你延迟向用户提供结果的那一刻,他们就会开始与系统失去联系。”


研究人员在 300 个真实数据集上对该工具进行了评估。与其他最先进的 AutoML 系统相比,VDS 的近似值同样准确,但生成时间只有几秒钟,这点比其他工具要快得多,须知其他工具生成结果需要几分钟到几个小时不等。


接下来,研究人员希望增加一个功能,提醒用户注意潜在的数据偏差或错误。例如,为了保护患者隐私,有时候研究人员会在医疗数据集中标注为 0 岁(如果他们不知道年龄的话)和 200 岁(如果患者年龄超过 95 岁)的标签。但是新手可能不会意识到这样的错误,这可能会完全打乱他们的分析。


“如果你是一个新用户,你可能会得到结果,并认为他们很棒,”Kraska 说,“但我们可以警告人们,事实上,数据集中可能存在一些异常值,这些异常值可能表明存在问题。”


原文链接Drag-and-drop data analytics


2019-07-02 16:058738
用户头像

发布了 375 篇内容, 共 189.3 次阅读, 收获喜欢 945 次。

关注

评论 1 条评论

发布
用户头像
非常棒的数据可视化交互方案。很多时候,现行的可视化交互的问题在于太过于简单,就是简单的统计,无法对于源数据进行更深层次的分析,如果要这样做,那就需要单独写脚本或者sql来实现,但这又会打断已有的思路。智能化提供众多的分析维度和深度,有益于解决大部分现在的问题。不过计算的消耗及人工智能呈现的数据维度会不会限制人的思考,也还是个问题。总之,数据分析师可能要被替代了,得赶紧进阶到数据科学家啊。
2019-07-02 17:37
回复
没有更多了
发现更多内容

进大厂必刷的Java面试题

钟奕礼

Java java程序员 java面试 java编程

索引数据结构千千万 , 为什么B+Tree独领风骚

程序知音

Serverless 的前世今生

阿里巴巴云原生

阿里云 Serverless 云原生

我服了,阿里挖过来的leader连垃圾回收都说不清楚

钟奕礼

Java java程序员 java面试 java编程

微服务平滑迁移上云最佳实践

阿里巴巴云原生

阿里云 微服务 云原生

一个 3 年 Java 程序员 5 家大厂的面试总结(已拿Offer)

钟奕礼

Java java程序员 java面试 java编程

PG SQL 语法汇总

蜗牛也是牛

小令观点 | 急需身份证扫描件?【A4证照扫描王】来帮你

令牌云数字身份

软件推荐 入职 打印 证照扫描

首份关基安全国标刚发布,客户把我叫到了办公室......

青藤云安全

网络安全 青藤云安全

三个经典的MySQL问题

千锋IT教育

聊聊mybatis的架构模块

急需上岸的小谢

11月月更

聊一聊华为云弹性公网IP的那些事儿

爱尚科技

行业首个测试开发技术大赛开始报名啦~ 10万现金奖励等你来挑战

测吧(北京)科技有限公司

软件测试

HDC.Cloud Day | 全国首场上海站告捷,聚开发者力量造梦、探梦、筑梦

华为云开发者联盟

云计算 华为云

Python3.10的开发环境的搭建

千锋IT教育

PCB焊接出问题了,是PCB工程师的锅吗?

华秋PCB

PCB PCB设计 焊接

一个关于X证券20000台服务器的血泪故事

青藤云安全

网络安全 青藤云安全

数据库索引相关和EFCore的索引映射

C++后台开发

数据库 后端开发 Linux服务器开发 C++开发 数据库索引

Wallys//IPQ6010/IPQ6018/IPQ6000/industrial wifi6 router/DFS/M.2/ 2x2 2.4GHz/5GHz

wallysSK

IPQ6010 ipq6018 IPQ6000

防止会议被入侵,华为云会议更专业

IT科技苏辞

聊聊mybatis的反射之Reflector类

急需上岸的小谢

11月月更

Docker搭建私有registry镜像仓库

蜗牛也是牛

基于云原生网关的可观测性最佳实践

阿里巴巴云原生

阿里云 微服务 云原生 可观测

简述SpringAOP的实现原理

千锋IT教育

聊聊索引

急需上岸的小谢

11月月更

被性能优化撂倒无数次后的顿悟!465页调优笔记助力大厂面试之旅

程序知音

Java JVM 性能调优 java架构 后端技术

开源|ftlog升级啦!功能更强,性能更高,细节更极致

非凸科技

cdr2023最新试用版下载CorelRAW2023

茶色酒

CorelRAW2023

阿里P8大佬神创“Netty突击笔记”,堪称全网最全最牛逼的核心原理手册

程序知音

Java Netty JAVA开发 java架构 后端技术

【Go】力扣 - 剑指 Offer 第五天 - 二维数组中的查找

陈明勇

Go 数据结构与算法 力扣 11月月更

1000道最新高频Java面试题,覆盖25个技术栈(多线程、JVM、高并发、spring、微服务、kafka,redis、分布式)从底层原理到架构!

程序知音

Java Java 面试 大厂面试 java架构 后端技术

麻省理工交互式数据科学系统Northstar:将复杂分析变得简单快速、人人可用_大数据_Rob Matheson_InfoQ精选文章