写点什么

自动化数据科学与机器学习:Auto-sklearn 开发团队访谈

  • 2017-04-18
  • 本文字数:2382 字

    阅读完需:约 8 分钟

本文中文版已获原文作者 Matthew Mayo 授权。

在最近由 Kdnuggets 举办的自动化数据科学与机器学习博客大赛中,Auto-sklearn 开发团队勇夺了冠军。Matthew Mayo 采访了 Auto-sklearn 开发团队,了解了 Auto-sklearn 项目的基本情况,以及开发人员的背景和自动化数据科学的动态。

KDnuggets 最近举办了一场自动数据科学和机器学习博客比赛,获得了众多参赛者的作品提交,涌现了许多获奖作品以及一系列的荣誉称号。

来自弗莱堡大学的Matthias Feurer、Aaron Klein 和Frank Hutten 撰写的题为“ Contest Winner: Winning the AutoML Challenge with Auto-sklearn ”的获奖作品,概要介绍了 Auto-sklearn ,一个可以自动确定有效的机器学习管道进行分类和回归数据集的开源 Python 工具。这个项目围绕成功的 scikit-learn 库而构建,并赢得了不久前的 AutoML 挑战。

鉴于这篇文章如此受欢迎,我们询问了作者是否有兴趣谈谈关于自己和项目的轶事,以及自动化数据科学的一些后续问题。以下是访谈记录。

Matthew Mayo:首先祝贺你们的 Auto-sklearn 项目在 KDnuggest 自动化数据科学和机器学习博客大赛获胜!你们能为读者介绍一下团队成员,并讲述你们每个人的背景情况吗?

Matthias Feurer:我是 Frank 集团的二年级博士生,致力于超参数优化和自动化机器学习。大多时间,我对预定义机器学习管道的优化感兴趣。在我硕士研究生期间,就开始为 Frank 工作,在我的大部分学习项目中,经常为超参数的调整而感到困扰。

Aaron Klein:我也是 Frank 集团的二年级博士生,研究方向是超参数优化和自动化机器学习。像 Matthias 一样,在加入 Frank 集团之前,我是弗赖堡大学的硕士生。

Frank Hutter:我是弗莱堡大学计算机科学系的助理教授,主要从事人工智能、机器学习和自动化算法设计。在来到弗赖堡大学之前,我在加拿大温哥华不列颠哥伦比亚大学工作了九年。

所有:除了我们三个人(撰写了 KDnuggets 博客大赛的博文),我们的团队还包括来自弗赖堡大学的博士生和博士后:Katharina Eggensperger、Jost Tobias Springenberg、Hector Mendoza、Manuel Blum、Stefan Falkner 和 Marius Lindauer。

这篇文章非常翔实,很好地描述了 Auto-sklearn。您希望我们的读者在了解 Auto-sklearn 或自发布以来的任何进展有什么需要额外注意的吗?对于它的未来发展计划,有什么可以分享给读者吗?

我们的短期目标是回归,以便我们可以做更多的工作。而我们的长期目标,是希望 Auto-sklearn 能够成为 scikit-learn 灵活的扩展,能够帮助用户优化机器学习管道。我们还要沿着 Auto-Net 的方向进行更多的工作,通过考虑跨数据集、跨数据子集和基于时间的任意时间算法(anytime algorithms)来显著地加速优化过程。

那么,你认为机器学习和数据科学在多大程度上可以自动化?所谓的全自动化系统需要何种程度的人机交互?

尽管有一些方法可以用来调试机器学习管道的超参数,但是目前为止,很少有工作能发现新管道。Auto-sklearn 以固定的顺序使用一系列的预定义的预处理器和分类器。加入一个方法对于找到新管道很有效,那么这个方法将会很有用处。当然,人们可以继续这种思路,并尝试自动寻找新的算法。最近,已经有几篇论文这样做了。比如 Learning to learn by gradient descent by gradient descent。当机器学习模型进行训练过于费时费钱时,人们可以调整超参数,比自动化方法做得更好,例如最先进的用于大型数据集的深层神经网络。我们正在努力将专家的启发式方法转换为完全形式化的算法,比如我们的 Fabolas 方法先从较小数据子集上开始优化神经网络的超参数,从而加快了解全部数据集的最佳超参数。

考虑到先前的问题,短期之内数据科学家是否会失业?或者,如果让脑洞大开,目前被媒体大肆炒作的数据科学家,将来会不会被自动化压制?如果是这样的话,会有什么样的程度?

当然不是,我们发展自动化机器学习方法是为了向数据科学家提供帮助,而不是代替他们。这些方法使数据科学家摆脱了讨厌复杂的任务(比如说超参数优化),机器可以很好地解决这些任务。然而数据分析与结论获取仍然需要人类专家来完成,尤其是通晓应用领域的数据科学家仍然非常重要。然而我们相信,自动化将会提高数据科学家的工作效率,因此,这有可能确实会影响到数据科学家需要做的工作量。

数据科学家能够做什么来避免被淘汰的命运?当然,提出这个问题并非捣乱,而是为了增加本次采访的价值。

分析和解释统计分析的结果,总得由数据科学家来完成,因此,对于开始数据科学工作的年轻毕业生来说,掌握这个技能可能比其他技能更为永不过时(例如,手动调整超参数以充分利用神经网络)。

您过去一直积极参与机器学习比赛,您有什么有趣的技巧、诀窍或见解与读者分享吗?

自动化和仔细的重采样策略。由于自动化允许进行大量实验,为防出现过拟合(overfitting),因此需要像仔细的交叉验证那样的重采样策略。进一步开放思想也是非常重要的,只需让数据来说明哪种方法对数据集效果最好。

最后一个问题,你认为在五年内,机器学习技术将会到达什么样的水平?

未来会怎么样,这很难预测,这点在机器学习领域尤为如此。要知道在五年前,并没有人预见到深度学习的兴起。但是我们相信,机器学习将会越来越普遍,在大家都使用的商业工具中将会见到机器学习的身影。

非常感谢您百忙之中抽出这一点宝贵的时间接受我的采访。

相关资料

原文链接:


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-04-18 19:004081
用户头像

发布了 375 篇内容, 共 186.4 次阅读, 收获喜欢 945 次。

关注

评论

发布
暂无评论
发现更多内容

喜讯|麦杰科技入选首批《上海市重点产业和领域数字化产品和解决方案推荐目录》

麦杰研究院

捷途山海 T2—— 安全堡垒,护航人生

科技热闻

【FAQ】HarmonyOS SDK 闭源开放能力 —Map Kit(3)

HarmonyOS SDK

HarmonyOS

开源向量数据库性能对比: Milvus, Chroma, Qdrant

Zilliz

性能测试 Milvus 向量数据库 Chroma qdrant

Web网页端IM产品RainbowChat-Web的v7.2版已发布

JackJiang

即时通讯;IM;网络编程

【CST教程】如何在CST中设置自由边界

思茂信息

cst 电磁仿真 边界条件

研发效能中的黄金三角与瓶颈突围

思码逸研发效能

研发效能 绩效 绩效管理 效能度量 绩效分析

Swap丨DAPP开发:兑换交易所质押项目LP分红系统

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 代币开发

飞码LowCode前端技术(七)

京东科技开发者

计算不停歇,百度沧海数据湖存储加速方案 2.0 设计和实践

Baidu AICLOUD

大数据 hdfs 数据湖 对象存储

VMware Cloud Director 10.6 发布,新增功能概览

sysin

vmware Cloud Director

儋州市等保测评机构有哪些?在哪里?

行云管家

等保 等保测评机构 澶州

2025云堡垒机公司就选行云绽放!

行云管家

云计算 网络安全 云堡垒机

飞码LowCode前端技术(六)

京东科技开发者

研发数据要不要跟绩效考核挂钩?

思码逸研发效能

DevOps 研发效能 绩效管理 研发效能度量

按图搜索的智能化:拍立淘API返回值的算法解析

技术冰糖葫芦

API Explorer API 文档 API 测试 API 性能测试

商品详情数据API接口详解与数据应用参考

代码忍者

pinduoduo API API 性能测试

VMware Aria Operations 8.18 发布,新增功能概览

sysin

vmware aria Operations

数字身份管理建设是传统社会向数字社会演进的核心关键

芯盾时代

数字身份 身份安全

冲击美团!已成功 OC

王中阳Go

Go 面试 后端

智源发布原生多模态世界模型Emu3 实现图像、文本、视频大一统

智源研究院

飞码LowCode前端技术(五)

京东科技开发者

Java 如何确保 JS 不被缓存

威哥爱编程

js Java’

人工智能 | 阿里通义千问大模型

测试人

人工智能 软件测试

VMware ESXi 8.0U3 HPE (慧与) 定制版更新 OEM BIOS 2.7 支持 Windows Server 2025

sysin

macos windows esxi OEM 2.7

CAE教程:HyperMesh概述与有限元分析简介

智造软件

仿真 hyperworks 有限元

DApp众筹项目互助模式系统开发详细步骤与功能设计

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 钱包开发 代币开发

比特币矿工该如何选择矿池?请收下这份 2024 年六大比特币矿池指南

TechubNews

“特斯拉式”创新,被这家科技卫浴品牌极致演绎

Alter

5gWiFi IPQ6010 vs. IPQ5010 Battle of the WiFi 6 Titans:  - Which One Should You Choose?

wifi6-yiyi

5G wifi

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS 2.7 Dell HPE 定制版 9 月更新发布

sysin

macos windows esxi OEM 2.7

自动化数据科学与机器学习:Auto-sklearn开发团队访谈_语言 & 开发_Matthew Mayo_InfoQ精选文章