QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

专访 NeurIPS “新方向”奖得主:“负面结果”如何影响深度学习?

  • 2020-02-18
  • 本文字数:3306 字

    阅读完需:约 11 分钟

专访NeurIPS “新方向”奖得主:“负面结果”如何影响深度学习?

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


Robin.ly 是立足硅谷的视频内容平台,服务全球工程师和研究人员,通过与知名人工智能科学家、创业者、投资人和领导者的深度对话和现场交流活动,传播行业动态和商业技能,打造人才全方位竞争力。


“杰出新方向论文奖”(Outstanding New Directions Paper Award)是今年 NeurIPS 大会特别增设的奖项,以此表彰在未来研究创新路径方面作出贡献的研究人员。该奖得主是来自卡耐基梅隆大学的博士生 Vaishnavh Nagarajan 和他的导师 J. Zico Kolter 教授。他们的论文“Uniform convergence may be unable to explain generalization in deep learning”另辟蹊径,通过证实过度依赖“一致收敛”工具的负面结果,引发了对深度学习研究方向和方法更高层面的思考。


Robin.ly 在大会现场特邀获得者 Vaishnavh Nagarajan 和 J. Zico Kolter 教授独家对话,分享他们在深度学习理论方面的研究成果和思考。Vaishnavh 是卡耐基梅隆大学计算机系 5 年级博士生,主要研究方向是机器学习与人工智能的算法及理论。J. Zico Kolter 是该系的副教授,同时兼任博世人工智能中心首席科学家。



Vaishnavh Nagarajan(右)和 J. Zico Kolter 教授(左)在 NeurIPS 2019 大会接受 Robin.ly 专访


大会评审推荐理由:“论文展示了一些负面结果,表明当前对深度学习算法基于范数的很多泛化边界描述方法并不能达到所声称的效果。论文提出,继续依赖双面一致收敛性的泛化边界描述方法无法获得预期的效果。虽然本论文没有解决,也并不意图解决深度神经网络中的泛化性问题,其结论仍然为整个领域指出了针对同一问题尝试其他方法的必要性。”


论文链接:


https://arxiv.org/abs/1902.04742

深度学习中的“泛化难题”

Margaret Laffan: 恭喜你们获得“杰出新方向论文奖”!能简单介绍一下这篇论文吗?


Vaishnavh Ganarajan:


在这篇论文中,我们研究了深度学习理论中最大的开放性挑战之一,“泛化难题(generalization puzzle)”。当前的很多深度网络模型拥有比训练数据点还要多的参数,包括标准输入在内的经典学习理论表明,这些模型在未经训练的数据集上的表现应该比较差。然而,我们通过实践观察到,这些模型在测试数据上获得了最高级的泛化性能。对这种违反直觉的行为的探究就是所谓的“泛化难题”。许多理论工作试图用“一致收敛(uniform convergence)”的特殊工具来揭开泛化难题的面纱。然而,尽管已经做了很多工作,我们仍然没有找到确切答案。于是在这项工作中,我们退后了一步思考,认为“一致收敛”的工具可能并不能真正帮助我们解开这个谜题。这是一个高层次的信息,我们也许应该尝试使用一致收敛之外的其他数学工具。


Margaret Laffan: 其他数学工具指的是什么?


Vaishnavh Ganarajan:


有很多,比如算法稳定性(Algorithmic stability),但目前还不清楚这些方法是否有效。我认为我们可能必须从零开始构建一个完全不同的工具。也许可以使用我们在论文中提供的一些反例,也就是一致收敛失败时的例子,从而获得一个完全不同的工具,甚至可以对一些现有的工具进行更巧妙的改进。



NeurIPS 2019“杰出新方向”论文奖,来源:NeurIPS 2019


Margaret Laffan: 泛化有哪些应用?


Vaishnavh Ganarajan:


泛化是机器学习或深度学习最基本的目标之一,即在一个训练数据集上训练一个模型,该模型在新的数据集也能有良好的表现。我们已经看到深度学习能够以某种方式实现这个目标。为了不断优化深度学习算法,我们需要理解这些算法在泛化方面究竟实现了什么样的功能。这就是这套工作的重要性所在,能够近一步增加我们对系统优化过程的基本理解。

“负面结果”的意义

Margaret Laffan: Zico,从你的角度来看,为什么你们的论文会获奖?这项研究最大的贡献是什么?


J Zico Kolter:


这项研究的重点在于,我们实际上得到的是一个负面的结果。我们看到有些方法是行不通的,这反而是件好事。因为现在人工智能正处于一个似乎万事都行得通的时代,但是我们仍然不明白其中涉及的很多基本数学原理。负面的结果也会推动一个领域向前发展,这就相当于提供了一个路标,可以引领深度学习社区向一个不同的方向迈进。对我来说,这篇论文最有趣的地方在于,它提供了改变研究方向以及改变我们如何思考问题的可能性,如此一来,也有可能改变我们理解深度学习的角度。


Margaret Laffan: Vaishnavh,你的同行如何看到你的这篇论文?


Vaishnavh Ganarajan:


我和读过这篇论文的人进行了很多激动人心的讨论,有些人持有不同意见,有些则对我们的研究结果感到很惊讶。包括我在内的很多人都在通过研究基于一致收敛的工具来理解泛化,我也发表过相关的论文。但是现在我们得到了一个负面结果,这可能有点令人困惑。但很多人也意识到,该结论给出了对当前工作推动作用的高层次想法。



图示:研究发现,来源:Vaishnavh Ganarajan

研究局限性

Margaret Laffan: 你目前的研究有什么局限性吗?对未来的研究有什么打算?


Vaishnavh Ganarajan:


我想强调两方面的局限性。首先,我们在某些环境设置中得到了负面的结果,但是并不能断言所有环境设置都会带来负面结果,但我们希望这至少可以表明该工具可能无法在一般情况下使用。


其次,我们实际上并没有解决这个难题或提供其他替代方案,而是提供了关于现有工具的负面结果。所以在未来,我们非常希望同行能利用我们论文中的知识开发新的学习工具来解答这个问题。在今后的工作中,我会努力跳出这个一致收敛的工具的限制来理解泛化难题。

深度学习的理论研究

Margaret Laffan: Vaishnavh,是什么让你对人工智能、深度学习、机器学习产生了兴趣?


Vaishnavh Ganarajan:


我最初的研究领域是经典学习理论,研究机器学习理论基础,但与此同时,深度学习正变得越来越受欢迎。深度学习真正吸引我的是当时理论层面存在的真空以及深度学习本身所能造成的影响。所以,从事深度学习理论方面的工作,不仅满足了我对理论研究的热爱,也会帮助我在这一方向上产生一些影响。


Margaret Laffan: Zico, 能和我们分享一下你和学生的研究方向和研究进展吗?


J Zico Kolter:


我认为关于深度学习最令人兴奋的事情之一,是存在广泛的理论性工作,这实际上正是深度学习所缺乏的。理论性研究与应用研究在机器学习中相互交织的,密不可分。我们开发的理论工具可以与应用研究很好的结合,共同推动这个领域向前发展。


我很高兴能带领一组学生攻克这些难题。一些学生可以关注更多的理论问题,重点分析深度学习背后的数学原理,而另一些可以专注于更多的应用问题,比如如何将研究结果用于智能能源系统?我有一个学生正在探索能否把研究结果应用到核聚变中。在博世人工智能中心,我们也一直在积极研究人工智能的潜在应用,如何使人工智能在现实世界中的鲁棒性更强,更容易部署。在这个领域的成熟过程中,我更希望看到更多理论方面的信息,并最终完成更多有实际应用的工作,获得成功和反馈,并催化新理论的诞生。



Vaishnavh Nagarajan(右)和 J. Zico Kolter 教授(左)在 NeurIPS 2019 大会接受 Robin.ly 专访

人工智能的发展方向

Margaret Laffan: Zico,从研究角度来看,你认为在接下来的几年里,人工智能这个领域会发展到什么程度?


J Zico Kolter:


我认为预测人工智能的未来是很难的。当深度学习革命发生时,我已经在机器学习领域站稳了脚跟,也从来没有想过我们会达到现在的水平。所以对于人工智能的问题我不敢做出任何断言。


如果让我猜测该领域的发展方向,我想我们正达到这样一个点:从深度学习获得的工具和经验越来越实用,并且能够应用于越来越多的结构化领域,也会更多地受到经典编程的影响。所以我们不应该继续把深度学习当作一个“黑盒子“ – 只是结合了很多线性运算符与非线性运算符,进行很多次迭代。我们应该更多的进行这样的思考:当通用程序只包含未知参数,我们要如何学习这些参数?当涉及到经典编程的结构互操作性,以及机器学习的灵活性和端到端数据驱动的本质时,我们如何将结构化编程与一些元数据结合在一起,从而在两个领域都获得最佳结果? 我认为这两件事在未来的机器学习工作中可以结合起来,也是我最期待能够进一步推进的。


本文转载自 Robinly 微信公众平台。


原文链接: https://mp.weixin.qq.com/s/CjFRHHVPtUPWnL67yDtIRA


2020-02-18 20:47689

评论

发布
暂无评论
发现更多内容

CodeWhisperer 的安装及体验

亚马逊云科技 (Amazon Web Services)

Java Python 人工智能 云上探索实验室 Amazon CodeWhisperer

企业数智化领先实践,学得会!

用友BIP

数智化转型

Parallels Desktop 19 虚拟机 一键激活 无需关闭sip

繁星

pd虚拟机 Parallels Desktop 19 pd虚拟机 19

在Linux上玩原神!2023-10月武汉Linux爱好者线下沙龙(WHLUG)活动回顾

nn-30

Linux 操作系统 技术沙龙 deepin WHLUG

数智化采购平台覆盖间接采购全流程,现金流优化的“小成大就”

用友BIP

数智采购

组态软件特点及工控组态软件应用

2D3D前端可视化开发

物联网 组态软件 PLC 工业控制系统 web组态编辑器

最常用的4种光纤接口结构有哪些?

小魏写代码

Photoshop 2024 Mac最新资源 附 alpaca增效工具 可完美替代AI创成式填充

加油,小妞!

ps AI绘图 Photoshop 2024

Hexo+Github+Netlify博客搭建教程

Leo

博客

大型企业财务共享建设避坑指南之场景化表单设计

用友BIP

财务共享

ps插件:Camera Raw for Mac 16.0中文版

加油,小妞!

ps插件 Camera Raw 16

After Effects 2024 for Mac(ae视频特效制作工具)

展初云

Mac软件 视频编辑 AE After Effects

日常数字生活中,手机里的隐私信息是如何被保护的?

最新动态

效果不好,为什么?

矩视智能

深度学习 机器视觉

可跨平台数据库多连管理工具:Navicat Premium 16 中文版

繁星

数据库管理 Navicat Premium 16

「我在淘天做技术」1688的AIGC商业化落地实践探索

阿里技术

创意 校园招聘 1688 B端 AIGC

治理效率提升77%!揭秘基于DataLeap实时健康分的最佳实践

字节跳动数据平台

数据库 数据治理 数据安全 数据研发 企业号11月PK榜

深度开发者故事|API Explorer 助力教育行业 一站式搭建实验环境

华为云PaaS服务小智

云计算 软件开发 华为云

人民网《外企谈信心》| Denodo:加强数据管理技术合作 护航数字经济高质量发展

科技汇

深入理解 Dubbo 协议的调试方法与实践

Apifox

Java 程序员 dubbo 后端 RPC

使用 Appilot 部署 Llama2,会聊天就行!

SEAL安全

Walrus llama-2 Appilot 企业号11月PK榜

生态合作升级!用友Fast by BIP On 阿里云战略发布

用友BIP

人人用数不用愁,动态数据脱敏为您解忧

华为云开发者联盟

数据库 大数据 华为云 数仓 华为云开发者联盟

Topaz Video AI 4.0.2 视频增强和修复工具

彩云

Topaz Video AI

Docker打包前端vue代码推送镜像到远程仓库

javaNice

Java’ Docker 镜像

数智化营销——企业会员私域运营的成功路径

用友BIP

数智营销

犀牛Rhino 8 for Mac(3D建模软件)

展初云

Mac 建模软件 Rhino 犀牛

专访NeurIPS “新方向”奖得主:“负面结果”如何影响深度学习?_行业深度_Robin.ly_InfoQ精选文章