本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。
Robin.ly 是立足硅谷的视频内容平台,服务全球工程师和研究人员,通过与知名人工智能科学家、创业者、投资人和领导者的深度对话和现场交流活动,传播行业动态和商业技能,打造人才全方位竞争力。
“杰出新方向论文奖”(Outstanding New Directions Paper Award)是今年 NeurIPS 大会特别增设的奖项,以此表彰在未来研究创新路径方面作出贡献的研究人员。该奖得主是来自卡耐基梅隆大学的博士生 Vaishnavh Nagarajan 和他的导师 J. Zico Kolter 教授。他们的论文“Uniform convergence may be unable to explain generalization in deep learning”另辟蹊径,通过证实过度依赖“一致收敛”工具的负面结果,引发了对深度学习研究方向和方法更高层面的思考。
Robin.ly 在大会现场特邀获得者 Vaishnavh Nagarajan 和 J. Zico Kolter 教授独家对话,分享他们在深度学习理论方面的研究成果和思考。Vaishnavh 是卡耐基梅隆大学计算机系 5 年级博士生,主要研究方向是机器学习与人工智能的算法及理论。J. Zico Kolter 是该系的副教授,同时兼任博世人工智能中心首席科学家。
Vaishnavh Nagarajan(右)和 J. Zico Kolter 教授(左)在 NeurIPS 2019 大会接受 Robin.ly 专访
大会评审推荐理由:“论文展示了一些负面结果,表明当前对深度学习算法基于范数的很多泛化边界描述方法并不能达到所声称的效果。论文提出,继续依赖双面一致收敛性的泛化边界描述方法无法获得预期的效果。虽然本论文没有解决,也并不意图解决深度神经网络中的泛化性问题,其结论仍然为整个领域指出了针对同一问题尝试其他方法的必要性。”
论文链接:
https://arxiv.org/abs/1902.04742
深度学习中的“泛化难题”
Margaret Laffan: 恭喜你们获得“杰出新方向论文奖”!能简单介绍一下这篇论文吗?
Vaishnavh Ganarajan:
在这篇论文中,我们研究了深度学习理论中最大的开放性挑战之一,“泛化难题(generalization puzzle)”。当前的很多深度网络模型拥有比训练数据点还要多的参数,包括标准输入在内的经典学习理论表明,这些模型在未经训练的数据集上的表现应该比较差。然而,我们通过实践观察到,这些模型在测试数据上获得了最高级的泛化性能。对这种违反直觉的行为的探究就是所谓的“泛化难题”。许多理论工作试图用“一致收敛(uniform convergence)”的特殊工具来揭开泛化难题的面纱。然而,尽管已经做了很多工作,我们仍然没有找到确切答案。于是在这项工作中,我们退后了一步思考,认为“一致收敛”的工具可能并不能真正帮助我们解开这个谜题。这是一个高层次的信息,我们也许应该尝试使用一致收敛之外的其他数学工具。
Margaret Laffan: 其他数学工具指的是什么?
Vaishnavh Ganarajan:
有很多,比如算法稳定性(Algorithmic stability),但目前还不清楚这些方法是否有效。我认为我们可能必须从零开始构建一个完全不同的工具。也许可以使用我们在论文中提供的一些反例,也就是一致收敛失败时的例子,从而获得一个完全不同的工具,甚至可以对一些现有的工具进行更巧妙的改进。
NeurIPS 2019“杰出新方向”论文奖,来源:NeurIPS 2019
Margaret Laffan: 泛化有哪些应用?
Vaishnavh Ganarajan:
泛化是机器学习或深度学习最基本的目标之一,即在一个训练数据集上训练一个模型,该模型在新的数据集也能有良好的表现。我们已经看到深度学习能够以某种方式实现这个目标。为了不断优化深度学习算法,我们需要理解这些算法在泛化方面究竟实现了什么样的功能。这就是这套工作的重要性所在,能够近一步增加我们对系统优化过程的基本理解。
“负面结果”的意义
Margaret Laffan: Zico,从你的角度来看,为什么你们的论文会获奖?这项研究最大的贡献是什么?
J Zico Kolter:
这项研究的重点在于,我们实际上得到的是一个负面的结果。我们看到有些方法是行不通的,这反而是件好事。因为现在人工智能正处于一个似乎万事都行得通的时代,但是我们仍然不明白其中涉及的很多基本数学原理。负面的结果也会推动一个领域向前发展,这就相当于提供了一个路标,可以引领深度学习社区向一个不同的方向迈进。对我来说,这篇论文最有趣的地方在于,它提供了改变研究方向以及改变我们如何思考问题的可能性,如此一来,也有可能改变我们理解深度学习的角度。
Margaret Laffan: Vaishnavh,你的同行如何看到你的这篇论文?
Vaishnavh Ganarajan:
我和读过这篇论文的人进行了很多激动人心的讨论,有些人持有不同意见,有些则对我们的研究结果感到很惊讶。包括我在内的很多人都在通过研究基于一致收敛的工具来理解泛化,我也发表过相关的论文。但是现在我们得到了一个负面结果,这可能有点令人困惑。但很多人也意识到,该结论给出了对当前工作推动作用的高层次想法。
图示:研究发现,来源:Vaishnavh Ganarajan
研究局限性
Margaret Laffan: 你目前的研究有什么局限性吗?对未来的研究有什么打算?
Vaishnavh Ganarajan:
我想强调两方面的局限性。首先,我们在某些环境设置中得到了负面的结果,但是并不能断言所有环境设置都会带来负面结果,但我们希望这至少可以表明该工具可能无法在一般情况下使用。
其次,我们实际上并没有解决这个难题或提供其他替代方案,而是提供了关于现有工具的负面结果。所以在未来,我们非常希望同行能利用我们论文中的知识开发新的学习工具来解答这个问题。在今后的工作中,我会努力跳出这个一致收敛的工具的限制来理解泛化难题。
深度学习的理论研究
Margaret Laffan: Vaishnavh,是什么让你对人工智能、深度学习、机器学习产生了兴趣?
Vaishnavh Ganarajan:
我最初的研究领域是经典学习理论,研究机器学习理论基础,但与此同时,深度学习正变得越来越受欢迎。深度学习真正吸引我的是当时理论层面存在的真空以及深度学习本身所能造成的影响。所以,从事深度学习理论方面的工作,不仅满足了我对理论研究的热爱,也会帮助我在这一方向上产生一些影响。
Margaret Laffan: Zico, 能和我们分享一下你和学生的研究方向和研究进展吗?
J Zico Kolter:
我认为关于深度学习最令人兴奋的事情之一,是存在广泛的理论性工作,这实际上正是深度学习所缺乏的。理论性研究与应用研究在机器学习中相互交织的,密不可分。我们开发的理论工具可以与应用研究很好的结合,共同推动这个领域向前发展。
我很高兴能带领一组学生攻克这些难题。一些学生可以关注更多的理论问题,重点分析深度学习背后的数学原理,而另一些可以专注于更多的应用问题,比如如何将研究结果用于智能能源系统?我有一个学生正在探索能否把研究结果应用到核聚变中。在博世人工智能中心,我们也一直在积极研究人工智能的潜在应用,如何使人工智能在现实世界中的鲁棒性更强,更容易部署。在这个领域的成熟过程中,我更希望看到更多理论方面的信息,并最终完成更多有实际应用的工作,获得成功和反馈,并催化新理论的诞生。
Vaishnavh Nagarajan(右)和 J. Zico Kolter 教授(左)在 NeurIPS 2019 大会接受 Robin.ly 专访
人工智能的发展方向
Margaret Laffan: Zico,从研究角度来看,你认为在接下来的几年里,人工智能这个领域会发展到什么程度?
J Zico Kolter:
我认为预测人工智能的未来是很难的。当深度学习革命发生时,我已经在机器学习领域站稳了脚跟,也从来没有想过我们会达到现在的水平。所以对于人工智能的问题我不敢做出任何断言。
如果让我猜测该领域的发展方向,我想我们正达到这样一个点:从深度学习获得的工具和经验越来越实用,并且能够应用于越来越多的结构化领域,也会更多地受到经典编程的影响。所以我们不应该继续把深度学习当作一个“黑盒子“ – 只是结合了很多线性运算符与非线性运算符,进行很多次迭代。我们应该更多的进行这样的思考:当通用程序只包含未知参数,我们要如何学习这些参数?当涉及到经典编程的结构互操作性,以及机器学习的灵活性和端到端数据驱动的本质时,我们如何将结构化编程与一些元数据结合在一起,从而在两个领域都获得最佳结果? 我认为这两件事在未来的机器学习工作中可以结合起来,也是我最期待能够进一步推进的。
本文转载自 Robinly 微信公众平台。
原文链接: https://mp.weixin.qq.com/s/CjFRHHVPtUPWnL67yDtIRA
评论