2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

研究了 50 篇论文后,他发现 AI 领域的某些进步其实就是炒作

  • 2020-06-11
  • 本文字数:2187 字

    阅读完需:约 7 分钟

研究了50篇论文后,他发现AI领域的某些进步其实就是炒作

研究人员评估了 81 种剪枝算法、程序,它们通过对不需要的连接进行剪枝来提高神经网络的效率。这些方法差别不大,但所有人都宣称自己具有优越性。然而,很少有人对它们进行恰当的比较——当研究人员设法把它们放在一起评估时,并没有明确的证据可以表明近 10 年来它们的性能有什么改善。


本文最初发布于科学杂志,由 InfoQ 中文站翻译并分享。


人工智能(AI)似乎变得越来越聪明。每一部 iPhone 都比上一部更了解你的脸、声音和习惯,人工智能对隐私的威胁也在不断增加,职位也在不断增加。这种激增反映了更快的芯片、更多的数据和更好的算法。但是,麻省理工学院的计算机科学研究生 Davis Blalock 说,有一些改进是来自微调,而不是发明者声称的核心创新,而有些改进可能根本就不存在。Blalock 和他的同事比较了几十种改进神经网络的方法(大致模仿大脑的软件架构)。他说,“在研究了 50 篇论文之后,事情已经变得很清晰,当时的技术水平到底如何并不是一件显而易见的事情。


研究人员评估了 81 种剪枝算法、程序,它们通过对不需要的连接进行剪枝来提高神经网络的效率。这些方法差别不大,但所有人都宣称自己具有优越性。然而,很少有人对它们进行恰当的比较——当研究人员设法把它们放在一起评估时,并没有明确的证据可以表明近 10 年来它们的性能有什么改善。今年 3 月,在机器学习与系统大会上公布的这一结果让 Blalock 的博士生导师、麻省理工学院的计算机科学家 John Guttag 感到意外,他指出,这种无规则的对比本身就说明了技术发展的停滞。Guttag 说,“老话说得好,无法度量就无法改进,对吧?”


研究人员逐渐意识到,人工智能的许多子领域的进展都出现了问题。2019 年开展的一项针对搜索引擎中使用的信息检索算法的元分析表明,“最高点……实际上出现在 2009 年。”2019 年的另一项研究再现了 7 个神经网络推荐系统,这类系统主要用于流媒体服务。研究发现,有六种算法的性能没有超过多年前开发的简单许多的非神经算法(这些早期的技术当时都经过了调优),揭示了该领域的“进展幻象”。


今年 3 月,来自康奈尔大学的计算机科学家 Kevin Musgrave 在 arXiv 网站上发表了一篇论文,他研究了损失函数,这是这类算法的一部分,从数学上明确了算法的目标。Musgrave 在一项涉及图像检索的任务中,基于同样的标准对其中的 12 种方法进行了比较,结果发现,与开发人员的说法相反,准确性自 2006 年以来就再没有提高。Musgrave 说:“这一直以来都是炒作。”


机器学习算法的性能增强可以来自其架构、损失函数或优化策略(如何使用反馈进行改进)的根本性变化。来自卡耐基梅隆大学的计算机科学家 Zico Kolter 表示,对上述任何一种技术进行细微的调整都可以提高性能。Kolter 的研究内容是经过训练后能够对黑客的“对抗性攻击”免疫的图像识别模型。一种被称为投影梯度下降(PGD)的早期对抗性训练方法(该方法会同时在真假样例上进行简单的训练),似乎已经被更复杂的方法所超越。但在今年 2 月 arXiv 发表的一篇论文中,Kolter 和他的同事们发现,当使用一个简单的技巧来对它们进行增强时,所有方法的效果都差不多



在经过适度调整后,旧的图像检索算法和新算法的性能一样好,这表明,实际的创新很少。


“这非常令人惊讶,这一点我们以前没有发现,”Kolter 的博士生 Leslie Rice 说。而 Kolter 表示,他的发现表明,像 PGD 这样的创新很难做到,而且很少有实质性的改进。“很明显,PGD 实际上就是一种正确的算法,”他说,“这显而易见,而人们希望找到更为复杂的解决方案。”


其他主要算法的进步似乎也经受住了时间的考验。1997 年,一种被称为长短时记忆(LSTM)的架构在语言翻译方面取得了重大突破。在经过适当的训练后,LSTM的性能可以与20年后开发的更先进的架构相媲美。另一个机器学习的突破出现在 2014 年的生成对抗网络(GAN)中,举例来说,它可以将网络以生成-判别循环的方式进行配对,以提高它们生成图像的能力。据2018年的一篇论文报道,只要计算能力足够,原始的 GAN 方法就可以与后续几年的方法相媲美。


Kolter 说,与调整现有算法相比,研究人员更愿意去创造一种新的算法,并对其进行调整,直到达到最先进的水平。他指出,调整现有算法可能显得不那么新颖,使得“发表论文的难度大大增加”。


Guttag 说,算法的发明者不希望与他人的算法进行彻底的性能比较,结果却发现他们的突破性进展并不是他们所认为的那样。“比较太仔细是有风险的。”同时,那也是一项艰苦的工作:人工智能研究人员使用不同的数据集、调优方法、性能指标和基线。“完全的横向对比是不现实的。”


一些夸大性能的说法可以归因于该领域的爆炸性增长,该领域的论文数量超过了有经验的审稿人。Blalock 说,“这似乎是成长的烦恼”。他敦促审稿人,要坚持与基准进行更好地比较,并表示,更好的工具将有所帮助。今年早些时候,Blalock 的合著者、麻省理工学院研究员 Jose Gonzalez Ortiz 发布了一款名为 ShrinkBench 的软件,它可以让人们更轻松地比较剪枝算法。


研究人员指出,即使新方法在本质上并不比旧方法更好,但他们所实现的调整也可以应用到之前的算法上。每隔一段时间,就会有一个新的算法出现。“这几乎就像一个风险投资组合,”Blalock 说,“其中一些业务并没有真正发挥作用,但有些却非常成功。”


查看英文原文:


https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real


2020-06-11 11:228769
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 305.1 次阅读, 收获喜欢 1306 次。

关注

评论 1 条评论

发布
用户头像
大多数AI仍旧是基于既定逻辑的判断,虽然也有很多可以在交互过程中“学习”,但是仍旧很难将所“学”的转化为既定逻辑的补充。神经网络需要在特定边界内有自我完善的能力才能够成为真正的AI。
2020-06-13 00:34
回复
没有更多了
发现更多内容

Wallys /industrial wifi6 router/ Ipq6010 /ipq6018/ipq6000 2x2 2.4G & 5G

Cindy-wallys

IPQ6010 ipq6018 IPQ6000

2022年最新数据库调查报告:超八成DBA月薪过万,你拖后腿了吗?

墨天轮

MySQL 数据库 oracle 工资 dba

软件测试/测试开发 | web自动化测试-文件上传与弹框处理

测试人

软件测试 自动化测试 测试开发 Web自动化测试 selenium

企业降本增效的催化剂:敏捷迭代

FinFish

敏捷开发 敏捷迭代 敏捷项目管理

构建云边端一体的分布式云架构,软硬结合驱动边缘计算创新场景

Baidu AICLOUD

边缘计算 分布式云

软件测试/测试开发 | web自动化测试-PageObject 设计模式

测试人

软件测试 自动化测试 测试开发 Web自动化测试

CNCF社区首个!KubeEdge达到软件供应链SLSA L3等级

华为云开发者联盟

云原生 华为云 企业号 2 月 PK 榜 华为云开发者联盟

海泰方圆受邀参加中关村网信联盟会议并斩获三项殊荣

电子信息发烧客

为什么大多数团队推行自动化测试最后却不了了之?

Liam

测试 自动化测试 测试自动化

一文读懂Guava EventBus(订阅\发布事件)

京东科技开发者

架构 观察者模式 Guava EventBus 企业号 2 月 PK 榜

0源码基础学习Spring源码系列(二)——Spring如何解决循环依赖

京东科技开发者

spring 源码 初始化 二级缓存 企业号 2 月 PK 榜

性能测试中获取JVM资源信息

FunTester

海量并发低延时 RTC-CDN 系统架构设计(上)

网易云信

实时音视频 音视频开发

李宏伟 安警官的IP地址已经锁定你!IP地址究竟如何定位到莽村附近?

郑州埃文科技

IP地址 IP定位查询

Bytebase 体验官之勇闯新手村

朱亚光

Greenfield

股市老人

政企服务机构如何进行数字化转型?

优秀

数字化转型

如何在现实场景中随心放置AR虚拟对象?

HarmonyOS SDK

HMS Core

Apache Doris 1.2.2 Release 版本正式发布

SelectDB

大数据 数据分析 OLAP 分析型数据库 数据库·

GaiaX开源解读 | 表达式作为逻辑动态化的基础,我们是如何设计的

阿里巴巴文娱技术

开源 研发效能 服务端 多端开发

进击中的 Zebec 生态,Web2 与 Web3 世界的连接器

股市老人

DR-AP40X9-A-Qualcomm-IPQ4019/IPQ4029-2.4G&5G

Cindy-wallys

IPQ4019 ipq4029

软件测试 | 常用模拟器使用

测吧(北京)科技有限公司

测试

IoT设备数据业务价值洞察实践——实践类

阿里云AIoT

阿里云 物联网 IoT

Seal 0.4 发布:软件供应链安全洞察更上一层楼!

SEAL安全

软件供应链安全 SEAL 企业号 2 月 PK 榜

使用 NGINX 在 Kubernetes 中实现多租户和命名空间隔离

NGINX开源社区

nginx NGINX Ingress Controller NGINX Kubernetes Gateway 企业号 2 月 PK 榜

聊一聊 gRPC 中的拦截器

江南一点雨

gRPC

rust入坑指南之ownership

京东科技开发者

rust JVM 内存 企业号 2 月 PK 榜 ownership

设计模式第六讲:责任链模式和迭代器模式详解

C++后台开发

设计模式 责任链模式 迭代器模式 后端开发 Linux服务器开发

研究了50篇论文后,他发现AI领域的某些进步其实就是炒作_AI&大模型_Matthew Hutson_InfoQ精选文章