MIT 提出可压缩模型的AI框架，激励软件代理探索其环境_AI&大模型_Kyle Wiggers

限时领｜《AI 百问百答》专栏课+实体书（包邮）！了解详情 



 写点什么

在2020年国际学习表征会议（ICLR）接受的两篇论文中，MIT 的研究者提出了激励软件代理（agent）以探索其所处环境，以及修剪算法来提升 AI 应用程序性能的新方法。总的来说，这两种新方案可以促进工业、商业和家用自主机器人的发展；相比现有的竞品，这些方案不需要那么多的计算能力，但同时功能却更强大。

“好奇心”算法

一支团队提出了一种元学习算法，其可以生成 52,000 个探索算法，这些算法可以让代理更深入地探索自己的周围环境。他们探索了其中两种全新算法，并借此改善了一系列模拟任务的学习过程——这些任务包括让月球车登陆，以及用机械手臂抓起蚂蚁大小的机器人等。

图源 Alex Knight

这支团队的元学习系统首先选择一系列高级操作（基本编程，机器学习模型等等）来引导代理执行各种任务，包括记忆以前的输入、比较和对比当前和之前的输入、利用学习方法更改自己的模块等等。元学习系统从共计三十多种操作中，一次最多组合七种不同操作，从而生成了描述之前提到的 52,000 种算法的计算图。

测试所有的算法将花费数十年时间，所以研究者们首先将从代码结构就可以预测出其糟糕性能的算法排除在外。之后他们在一项基本的网格级导航任务中测试了最有希望的候选算法，该任务需要大量的探索，但计算量很小。表现良好的算法被列为新的基准，随后淘汰了一大堆候选算法。

研究团队表示他们使用了四台机器，搜索运行十多小时之后找到了最佳算法。总数超过一百的高性能算法中，前 16 种有用且新颖，性能可以与人工设计的算法相媲美，甚至还会更好。

研究者将前 16 个模型的优秀性能归因于它们都具备的两个探索特性。首先，代理会因为访问一个新地方而获得奖励，因为这样它们就更可能采取新的行动。其次，一个 AI 模型学习预测代理未来的状态，另一个模型则会回顾过去的状态，二者相辅相成以预测现在状态。这样的话，如果预测错误，则二者都会因发现新东西而受到奖励。

因为元学习进程会生成高级计算机代码作为输出，因此可以将这两种算法分解后查看其决策过程。MIT 研究生马丁·施耐德（Martin Schneider）在一份声明中称“人类可以阅读并解释我们生成的算法，但如果想要真正的理解代码，就需要对每一个变量和操作进行推演，并观察它们如何随着时间演变。”他与另一名研究生 Ferran Alet，MIT 计算机科学与电气工程教授 Leslie Kaelbling 及 Tomás Lozano-Pérez 共同撰写了这份研究论文。

“一方面我们借助计算机的能力来评估大量算法，另一方面我们利用了人类解释并改进这些算法的能力，将这二者结合起来设计算法和工作流程是一项很有趣的开放性挑战。”

缩小 AI 模型

在第二份研究中，一支 MIT 团队提供了一种可靠的，可以在资源受限的设备上运行的模型缩小框架。尽管团队还不能解释为何该框架表现如此出色，但不可否认的是，该压缩方法甚至比一些顶尖的压缩方法实现起来更容易且更快。

该框架是“彩票假设（Lottery Ticket Hypothesis）”的产物。论文显示如果在训练过程中能够确定正确的子模型（submodel），那么即使减少了 90%的参数，模型依旧表现良好。研究的合著者，同时也是“彩票假设”的提出者，建议将模型重新“带回”到早期训练阶段，不带任何参数（例：根据已有数据估算模型内部配置变量），然后再重新训练模型。模型修剪方法通常会导致模型精度随着时间变化逐渐降低，但是这种方式却可以将模型精度还原到最初始的状态。

这为更广阔的 AI 研究领域带来了好消息，为解决该领域的可访问性和可持续性问题带来了希望。去年六月（2019 年 6 月），马赛诸塞州大学阿默斯特分校的研究者发布了一项研究，估算出训练并搜索某模型需要花费的电量，这些电量伴随着约 626,000 磅的二氧化碳排放，相当于美国普通汽车服役周期排放量的近五倍。根据最近的一份Synced报告，华盛顿大学用于生成/检测假新闻的 Grover 机器学习模型在两周的训练中花费了 25,000 美元。

MIT 助理教授韩松表示“很高兴看到新的修剪算法和重新训练技术的不断发展”。韩松建立了行业标准修剪算法 AMC，但并未参与到前文提到的这项研究之中。他最近与他人合著了一篇关于如何提升大型模型的 AI 训练效率的论文，论文中提到的模型包含许多可以针对各种平台定制预训练的子模型。 “（该模型）可以让更多的人得以利用高性能 AI 应用程序。”

MIT 博士学生 Alexa Renda 与 MIT 助理教授/博士学生 Jonathan Frankle 合著了该项研究。二人都是 MIT 计算机科学与人工科学实验室（CSAIL）成员。

创作场景

MIT 提出可压缩模型的 AI 框架，激励软件代理探索其环境

“好奇心”算法

缩小 AI 模型

评论

EMQ 映云科技成为开源项目 Vue.js 定期捐赠者

多线程、分布式、高并发都不懂？你拿什么跳槽？

堡垒机品牌就认行云管家！为什么呢？

阿里这份15w字Java核心面试笔记！GitHub凭借百万下载量位居榜首

金融助力补链强链科技发挥关键作用

云原生 | 混沌工程工具 ChaosBlade Operator Node 篇

工具 | 使用 CLion 编译调试 MySQL 8.0

底层即真理！Netty+Redis+ZooKeeper解读高并发架构

业界良心啊！第五次更新的Spring Cloud Alibaba升级太多内容

太为难我了，阿里面试了7轮（5年经验，拿下P7岗offer）

云时代的到来会淘汰运维人员吗？运维工作可以一直做吗？

架构师训练营-毕业设计

经济学人：若比特币价格清零会怎样？

容器化 | ClickHouse on K8s 部署篇【建议收藏】

基于KubeEdge实现中国移动10086客服云边协同平台

机会！痛点！难点！中国游戏泛娱乐企业出海攻略全解析

架构实战营毕业总结

好评如潮，PerfDog两年迭代正式启动商业化探索

IM开发技术学习：揭秘微信朋友圈这种信息推流背后的系统设计

Fil今日价格行情？Fil未来多少钱一枚？

容器化 | ClickHouse on K8s 基础篇

二本渣渣5面阿里，从准备简历到“直怼”面试官，经历了什么？

银行小程序隐私安全如何做？诊疗一体，一步到位

腾讯WeTest零售行业质量解决方案

终于有人把TCP协议与UDP协议给搞明白了

“区块链”赋能智慧社区，多维度提升管理质效

多张图片的形式

给Arm生态添把火，腾讯Kona JDK Arm架构优化实践

去哪儿网数据同步平台技术演进与实践

牛客网论坛最具争议的Java面试成神笔记，GitHub已下载量已过百万

八家知名大厂联合手写的Java面试手册刚上线！竟就到达巅峰？

创作场景

MIT 提出可压缩模型的 AI 框架，激励软件代理探索其环境

“好奇心”算法

缩小 AI 模型

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载