谷歌发布强化学习算法SimPLe，学习效率提升两倍_AI&大模型_Łukasz Kaiser_InfoQ精选文章

报名参加CloudWeGo黑客松，奖金直推双丰收！了解详情 



 写点什么

登录/注册

谷歌发布强化学习算法SimPLe，学习效率提升两倍

深度强化学习(Deep reinforcement learning)利用奖励来推动软件政策朝着目标发展。该技术已被用于模拟社会规范的影响，创造出特别擅长玩游戏的人工智能，并为机器人编写程序，使其能够从恶劣的溢出中恢复过来。尽管强化学习功能多样，它也有一个明显的缺点：效率低下。训练策略需要在模拟的或真实的环境中进行大量的交互——远远超过普通人学习任务的需要。

为了在视频游戏领域有所弥补，谷歌的研究人员最近提出了一种新的算法——模拟策略学习，简称 SimPLe，该算法通过游戏模型学习用于选择动作的质量策略。谷歌在一篇新发表的预印本论文(“Atari 基于模型的强化学习”)和随开源代码一起发布的文档中对此进行了描述。

论文链接：https://arxiv.org/abs/1903.00374

开源代码：https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/rl/README.md

根据谷歌官方的介绍：

在高层次上，SimPLe 背后的想法是在学习游戏行为的 world 模型和在模拟游戏环境中使用该模型优化策略(使用无模型强化学习)之间进行交替。该算法的基本原理已经很好地建立起来，并应用于许多最近的基于模型的强化学习方法中。

SimPLe 的主循环。1）代理开始与真实环境交互；2）收集的观测结果用于更新当前的 world 模型；3）代理通过在 world 模型内学习来更新策略。

如果成功地训练这样一个模型(如视频预测)，一个本质上学会了模拟器的游戏环境，可以用来生成轨迹训练游戏代理的好策略，即选择一个操作序列，这样可以使代理的长期回报最大化。

在每次迭代中，在 world 模型被训练之后，就可以使用这个学习的模拟器来生成滚动(即动作、观察和结果的样本序列)，这些滚动被用来使用近似策略优化(PPO)算法来改进游戏策略。滚动的采样从实际的数据集帧开始。由于预测错误通常会随着时间的推移而增加，使长期预测变得非常困难，SimPLe 只使用中等长度的滚动。幸运的是，PPO 算法也可以从其内部价值函数中学习动作和奖励之间的长期效果，因此有限长度的滚动对于像《highway》这样奖励稀疏的游戏来说也是足够的。

从效率方面来说，衡量成功的一个标准是证明该模型是高效的。为此，谷歌的研发人员在与环境进行了 10 万次交互之后评估了策略的输出，将 SimPLe 与两种最先进的无模型 RL 方法 Rainbow 和 PPO 进行了比较。在大多数情况下，SimPLe 的样本效率比其他方法高出两倍以上。

相应的无模型算法（左 - Rainbow；右 - PPO）所需的交互次数与 SimPLe 训练方法获得的得分相匹配。红线表示 SimPLe 使用的交互次数。

然而，SimPLe 并不总是完美的。最常见的故障是：world 模型不能准确地捕获或预测体积很小但相关度很高的对象。比如某些训练中，由于游戏中子弹的体积太小以至于几乎很难被模型捕捉到。

谷歌的研究人员认为：“基于模型的强化学习方法的主要前景是在交互成本高、速度慢或需要人工标记的环境中，例如许多机器人任务中。在这样的环境下，学习的模拟器可以更好地理解代理的环境，并可以为更多的任务强化学习提供新的，更好的和更快的方法。虽然 SimPLe 还没有达到标准无模型 RL 方法的性能，但它的效率要高得多，我们期望未来的工作能够进一步提高基于模型的性能。”

原文链接：

https://ai.googleblog.com/2019/03/simulated-policy-learning-in-video.html

评论

发布

暂无评论

高兼容低成本，开箱即用的首页性能优化方式被我们找到了

小红书技术REDtech

【Linux】之【内存】相关的命令&&解析以及内存相关的问题[free、meminfo、内存泄漏、内存溢出、Overcommit]

Linux cpu 三周年连更

惠普聚焦资源再利用、森林保护和碳排放，理念贯穿电脑全生命周期

叶落便知秋

【转载】“一中心四辅助” | 亚信安慧产品与解决方案全栈图谱发布

亚信AntDB数据库

AntDB AntDB数据库企业号 4 月 PK 榜

全栈混合云综合架构方案研究和落地

天翼云开发者社区

电商流量分析怎么做？试试这款数据工具DataLeap！

字节跳动数据平台

大数据用户增长数据产品电商企业号 4 月 PK 榜

原生开发能不能动态化？如何选择动态能力建设流派

没有用户名丶

天翼云赋能芦山县医共体建设，为群众铺就便捷顺畅就医路

天翼云开发者社区

字节跳动的开源历程与价值思考

字节跳动开源

开源云原生演讲字节

亚信科技AntDB数据库荣膺第十二届数据技术嘉年华（DTC 2023）“最具潜力数据库”大奖

亚信AntDB数据库

AntDB AntDB数据库企业号 4 月 PK 榜

“天翼云出海友好客户启航会”圆满收官！

天翼云开发者社区

【堡垒机小知识】堡垒机有主机监控功能吗？

网络安全堡垒机主机监控

DevData Talks | 微众银行有哪些研发效能实践与思考？一起来拓展认知边界！

思码逸研发效能

研发效能金融微众银行

详解GaussDB(DWS)的query_band负载识别与应用

华为云开发者联盟

数据库后端华为云华为云开发者联盟企业号 4 月 PK 榜

轻松比较文件和文件夹：Beyond Compare 4 Mac中文

真大的脸盆

Mac Mac 软件对比工具比较文件对比软件

数字先锋| “智慧旅游”新模式，天翼云助力张家界旅游产业创新发展！

天翼云开发者社区

Android技术分享 | 一行代码实现屏幕、声音采集

anyRTC开发者

音视频移动开发 Andriod 屏幕采集声音采集

为什么众多大型国企都在升级企业数智化底座？

技术大会用友iuap 用友技术大会升级企业数智化底座央国企数智化转型

golang-GMP模型

AI+算力，赋予天翼云数字人“最强大脑”！

天翼云开发者社区

【等保小知识】等保一级需要备案吗？

等级保护等保备案等保一级一级等保

LED显示屏室内改为户外为何不可取？

LED显示屏户外LED显示屏户内led显示屏

北京 Meetup 邀你来｜云上 StarRocks 极速湖仓

阿里云大数据AI技术

技术文章的写作思维

技术干货技术文章

Fabarta 图增强数据血缘治理解决方案

数据治理图数据库图智能血缘治理

如何在 Postman 中进行 HTTPS 请求

Java 程序员后端 Postman API 调试

三分钟完成静态网站托管

华为云开发者联盟

开发华为云华为云开发者联盟企业号 4 月 PK 榜静态网站托管

PaddleSeg 2.8版本正式发布啦！

飞桨PaddlePaddle

高性能网络SIG月度动态：virtio-net 支持动态中断调节，SMC v2 协议增加新扩展

OpenAnolis小助手

ebpf 高性能网络龙蜥社区 sig 月度动态

【致地图开发者】地图开放平台假期服务公告

百度开发者中心