速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

DeepMind 推出 Agent57,在所有雅达利游戏上超越人类

  • 2020-05-19
  • 本文字数:1512 字

    阅读完需:约 5 分钟

DeepMind推出Agent57,在所有雅达利游戏上超越人类

谷歌旗下DeepMind的研究人员开发了一款名为Agent57的强化学习(RL)系统,该系统在街机学习环境下的全部 57 款雅达利 2600 游戏中得分都超过了人类。Agent57 是第一个在这种最难的游戏上全面超越人类的系统。


研究人员在 arXiv 上发表的一篇论文中介绍了这个系统以及一系列的实验。Agent57 基于的是 DeepMind 之前关于永不放弃(NGU)算法强化学习的工作成果。其底层架构由一个神经网络组成,该网络编码一组策略,范围从探索到利用,使用自适应机制在整个培训过程中对不同的策略进行优先级排序。另外的改进是,通过增加训练的稳定性来解决长期的可信度赋值问题。通过这些改进,Agent57 在所有游戏中的得分中值都高于 NGU。此外,在之前的人工智能系统根本不能玩的游戏中,Agent57 的得分表现也优于人类。


尽管 DeepMind 的大部分研究都集中玩游戏的 AI 上,包括像AlphaGo研究的经典棋盘游戏,据该团队他们的说法,其目标是“使用游戏作为系统开发的垫脚石,让 AI 应对更广泛的挑战。”研究人员认为雅达利 2600 系列游戏是用于评定 RL 表现的一个很好的基准,因为每款游戏都足以代表一个实际的挑战,而整个系列包含非常多品种,提供足够的多样化。尽管经过多年的研究,深度 Q-Networks (Deep Q-Networks,首个在多款游戏中实现人类水平表现的系统)也进行了多项改进,“所有深度强化学习代理始终未能在四款游戏中得分:蒙特祖玛的复仇(Montezuma’s Revenge)、陷阱(Pitfall)、飞向太空(Solaris)和滑雪(Skiing)。”若要玩好这些游戏,需要系统解决 RL 中的两个难题:探索-利用问题和长期信度分配问题。


探索-利用权衡是行为人在选择已经学习的策略和探索新的策略之间所必须达到的平衡。像《陷阱》和《蒙提祖玛的复仇》这样的游戏要求玩家在获得任何奖励之前先探索游戏“世界”。Agent57 的前身 NGU 使用了一种通过检测新的游戏状态而产生内在奖励的方式。于是,它学习了一套探索和利用政策。Agent57 使用一个多臂 bandits 元控制器改进了这一点,该控制器在训练期间调整了探索-利用平衡。


当代理采取的行动有延迟的报酬时,就会出现长期信度分配问题。例如,在滑雪游戏中,直到游戏结束才会给出分数,因此系统无法轻松学习游戏开始后不久所采取的动作的效果。Agent57 对 NGU 的改进是将 agent 的神经网络分为两部分:一部分学习预测行为的内在奖励,另一部分学习预测行为的外在奖励。研究人员发现,这“显著”提高了训练的稳定性。


DeepMind 团队将 Agent57 的性能与其他几个系统进行了比较,包括 NGU、循环回放分布式DQN (R2D2)和 MuZero。尽管 MuZero 在整个套件中拥有最高的平均值和中位数得分,但有一些游戏它“根本”就不会玩,得到的分数并不比随机策略好多少。Agent57 在最难的 20%的游戏中获得了最好的分数,并且是唯一在所有游戏中都超过人类表现的系统。


骇客新闻关于 Agent57 的讨论中,一名用户指出:


整个进化过程看起来越来越像 20 世纪 80 年代的专家系统,人们不断地添加越来越多的复杂性来“解决”一个特定的问题。对于强化学习,开始的时候,是简单而优雅的 DQN,而现在新的算法看起来像一个巨大的修修补补的大杂烩。事实上,NGU 极度复杂,看起来像是打满各种补丁的临时组合。现在在 NGU 的顶部,我们还加入了元控制器,甚至是 bandits ,最终成就了一款几乎无所不包的工具。


DeepMind 成立于 2010 年,2014 年被谷歌收购。DeepMind 开发的 AlphaGo 在 2016 年击败了最优秀的人类围棋选手之一。


原文链接:


DeepMind’s Agent57 Outperforms Humans on All Atari 2600 Games


译者简介:


冬雨,小小技术宅一枚,关注编程、软件工程、敏捷、DevOps、云计算等领域,非常乐意将国外新鲜的 IT 资讯和深度技术文章翻译分享给大家。


2020-05-19 14:381595

评论

发布
暂无评论
发现更多内容

AIGC背后的技术分析 | 图像风格迁移

TiAmo

AIGC 图像风格迁移

百度营销首创CPQL模式,破解汽车营销线索难题

Geek_2d6073

ConcurrentHashMap是如何实现的?

javacn.site

如何编写一个健壮的 npm 包 | 京东云技术团队

京东科技开发者

npm npm chalk-next 企业号 5 月 PK 榜

顺丰科技携手飞桨自研“智能外呼机器人”,为客户打造优质服务体验

飞桨PaddlePaddle

nlp 语音识别 百度飞桨

Github标星67.9k的微服务架构以及架构设计模式笔记我粉了

做梦都在改BUG

Java 架构 微服务 设计模式

如何做好需求管理?华为云需求管理利器CodeArts Req解读

华为云PaaS服务小智

云计算 产品经理 需求管理 华为云

Photoshop2023硬件要求,PS2023最低配置要求

Rose

PS2023 PS2023系统要求 Photoshop2023硬件要求 神经滤镜Neural Filters

首站中科院!百度商业AI技术创新大赛开启巡回宣讲

百度Geek说

人工智能 百度 企业号 5 月 PK 榜

完美!京东资深架构师爆肝纯手打700页架构进阶宝典我粉了

做梦都在改BUG

Java 架构 亿级流量

C语言编程—循环语句

梦笔生花

MacOS高效iOS代码编写工具|AppCode 2023 激活版v2023.2 兼容M1/M2/intel

Rose

AppCode中文 AppCode 2023破解 AppCode密钥 iOS/macOS开发

ps神经滤镜是干什么的,神经滤镜的功能和作用

Rose

Photoshop 2023下载 ps神经滤镜 Neural Filters滤镜

阿里逆天级调优方案,内部这套Java性能调优实战宝典,堪称教科书

做梦都在改BUG

Java 性能优化 JVM 性能调优

如何使用golang实现桥接模式

Jack

优质高效!阿里甩出SpringBoot巅峰之作,进阶不二之选

做梦都在改BUG

Java Spring Boot 框架

从传统 IT 容灾转向“全栈云容灾”|什么是更适合政企的云

云布道师

阿里云

名不虚传!字节技术官甩出的"保姆级"数据结构与算法笔记太香了

做梦都在改BUG

Java 数据结构 算法 LeetCode

字节Java全能手册火了!多线程/网络/性能调优/框架啥都有

做梦都在改BUG

Java 微服务 Spring Cloud socket

OpenHarmony创新赛 | 赛事宣讲会日期重磅官宣!为你带来超详尽的赛事攻略

OpenHarmony开发者

OpenHarmony

易观千帆 | 2023年4月证券APP月活跃用户规模盘点

易观分析

证券

2D CAD设计软件CADintosh X 激活版

真大的脸盆

Mac Mac 软件 CAD绘图 CAD设计 cad

恭喜又一名小伙伴上岸大厂

冰河

程序员 互联网 架构师 大厂Offer 上岸大厂

iMovie for Mac(专业视频剪辑工具) v10.3.6中文版

Rose

Mac视频剪辑软件 iMovie中文版 iMovie下载 iMovie Mac破解版

选择小程序第三方开发框架,你需要知道这些

没有用户名丶

TDengine 成功“晋级” Percona Live 2023 银牌赞助商,开发者驻足关注

爱倒腾的程序员

中国互联网广告市场年度分析2023

易观分析

互联网 广告

运行Adobe软件遇到“Adobe app is not available”怎么解决

Rose

Adobe软件

火山引擎DataTester:如何使用A/B测试优化全域营销效果

字节跳动数据平台

AB testing实战 ab测试 A/B测试

Nautilus Chain开启全球行,普及Layer3概念加速其采用

西柚子

DeepMind推出Agent57,在所有雅达利游戏上超越人类_AI&大模型_Anthony Alford_InfoQ精选文章