DeepMind推出Agent57，在所有雅达利游戏上超越人类_AI&大模型_Anthony Alford_InfoQ精选文章

AICon 北京站 Keynote 亮点揭秘，想了解 Agent 智能体来就对了！了解详情 



 写点什么

登录/注册

DeepMind推出Agent57，在所有雅达利游戏上超越人类

谷歌旗下DeepMind的研究人员开发了一款名为Agent57的强化学习(RL)系统，该系统在街机学习环境下的全部 57 款雅达利 2600 游戏中得分都超过了人类。Agent57 是第一个在这种最难的游戏上全面超越人类的系统。

研究人员在 arXiv 上发表的一篇论文中介绍了这个系统以及一系列的实验。Agent57 基于的是 DeepMind 之前关于永不放弃(NGU)算法强化学习的工作成果。其底层架构由一个神经网络组成，该网络编码一组策略，范围从探索到利用，使用自适应机制在整个培训过程中对不同的策略进行优先级排序。另外的改进是，通过增加训练的稳定性来解决长期的可信度赋值问题。通过这些改进，Agent57 在所有游戏中的得分中值都高于 NGU。此外，在之前的人工智能系统根本不能玩的游戏中，Agent57 的得分表现也优于人类。

尽管 DeepMind 的大部分研究都集中玩游戏的 AI 上，包括像AlphaGo研究的经典棋盘游戏，据该团队他们的说法，其目标是“使用游戏作为系统开发的垫脚石，让 AI 应对更广泛的挑战。”研究人员认为雅达利 2600 系列游戏是用于评定 RL 表现的一个很好的基准，因为每款游戏都足以代表一个实际的挑战，而整个系列包含非常多品种，提供足够的多样化。尽管经过多年的研究，深度 Q-Networks （Deep Q-Networks，首个在多款游戏中实现人类水平表现的系统）也进行了多项改进，“所有深度强化学习代理始终未能在四款游戏中得分：蒙特祖玛的复仇（Montezuma’s Revenge）、陷阱（Pitfall）、飞向太空（Solaris）和滑雪（Skiing）。”若要玩好这些游戏，需要系统解决 RL 中的两个难题：探索-利用问题和长期信度分配问题。

探索-利用权衡是行为人在选择已经学习的策略和探索新的策略之间所必须达到的平衡。像《陷阱》和《蒙提祖玛的复仇》这样的游戏要求玩家在获得任何奖励之前先探索游戏“世界”。Agent57 的前身 NGU 使用了一种通过检测新的游戏状态而产生内在奖励的方式。于是，它学习了一套探索和利用政策。Agent57 使用一个多臂 bandits 元控制器改进了这一点，该控制器在训练期间调整了探索-利用平衡。

当代理采取的行动有延迟的报酬时，就会出现长期信度分配问题。例如，在滑雪游戏中，直到游戏结束才会给出分数，因此系统无法轻松学习游戏开始后不久所采取的动作的效果。Agent57 对 NGU 的改进是将 agent 的神经网络分为两部分：一部分学习预测行为的内在奖励，另一部分学习预测行为的外在奖励。研究人员发现，这“显著”提高了训练的稳定性。

DeepMind 团队将 Agent57 的性能与其他几个系统进行了比较，包括 NGU、循环回放分布式DQN (R2D2)和 MuZero。尽管 MuZero 在整个套件中拥有最高的平均值和中位数得分，但有一些游戏它“根本”就不会玩，得到的分数并不比随机策略好多少。Agent57 在最难的 20%的游戏中获得了最好的分数，并且是唯一在所有游戏中都超过人类表现的系统。

在骇客新闻关于 Agent57 的讨论中，一名用户指出：

整个进化过程看起来越来越像 20 世纪 80 年代的专家系统，人们不断地添加越来越多的复杂性来“解决”一个特定的问题。对于强化学习，开始的时候，是简单而优雅的 DQN，而现在新的算法看起来像一个巨大的修修补补的大杂烩。事实上，NGU 极度复杂，看起来像是打满各种补丁的临时组合。现在在 NGU 的顶部，我们还加入了元控制器，甚至是 bandits ，最终成就了一款几乎无所不包的工具。

DeepMind 成立于 2010 年，2014 年被谷歌收购。DeepMind 开发的 AlphaGo 在 2016 年击败了最优秀的人类围棋选手之一。

原文链接：

DeepMind’s Agent57 Outperforms Humans on All Atari 2600 Games

译者简介：

冬雨，小小技术宅一枚，关注编程、软件工程、敏捷、DevOps、云计算等领域，非常乐意将国外新鲜的 IT 资讯和深度技术文章翻译分享给大家。

评论

发布

暂无评论

选择it资产管理软件要注意什么？

低代码小观

资产管理企业管理系统低代码开发 #资产追踪客户关系管理系统

基于 EventBridge 构建数据库应用集成

阿里巴巴云原生

DIVE大会上线了！参与活动还有精美周边领取哦！

InfoQ写作社区官方

热门活动 DIVE

【linux运维】linux运维常用工具有哪些？

云计算运维 IT运维云管理

优秀的FAQ示例及FAQ页面制作技巧

云原生边缘计算KubeEdge在智慧停车中的实践

华为云原生团队

边缘计算边缘技术边缘云

知名数字化解决方案厂商新华三加入龙蜥社区，已完成硬件兼容性测试

OpenAnolis小助手

开源社区兼容性测试龙蜥社区 CLA 新华三

新思科技助力Linux基金会开展最新开源普查项目

InfoQ_434670063458

Linux 开源新思科技

华为云推出限量NFT云宝，区块链技术为你的数字资产保驾护航

华为云开发者联盟

华为云 NFT 云宝华为云NFT 华为云数字资产链

今天聊一聊合成数据 (Synthetic Data)

人工智能数据集数据标注数据训练合成数据

ModStartCMS模块化建站系统 v3.7.0 栏目导航开关，页面样式优化

Apache DolphinScheduler ASF 孵化器毕业一周年，汇报来了！

Big Data DolphinScheduler workflow Open Source apache 社区

平安普惠湖北分公司：齐心抗疫显担当，助力小微迎暖春

科技新消息

平安普惠湖北分公司：疫情后来式，复工进行时

科技新消息

教你如何在优麒麟上调节外接显示器，如亮度、色彩等方面！

Linux 开源经验分享优麒麟显示器

【二级等保】二级等保安全物理环境要求有哪些？

网络安全数据安全等保等级保护

专车数据层架构进化往事：好的架构是进化来的，不是设计来的

勇哥java实战分享

jackson学习之九：springboot整合(配置文件)

程序员欣宸

【数字底座专题】星环科技春季新品发布周

解构华为云HE2E项目中的容器技术应用

华为云开发者联盟

容器镜像华为云 devcloud HE2E

Linux 命令行小技巧分享第二弹--超简单，超实用！

Linux 开源命令行终端实用技巧优麒麟

独家下载！突破开源Redis，华为云十年自研内核修炼之路《企业级Redis技术与应用解读》重磅发布丨云享·书库

华为云开发者联盟

redis 华为云 GaussDB(for Redis) 开源Redis 企业级Redis

去中心化钱包系统开发app，imtoken钱包平台搭建源码

#区块链# 源码搭建去中心化钱包

GPU和AT的区别在哪里？GPU与AT有哪些区别？

人工智能 GPU服务器显卡、gpu GPU算力

投稿开奖丨轻量应用服务器征文活动（3月）奖励公布

阿里云弹性计算

轻量应用征文投稿开奖

【首期社区读书会】从《OceanBase数据库系统概念》到3.1.3 社区新版本，一起聊聊 OceanBase 那些事

OceanBase 数据库

OceanBase 社区版

CVE-2022-22965 漏洞分析，安全问题早发现

华为云开发者联盟

Java spring 漏洞 CVE JavaBean

交易所多种模式开发、各种源码交易

交易所开发区块链应用开发软件定制

web技术支持| 简单实现Vue第一章：模板编译

anyRTC开发者

Vue 前端 Web 音视频 WebRTC

对Indexlookup的理解误区

TiDB 社区干货传送门

TASKCTL服务端字符界面的应用系统安装

敏捷调度TASKCTL

kettle 元数据 ETL 调度任务大数据运维