InfoQ Geekathon 大模型技术应用创新大赛 了解详情
写点什么

DeepMind 提出强化学习新方法,可实现人机合作

  • 2021-12-03
  • 本文字数:2905 字

    阅读完需:约 10 分钟

DeepMind提出强化学习新方法,可实现人机合作

本文来自 BDTechTalks 网站的“AI研究论文评论”专栏。该专栏提供人工智能最新发现的系列解读文章。


尽管人工智能研究人员正力图建立能在围棋、星际争霸到 Dota 等复杂游戏中击败人类专家的强化学习系统,但如何创建出能与人类开展合作而非竞争的强化学习系统是人工智能正面临的更大挑战。


在一篇由 DeepMind 的人工智能研究人员最新预发布的论文中,提出了一种称为 FCP(Fictitious Co-Play,虚拟合作)的新方法。该方法实现智能体与不同技能水平人类间的合作,无需人工生成数据训练强化学习智能体(agent)。论文已被今年的 NIPS 会议接收。


论文通过使用一款称为 Overcooked 的解谜游戏进行测试,结果表明在与人类玩家的组队合作中,FCP 方法创建的强化学习智能体表现更优,混淆度最低。论文结果可为进一步研究人机协作系统提供重要方向。

训练强化学习智能体


强化学习可持续无休地学习任何具有明确奖励(award)、动作(action)和状态(state)的任务。只要具备足够的计算能力和时间,强化学习智能体可根据所在的环境(environment)去学习出一组动作序列或“策略”,以实现奖励(award)的最大化。强化学习在玩游戏中的有效性,已得到很好的证明。


但强化学习智能体给出的游戏策略通常并不能很好地匹配真人队友的玩法。一旦组队合作,智能体执行的操作会令真人队友大感困惑。由此,强化学习难以应用于需各方参与者协同规划和分工的场景。如何弥合机器智能与真人玩家间存在的鸿沟,是人工智能社区正面对的一个重要挑战。


研究人员正致力于创建各种强化学习智能体,达到能适应包括其它强化学习智能体和人类在内的各合作方的行为习惯。

图1 强化学习智能体的多种训练方法


SP 方法(self-play,左右互搏法)是游戏使用的经典强化学习训练方法。该方法让强化学习智能体与自身的一个副本持续对战,能非常高效地学习出实现游戏奖励最大化的策略。但该方法的问题在于,所生成的强化学习模型会过拟合智能体自身的游戏玩法,导致完全无法与使用其他方法训练的玩家合作。


另一种训练方法是 PP 方法 (popuation play,群体参与法),它在强化学习智能体训练中引入了多种具有不同参数和结构的队友模型。尽管在与真人玩家合作的竞技游戏中,PP 方法要明显地优于 SP 方法,但其依然缺乏应对“共同收益”(common-payoff)场景下的多样性(diversity)问题。“共同收益”指玩家必须协同解决问题,并根据环境变化去调整合作策略。


第三种方法称为 BCP 方法(behavioral cloning play,行为克隆法),它使用人工生成的数据训练强化学习智能体。有别于在环境中随机选取起始点,BCP 方法根据采集自真人玩家的游戏数据去调整模型参数,使智能体生成更接近于人类玩家游戏模式的行为。如果可以采集具有不同技能水平和游戏风格玩家的数据,那么智能体就能更灵活地适应队友的行为,更有可能与真人玩家很好地配合。然而 BCP 方法的挑战性在于如何获取真人数据,特别是考虑到要使强化学习模型达到最佳设置,通常所需的游戏量是人工所无法企及的。

FCP 方法


DeepMind 新提出的强化学习 FCP 方法,其关键理念是在无需依赖于人工生成数据的情况下,创建可与具有不同风格和技能水平玩家协作的智能体。


FCP 方法的训练分为两个阶段。首先,DeepMind 研究人员创建了一组使用 SP 方法的强化学习智能体,分别在不同的初始条件下独立完成训练,使模型收敛于不同的参数设置,由此创建了一个多样化的强化学习智能体池。为实现智能体池中技能水平的多样化,研究人员保存了每个智能体在不同训练阶段的快照。

正如论文所述,“最后一个检查点表示的是一个经完全训练的‘熟练’玩家,而较早的检查点则代表技能尚不纯熟的玩家。需说明的是,使用多个检查点实现各个玩家技能的多样性,这并不会导致的额外训练成本。”


第二个阶段使用池中所有的智能体,训练出一个新的强化学习模型。新智能体必须达成策略上的调优,才能实现与具有不同参数值和技能水平的队友开展协同。论文提出,“FCP 智能体完全可以达到跟随真人玩家带队,在给定范围的策略和技能中去学习出一个通用的策略。”

测试 FCP


DeepMind 的人工智能研究人员将 FCP 方法应用于解谜游戏 Overcooked。游戏玩家在网格化场景中移动,与物体互动,执行一系列步骤,最终完成烹饪和送餐任务。Overcooked 的游戏逻辑简单,并需要队友间的协作和工作分配,因此非常适合测试。


为测试 FCP 方法,DeepMind 研究人员简化了完整的 Overcooked 游戏任务。他们精心挑选了一组具有多种挑战的地图,包括强制协作和受限空间等。


图2 DeepMind使用简化版Overcooked测试FCP方法


研究人员分别训练了一组 SP、PP、BCP 和 FCP 智能体。为了比较各方法的性能,他们首先组了三个队,分别测试每种强化学习智能体类型,即基于人类游戏数据训练的 BCP 模型、在不同技能水平上训练的 SP 智能体,以及代表低水平玩家的随机初始化智能体。测试根据在相同数量剧集中所能提供的餐食数,衡量各方法的性能优劣。


结果表明,FCP 方法的表现要明显优于其他强化学习智能体训练方法,可以很好地泛化各种技能水平和游戏风格。出乎意料的是,测试进一步表明了其他训练方法是非常脆弱的。正如论文所述,“这意味着其他方法可能无法达到与技能水平一般的玩家组队。”


图3 对于强化学习智能体训练,FCP方法优于其他方法


论文进而测试了每种类型的强化学习智能体在与人类玩家合作中的表现。研究人员开展了有 114 名人类玩家参加的在线研究,其中每位玩家参与 20 轮游戏。在每一轮游戏中,玩家与其中一种强化学习智能体组队,但并不知道该智能体的具体类型,随机进入一个厨房场景。


根据实验结果,“人类-FCP”组队的性能,要优于其他所有“人类-强化学习智能体”组队。


每两轮游戏后,参与玩家根据与强化学习智能体组队的体验,给出一个 1 到 5 之间的评分。相对其他智能体,参与玩家对 FCP 队友表现出明显的偏好。反馈表明,FCP 智能体的行为更加连贯、更好预测,适应性更强。例如,强化学习智能体似乎具备了感知队友行为的能力,在每个烹饪场景中选择了特定角色,避免相互产生混淆。


与之相比,其他强化学习智能体的行为则被测试参与者描述为“混乱无章,难以合作”。


图4 DeepMind使用各种强化学习智能体与人类玩家组队

下一步工作


在论文中,研究人员也指出了该工作的一些局限性。例如,在 FCP 智能体的训练中,只使用了 32 个强化学习合作队友。尽管这完全可应对简化版的 Overcooked 游戏,但应用于更复杂的环境时可能会受限。DeepMind 研究人员指出,“对于更复杂的游戏,为表示足够多样化的策略,FCP 所需合作伙伴的总体规模可能难以企及。”


奖励定义是限制 FCP 应用于更复杂环境的另一个挑战。在简化版 Overcooked 中,奖励是简单而且明确的。但在其他环境中,强化学习智能体在获得主要奖励前,必须去完成一些子目标。而智能体实现子目标的方式,必须要与人类合作伙伴的方式保持一致。这在缺少人类数据的情况下,是很难去评估和调优的。研究人员提出,“如果任务的奖励函数与人类处理任务的方式非常不一致,那么和所有缺少人类数据的方法一样,该方法同样很可能会生成非最优的合作伙伴。”


DeepMind 的研究可归为人机协作领域研究。在麻省理工学院科学家的一项最新研究中,探索了强化学习智能体在与真人玩家玩纸牌游戏 Hanabi 中的局限性。


DeepMind 提出的强化学习新技术,在弥合人类和人工智能间鸿沟上取得了进步。研究人员希望其“能为未来研究人机协作造福社会这一重要挑战奠定坚实的基础。”


原文链接: DeepMind RL method promises better co-op between AI and humans

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2021-12-03 08:002498

评论

发布
暂无评论
发现更多内容

语音平台源码搭建开发之表情功能的实现

山东布谷科技

软件开发 语音 直播 源码搭建 语音厅平台搭建

分布式系统常见问题

互联网工科生

分布式

7.12下午两点开启直播!《数智企业@中国》走进泰开集团

用友BIP

数智企业

华为云张鹏:华为云盘古大模型及MetaStudio亮相新媒体大会,使能融媒创新

新消费日报

火热的低代码和无代码赛道

互联网工科生

软件开发 低代码 无代码 应用开发

软件测试/测试开发丨Selenium环境安装配置

测试人

Python 程序员 软件测试 selenium chromedriver

从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学

汀丶人工智能

人工智能 自然语言处理 nlp 知识图谱 本体建模

为什么选择美国虚拟主机是你的明智之选?

一只扑棱蛾子

美国虚拟主机

谁能真正替代你?AI辅助编码工具深度对比(chatGPT/Copilot/Cursor/New Bing)

快乐非自愿限量之名

工具 ChatGPT AI赋能 AI工具

如何在 Ubuntu 22.04 下编译 StoneDB for MySQL 8.0 | StoneDB 使用教程 #1

StoneDB

数据库 StoneDB

北京汽车牵手火山引擎数智平台,探寻车企数字化升级新通路

字节跳动数据平台

数字化 数字化升级 车企 企业号 7 月 PK 榜

软件定义汽车场景中的数据流处理

EMQ映云科技

车联网 mqtt 数据流

人工智能的底层逻辑

博文视点Broadview

三问三答:细数GaussDB迁移的核心技术

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

【HDC.Cloud 2023】华为云区块链分论坛内容值得再读!

华为云开发者联盟

区块链 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

Cloud Kernel SIG月度动态:ANCK 5.10-016将落地kABI机制,5.10-015版本规划发布

OpenAnolis小助手

操作系统 内核 anck 龙蜥sig 版本规划

直播预告 | 博睿学院:海量数据实时可信认证

博睿数据

智能运维 博睿数据 数据要素 博睿学院

ChatGPT 来了,MySQL DBA 会失业吗?| StoneDB 数据库观察 #10

StoneDB

数据库 StoneDB ChatGPT

数智化的核心在于构建底座,看这家数科公司如何与传统厂商双赢双生

用友BIP

数智底座 数科公司

响应式编程:Vert.x官网学习

越长大越悲伤

响应式编程 JVM Vert.x

码中寻趣:低码专家与开发者的「神秘会议」 ——华为云Astro扫地僧出山

华为云PaaS服务小智

云计算 低代码 华为云 华为开发者大会2023 Astro

沉潜蓄势,厚积薄发:StoneDB-5.7-V1.0.4版本正式发布!特性增强,稳定性大幅提升

StoneDB

数据库 版本发布 StoneDB

技术领先、“忠”于业务,用友助力企业实现价值化国产替代

用友BIP

春去夏来,火热发版:StoneDB-8.0-v1.0.1-beta 版本正式发布!

StoneDB

数据库 StoneDB

用友BIP全球司库“五大管家”,助力大型企业一流司库建设

用友BIP

全球司库

看完这篇异地多活的改造,我决定和架构师battle一下

得物技术

架构 构架师

2023年最具威胁的25种安全漏洞(CWE TOP 25)

华为云开发者联盟

安全 华为云 安全漏洞 华为云开发者联盟 企业号 7 月 PK 榜

方言语音识别数据驱动人工智能的多元文化发展

来自四九城儿

方言语音

一文吃透CSS样式中颜色与颜色值的应用

这我可不懂

CSS

超级应用App的概念及构建思路

Onegun

小程序 小程序容器 超级应用

从零开始构建一个电影知识图谱,实现KBQA智能问答[下篇]:Apache jena SPARQL endpoint及推理、KBQA问答Demo超详细教学

汀丶人工智能

人工智能 自然语言处理 知识图谱 智能问答 KBQA

  • 扫码添加小助手
    领取最新资料包
DeepMind提出强化学习新方法,可实现人机合作_文化 & 方法_Ben Dickson_InfoQ精选文章