写点什么

DeepMind 发布 Acme 框架,可简化强化学习算法开发

  • 2020-06-24
  • 本文字数:1276 字

    阅读完需:约 4 分钟

DeepMind 发布Acme框架,可简化强化学习算法开发

本文最初发表在 WIRED 网站,由 InfoQ 中文站翻译并分享。


近日,DeepMind 发布了 Acme,该框架旨在通过使人工智能驱动的智能体能够在不同的执行规模下运行,从而简化强化学习(Reinforcement learning,RL)算法的开发。Acme 背后的工程师和研究人员共同撰写了一篇关于该项工作的技术论文,根据这篇论文的说法,Acme 可以用来创建比以前的方法更具并行性的智能体。


强化学习涉及到智能体与环境交互以生成自己的训练数据,它已经在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。最近取得的进展,在一定程度上要归因于所使用的训练数据量的增加,这激发了智能体与环境实例交互以快速积累经验的系统的设计。DeepMind 曾断言,这种从算法的单进程原型到分布式系统的扩展通常需要重新实现相关的智能体,这正是 Acme 框架的用武之地。


Acme 是一个用于训练强化学习智能体的开发套件,它试图解决复杂性和规模化的问题,其组件用于构建从算法和策略到学习者的不同抽象层次的智能体。我们的思路是,这样可以对想法进行迅速迭代,并在生产中对这些想法进行评估,主要是通过训练循环、强制日志记录和检查点。


在 Acme 中,行为者(actor)与环境密切互动,对环境进行观察,并采取行动,而这些行动又反过来反馈到环境中。在观察到随之而来的过渡后,行为者有机会更新它们的状态;这通常与它们的行动选择政策有关,这些政策决定了它们为应对环境采取哪些行动。一种特殊类型的 Acme actor 包括行为和学习组件,它们被称为“智能体”,它们的状态更新是由学习者(learner)组件中的一些步骤触发的。也就是说,智能体在大多数情况下都会将它们的行动选择权交给它们自己的行为组件。


Acme 提供了一个位于行为者和学习者组件之间的数据集模块,该模块由一个名为 Reverb 的低级存储系统提供支持,DeepMind 日前也发布了这个系统。此外,该框架还建立了一个用于插入 Reverb 的通用接口,从而实现了不同风格的预处理和观测数据的持续聚合。


行为组件、学习组件和存储组件被划分到 Acme 内部的不同线程或进程中,这带了两个好处:环境交互和学习过程异步发生,以及数据生成得到加速。在其他地方,Acme 的速率限制允许执行从学习到执行的理想速率,只要进程保持在某个定义的容忍度内,进程就可以畅通运行。例如,如果其中一个进程由于网络问题或资源不足而开始落后于另一个进程,速率限制器将阻止落后的进程,而另一个进程则迎头赶上。


除了这些工具和资源之外,Acme 还附带了一套示例智能体,作为各自强化学习算法的参考实现,以及强大的研究基线。DeepMind 表示,未来可能会有更多的产品问世。“通过提供这些……我们希望 Acme 将有助于改善强化学习中的可重复性问题,并赋予学术研究界用简单的构建模块来创建新智能体的能力,”研究人员写道,“此外,我们的基线应该提供额外的标准,以衡量该领域的进展。”

作者介绍:

Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2020/06/03/deepmind-releases-acme-a-distributed-framework-for-reinforcement-learning-algorithm-development/


2020-06-24 14:241888
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 528.7 次阅读, 收获喜欢 1975 次。

关注

评论

发布
暂无评论
发现更多内容

高效时代,是时候过渡到自动化测试了

SoFlu软件机器人

DevOps 软件开发 自动测试

hi 龙蜥小二来了 ,一键@为你答疑解惑

OpenAnolis小助手

Linux 服务

Flink,Spark,Storm,Hadoop框架比较

@零度

flink hadoop spark Storm 大数据开发

2021 年 6 个GitHub推荐前端项目

devpoint

vite nextjs tauri 1月月更 Tailwind

云效产品篇:开启敏捷需求管理 |云效快速入门

阿里云云效

阿里云 DevOps 云原生 需求管理 云效

2022年,你还要做开源软件么?

亚马逊云科技 (Amazon Web Services)

计算

龙智搬迁公告

龙智—DevSecOps解决方案

搬迁

用户文章转载:Windows用户都来看看,这个锅P4不背

龙智—DevSecOps解决方案

perforce P4

深入分析JUC之Lock接口

编程江湖

lock锁

1月月更|推荐学java——Spring第一课

逆锋起笔

spring SSM框架 Spring MVC Spring Java Spring项目

crontab介绍安装及每秒运行

Owen Zhang

Linux crontab

当类的泛型相关时,如何在两个泛型类之间创建类似子类型的关系

阿Q说代码

Java泛型 1月月更 子类型

无服务器应用DevOps最新实践(内附完整演讲+视频)

亚马逊云科技 (Amazon Web Services)

计算

ReactNative进阶(二十二):点击事件.bind(this)引发的思考

No Silver Bullet

1月月更 ReactNative

编程进阶之路,虽无捷径但有长短

程序人生

Apache Kylin PMC 马洪宾:开源,就是一场“螺旋上升”的旅程

腾源会

几行代码,把zip文件直接破解

你?

全面提升体系化数据管理能力 | OceanBase 发布全新3.X工具家族

OceanBase 数据库

数据库 开源 开发者 OceanBase 社区版 产品发布

AJAX工作原理及其优缺点

编程江湖

2022 年十大 AI 开源工具和框架

腾源会

开源

netty系列之:不用怀疑,netty中的ByteBuf就是比JAVA中的好用

程序那些事

Netty nio 程序那些事 1月日更

MySQL性能优化:SQL慢查询优化,索引优化,表优化

Ayue、

MySQL 1月月更

Bruce Eckel教你如何爬出 Gradle 的“坑”?

图灵社区

java 编程

在 Flutter 中创建自定义 NumPad(数字键盘)

坚果

flutter 1月月更

4种高速安全混合云解决方案,助力您的云迁移之旅!

亚马逊云科技 (Amazon Web Services)

计算

打造智能全场景,《HarmonyOS Connect系列课》7大BUFF为您助力!

HarmonyOS开发者

云图说|图解DGC:基于华为智能数据湖解决方案的一体化数据治理平台

华为云开发者联盟

大数据 数据湖 数据治理 数据服务 数据湖治理中心

热烈庆祝龙智高级咨询顾问叶燕秀获得“Atlassian认证专家”称号

龙智—DevSecOps解决方案

Atlassian认证专家 Atlassian认证

更快的Maven构建工具mvnd和Gradle哪个更快?

王磊

vivo 推送平台架构演进

vivo互联网技术

分布式 架构设计 消息推送 平台搭建、

利用物联网技术加速数字化转型

龙智—DevSecOps解决方案

DeepMind 发布Acme框架,可简化强化学习算法开发_AI&大模型_KYLE WIGGERS_InfoQ精选文章