写点什么

谷歌发布开源 Dopamine 2.0,让强化学习变得更灵活

  • 2019-02-09
  • 本文字数:715 字

    阅读完需:约 2 分钟

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活

强化学习(RL)已成为最受欢迎的机器学习领域之一,并且在过去几年中取得了许多重大进展。因此,研究人员和教育工作者越来越需要获得一个清晰可靠的 RL 研究和教育框架。去年 8 月,谷歌发布了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。


今天,谷歌发布 Dopamine 2.0,为强化学习提供了更高的灵活性以及更多的测试环境。


去年八月,谷歌发布了 Dopamine,这是一款灵活的强化学习框架。初始版本专注于特定类型的 RL 研究:基于 Arcade 学习环境(一个成熟的、易于理解的基准)和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理实现的。


开源地址:https://github.com/google/dopamine


据官方博客介绍:


开发小组收到的最常见的请求之一是对更多环境的支持。这证实了他们在内部看到的情况,在测试新算法时,OpenAI 的 Gym 支持的简单环境非常有用。于是,谷歌正式发布 Dopamine 2.0,这一版本包括了对离散域 Gym 环境(如离散状态和动作)的支持。框架的核心保持不变,只是简单地概括了与环境的接口。为了向后兼容,用户仍然可以下载 1.0 版本。


此外,新版本还包括两个经典控制环境的默认配置:CartPole 和 Acrobot;在这些环境中,用户可以在几分钟内训练 Dopamine 代理。与标准 Atari 2600 游戏的训练时间(标准 GPU 上大约 5 天)相比,这些环境允许研究人员在更大规模的 Atari 游戏上测试比之前更快地迭代研究思路。新版本还包括一个合作实验室,演示如何在 Cartpole 和 Acrobot 上训练代理。最后,GymPreprocessing 类为如何将 Dopamine 与其他自定义环境一起使用提供了示例。


拓展阅读


吊打OpenAI!谷歌重磅开源强化学习框架Dopamine


2019-02-09 09:004178
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 279.9 次阅读, 收获喜欢 1301 次。

关注

评论

发布
暂无评论
发现更多内容

移动前端的安全管理方案

Onegun

前端 安全

6个步骤强化 CI/CD 安全

SEAL安全

count(*)查询性能很差?用这5招轻松优化

小小怪下士

Java 程序员 后端

通俗易懂的React事件系统工作原理

夏天的味道123

React

读懂React原理之调和与Fiber

xiaofeng

React

vue的几个提效技巧

yyds2026

Vue

HummerRisk V0.5.1 发布:新增对象存储、优化K8s 资源态势和资源拓扑等

HummerCloud

Kubernetes 云原生 云安全 云原生安全

火山引擎 DataTester 首推A/B实验经验库,帮助企业高效优化实验设计能力

字节跳动数据平台

大数据 A/B测试

华为云Astro的前世今生:用7年时间革新低代码开发观念

华为云开发者联盟

低代码 华为云

Paddle Graph Learning (PGL)图学习之图游走类node2vec模型[系列四]

汀丶人工智能

图神经网络 11月月更

测试大咖漫谈如何搞定软件质量?

测吧(北京)科技有限公司

软件测试

聊聊Vuex原理

yyds2026

Vue

【LeetCode】字符串相加Java题解

Albert

算法 LeetCode 11月月更

React源码解读之任务调度

flyzz177

React

这可能是你需要的React实战技巧

夏天的味道123

React

React-diff原理及应用

xiaofeng

React

技术界中的虚拟机、容器和沙箱的关系

FinFish

容器 虚拟机 安全沙箱

查看、校验、归档…带你掌握openGauss账本数据库

华为云开发者联盟

数据库 后端 华为云

数据库独角兽SingleStore:没有HTAP,机器学习和人工智能都是不切实际的

StoneDB

数据库 开源 HTAP StoneDB SingleStore

虚拟机、沙箱和容器之间的区别

Onegun

容器 虚拟机 沙箱

微博:公布热搜算法!

博文视点Broadview

React-Hook最佳实践

xiaofeng

React

计算机网络:以太网与IEEE 802.3

timerring

计算机网络 11月月更

彻底搞懂Vue虚拟Dom和diff算法

yyds2026

Vue

多视角碰撞,探索 Serverless 企业落地更多可能性丨阿里云用户组厦门站

云布道师

阿里云 云原生

OKR之剑·实战篇03:OKR的跟踪需要有“自己”的节奏

vivo互联网技术

团队管理 OKR 目标管理

「Go工具箱」推荐一个轻量级、语义化的时间处理库:carbon

Go学堂

golang 开源 程序员 carbon 日期时间转换

React核心技术浅析

夏天的味道123

React

浪潮信息工程师:谈一谈设备透传虚拟机启动慢背后的原因及其优化方法 | 第 51 期

OpenAnolis小助手

Linux 系统运维 内核 龙蜥大讲堂 浪潮

使用EasyCV Mask2Former轻松实现图像分割

阿里云大数据AI技术

深度学习 计算机视觉 图像处理 图像分割 企业号十月 PK 榜

React源码解读之React Fiber

flyzz177

React

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活_AI&大模型_谷歌博客_InfoQ精选文章