写点什么

谷歌发布开源 Dopamine 2.0,让强化学习变得更灵活

  • 2019-02-09
  • 本文字数:715 字

    阅读完需:约 2 分钟

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活

强化学习(RL)已成为最受欢迎的机器学习领域之一,并且在过去几年中取得了许多重大进展。因此,研究人员和教育工作者越来越需要获得一个清晰可靠的 RL 研究和教育框架。去年 8 月,谷歌发布了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。


今天,谷歌发布 Dopamine 2.0,为强化学习提供了更高的灵活性以及更多的测试环境。


去年八月,谷歌发布了 Dopamine,这是一款灵活的强化学习框架。初始版本专注于特定类型的 RL 研究:基于 Arcade 学习环境(一个成熟的、易于理解的基准)和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理实现的。


开源地址:https://github.com/google/dopamine


据官方博客介绍:


开发小组收到的最常见的请求之一是对更多环境的支持。这证实了他们在内部看到的情况,在测试新算法时,OpenAI 的 Gym 支持的简单环境非常有用。于是,谷歌正式发布 Dopamine 2.0,这一版本包括了对离散域 Gym 环境(如离散状态和动作)的支持。框架的核心保持不变,只是简单地概括了与环境的接口。为了向后兼容,用户仍然可以下载 1.0 版本。


此外,新版本还包括两个经典控制环境的默认配置:CartPole 和 Acrobot;在这些环境中,用户可以在几分钟内训练 Dopamine 代理。与标准 Atari 2600 游戏的训练时间(标准 GPU 上大约 5 天)相比,这些环境允许研究人员在更大规模的 Atari 游戏上测试比之前更快地迭代研究思路。新版本还包括一个合作实验室,演示如何在 Cartpole 和 Acrobot 上训练代理。最后,GymPreprocessing 类为如何将 Dopamine 与其他自定义环境一起使用提供了示例。


拓展阅读


吊打OpenAI!谷歌重磅开源强化学习框架Dopamine


2019-02-09 09:004211
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 283.8 次阅读, 收获喜欢 1303 次。

关注

评论

发布
暂无评论
发现更多内容

Filecoin价格今日行情:filecoin价格还能怎么走?

区块链 分布式存储 IPFS filecoin价格 filecoin行情

区块链技术如何在涉诉信访中显身手

CECBC

比特币矿池如何触底反弹?比特币矿企的未来出路在哪里?

CECBC

中国做ipfs公司排名?挖ipfs排名前三的公司是?ipfs矿机哪家最好?

中国做ipfs公司排名 ipfs矿机哪家最好 挖ipfs排名前三的公司是

HTTP接口测试基础【FunTester框架教程】

FunTester

自动化测试 教程 接口测试 测试框架 FunTester

仓储执行系统(WES)

申扬科技

WCS wms WES 仓储执行系统

网络安全小白别拜师了,求人不如求己

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

安卓工控主板通信接口有哪些呢?

双赞工控

安卓主板 工控主板

图像分类-cifar100 实验研究

毛显新

人工智能 神经网络 tensorflow 图像识别 keras

久等了!【Innovation 2021】网易应用创新开发者大赛正式开赛!

网易云信

开源 架构 开发者 网易 语言 & 开发

filecoin挖矿教程?filecoin挖矿收益如何?

区块链 分布式存储 IPFS filecoin挖矿 filecoin收益

业界首个高性能交互式自动标注工具——EISeg正式开源!

百度大脑

人工智能 开源

你真的了解二叉树吗?(手撕算法篇)

有道技术团队

二叉树 网易有道

python通过PyQt5实现登录界面

Python研究者

8月日更

【DPDK工程师手册】 —— 官方文档,最新视频,开源项目,论文,大厂内部ppt,知名工程师一览表

奔着腾讯去

Linux DPDK VPP

学生管理系统(作业)

Geek_a772a7

正经人一辈子都用不到的 JavaScript 方法总结 (二)

编程三昧

JavaScript 大前端 8月日更

如何认知新技术?区块链技术和应用

百度开发者中心

区块链 最佳实践 方法论

Python代码阅读(第18篇):变形词判断

Felix

Python 编程 Code Programing 阅读代码

Flutter 安卓 Platform 与 Dart 端消息通信方式 Channel 源码解析

工匠若水

flutter android 8月日更

新思科技软件组成分析解决方案获得Forrester Wave认可

InfoQ_434670063458

新斯科技 Forrester 软件组成分析

深入了解现代web浏览器(第一部分)

GKNick

每天学习 10 个实用Javascript代码片段(六)

devpoint

mathjs 加密函数 随机数 8月日更

Baetyl推动边云融合 点亮智能物联网

百度大脑

人工智能 开源

从技术到服务,小鹅通成功的「底层逻辑」是什么?

ToB行业头条

01. 你身边的AI

Databri_AI

人工智能

OceanBase 源码解读(三)分区的一生

OceanBase 数据库

数据库 分布式数据库 oceanbase OceanBase 开源 OceanBase 社区版

☕【Java技术指南】「OpenJDK专题」想不想编译属于你自己的JDK呢?(Windows10环境)

洛神灬殇

Java jdk Openjdk 8月日更

AI巨头们建造的“新世界”,进展如何?

脑极体

强化学习中,Q-Learning与Sarsa的差别有多大?

行者AI

强化学习

微信业务架构图-作业

Geek_a772a7

谷歌发布开源Dopamine 2.0,让强化学习变得更灵活_AI&大模型_谷歌博客_InfoQ精选文章