写点什么

李宏毅深度强化学习课程:Q-learning for Continuous Actions

  • 2019-12-02
  • 本文字数:602 字

    阅读完需:约 2 分钟

李宏毅深度强化学习课程:Q-learning for Continuous Actions


传统的 Q-learning 的动作空间是离散的,有限数目的,比如上下左右四个动作。但是很多场景下,动作都是连续的,比如方向盘的转动角度,机器臂的转动角度等。有三个方法解决:第一个方法是随机 sample N 个动作,看哪个能获得最大的 Q 值;第二个办法是梯度下降来解决优化问题,但是计算量会很大,并且容易陷入局部最优。



设计一个网络让优化问题变得简单,其实就是如何构建一个神经网络,又能输出动作,也能输出 Q 值,而且动作对应的 Q 值最大。


基本的 idea 就是引入 Advantage,也就是每一个动作在特定状态下的优劣。我们不是要选最优的动作吗?其实就是要选 Advantage 最大的动作。Q,A(Advantage)和 V(Value)的关系如下:



如果我们能够限制 A 小于等于 0,并且选择的动作对应的 A 为 0,那么此时选择的这个动作的 Q 值是最大的。要做到这点,一种简单的想法就是让:



并且 P 为正 ,这个时候当 a=x 即选择的动作时为 0。


A 的矩阵表示为:



其中 x 是状态,u 是动作, [公式] 是神经网络的输出动作。令 [公式] ,即:



即 [公式] ,要满足这个要求,P 必须为正定矩阵。作者构造了一个对角线元素都是正数的下三角阵 L,然后再利用 L 构造 P。


具体过程如下:



另外还有一种方法是使用 Actor-critic 方法:



参考文献:


https://www.bilibili.com/video/av24724071/?p=5


https://www.cnblogs.com/wangxiaocvpr/p/5664795.html


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/73309906


2019-12-02 13:30857

评论

发布
暂无评论
发现更多内容

1688代采系统,淘宝代购系统,海外淘宝代购系统,淘宝代购集运系统

api开发

ETL的数据挖掘方式

RestCloud

数据挖掘 ETL 数据集成

ElasticSearch架构介绍及原理解析

霍格沃兹测试开发学社

深耕版本控制、代码质量与安全等领域,龙智荣获“Perforce 2023年度合作伙伴”奖项

龙智—DevSecOps解决方案

版本控制

面试官:说说线程池的工作原理?

王磊

Java 面试

Jira自动化的实用工具——ScriptRunner简介及最佳实践

龙智—DevSecOps解决方案

DevSecOps

2024年AI辅助研发趋势:数智时代革新新引擎

EquatorCoco

人工智能 AI辅助

Atlassian被Forrester评为企业服务管理领导者,Jira Service Management助力提升团队服务水平

龙智—DevSecOps解决方案

Atlassian Forrester企业服务管理

破晓未来·迎接智能新时代:混合 AI 大模型开发者工作坊震撼预告

阿里巴巴云原生

阿里云 云原生

李彦宏:程序员职业将不复存在,会说话就能当程序员;ChatGPT 日耗电超 50 万度丨 RTE 开发者日报 Vol.161

声网

解决Java中文显示乱码问题的原因与方案

霍格沃兹测试开发学社

2 月 Web3 游戏行业动态

Footprint Analytics

blockchain

如何避免MYSQL主从延迟带来的读写问题?

不在线第一只蜗牛

MySQL

龙智携全方位芯片解决方案亮相IIC Shanghai 2024,助力客户解决复杂的芯片研发挑战

龙智—DevSecOps解决方案

芯片开发 芯片研发

IT外包的三大优势对企业的发展有何影响?

Ogcloud

IT IT外包 IT外包公司 IT外包服务 IT外包企业

一文看懂如何做好 SQL 质量监控

阿里巴巴云原生

sql 阿里云 云原生

小白一眼就能懂的JSON简介与基本使用指南

霍格沃兹测试开发学社

继续总结Python中那些简单好用的用法

快乐非自愿限量之名

Python windows 开发语言

云游戏发行是什么?云游戏发行的演进历程

Ogcloud

游戏 云游戏 游戏发行 游戏云化 游戏发行公司

AI+办公!5款超实用AI软件,一键生成PPT、视频、思维导图等!

彭宏豪95

人工智能 在线白板 AIGC 效率软件 AI生成PPT

企业云服务器免费使用后会存在哪些隐患?

一只扑棱蛾子

云服务器 企业云服务器

好用的AI绘画软件,一次安利给你

霍格沃兹测试开发学社

亮点功能:流水线编辑支持并行了!

Jianmu

DevOps

MySQL安装最全最简教程

霍格沃兹测试开发学社

低代码与鸿蒙开发:重塑软件开发的未来

不在线第一只蜗牛

低代码 鸿蒙开发 鸿蒙系统

客户说|从4小时到15分钟,一次分布式数据库的丝滑体验

阿里云数据库开源

阿里云 运维 polarDB PolarDB-X 识货

李宏毅深度强化学习课程:Q-learning for Continuous Actions_文化 & 方法_Alex-zhai_InfoQ精选文章