写点什么

李宏毅深度强化学习课程:Q-learning for Continuous Actions

  • 2019-12-02
  • 本文字数:602 字

    阅读完需:约 2 分钟

李宏毅深度强化学习课程:Q-learning for Continuous Actions


传统的 Q-learning 的动作空间是离散的,有限数目的,比如上下左右四个动作。但是很多场景下,动作都是连续的,比如方向盘的转动角度,机器臂的转动角度等。有三个方法解决:第一个方法是随机 sample N 个动作,看哪个能获得最大的 Q 值;第二个办法是梯度下降来解决优化问题,但是计算量会很大,并且容易陷入局部最优。



设计一个网络让优化问题变得简单,其实就是如何构建一个神经网络,又能输出动作,也能输出 Q 值,而且动作对应的 Q 值最大。


基本的 idea 就是引入 Advantage,也就是每一个动作在特定状态下的优劣。我们不是要选最优的动作吗?其实就是要选 Advantage 最大的动作。Q,A(Advantage)和 V(Value)的关系如下:



如果我们能够限制 A 小于等于 0,并且选择的动作对应的 A 为 0,那么此时选择的这个动作的 Q 值是最大的。要做到这点,一种简单的想法就是让:



并且 P 为正 ,这个时候当 a=x 即选择的动作时为 0。


A 的矩阵表示为:



其中 x 是状态,u 是动作, [公式] 是神经网络的输出动作。令 [公式] ,即:



即 [公式] ,要满足这个要求,P 必须为正定矩阵。作者构造了一个对角线元素都是正数的下三角阵 L,然后再利用 L 构造 P。


具体过程如下:



另外还有一种方法是使用 Actor-critic 方法:



参考文献:


https://www.bilibili.com/video/av24724071/?p=5


https://www.cnblogs.com/wangxiaocvpr/p/5664795.html


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/73309906


2019-12-02 13:301151

评论

发布
暂无评论
发现更多内容

与前端训练营的日子 --Week06

SamGo

学习

8张图带你了解大型应用架构演进历程

Silently9527

架构 互联网架构设计

腾讯iOA与绿盟、天融信完成产品互认证,助力零信任市场协同发展

架构师训练营 11 周作业

郎哲158

第11周作业

paul

【架构师训练营 1 期】第十一周学习总结

诺乐

腾讯牵头零信任产业标准工作组正式发布零信任联盟标准

Week_11 作业

golangboy

极客大学架构师训练营

密码学,心底的凉暖

X.F

密码学

从一次不佳的小组讨论展开

sherlockq

架构师训练营第 1 期 - 第 10 周 - 命题作业

wgl

week7-性能优化

未来已来

KMP —— 字符串分析算法

三钻

算法 大前端 KMP

架构训练营第七周作业

一期一会

性能测试 Go 语言

Week_11 总结

golangboy

极客大学架构师训练营

【架构师训练营 1 期】第十一周作业

诺乐

CSS flex 排版与动画 — 重学 CSS

三钻

CSS 大前端 排版 Flex

Spring 源码学习 08:register 注册配置类

程序员小航

Java spring 源码 源码阅读

第 07 周 性能压测(响应时间和吞吐量变化)

Airship

极客大学架构师训练营

训练营 - 第11周

袭望

第十一周 作业

熊桂平

极客大学架构师训练营

话题讨论 | 遇到的印象最深的开源项目

soolaugust

话题讨论

架构师训练营第 11 周学习笔记

郎哲158

week02

ルンルン

第十一周 学习总结

熊桂平

极客大学架构师训练营

话题讨论 | 2021要来了,你对未来的一年有什么期待

soolaugust

话题讨论

话题讨论 | 未来十年,你认为哪门语言将要脱颖而出

soolaugust

话题讨论

架构师训练营 2 期 Week07 总结

week7-作业二:根据当周学习情况,完成一篇学习总结

未来已来

话题讨论 | 2020就要结束了,你最想对自己说的是什么

soolaugust

话题讨论

ShardingSphere RAW JDBC 分布式事务 Narayana XA 代码示例

Java 数据库 分布式事务 ShardingSphere

李宏毅深度强化学习课程:Q-learning for Continuous Actions_文化 & 方法_Alex-zhai_InfoQ精选文章