Data+AI时代,如何打造下一代数智平台? 了解详情
写点什么

李宏毅深度强化学习课程:Q-learning for Continuous Actions

  • 2019-12-02
  • 本文字数:602 字

    阅读完需:约 2 分钟

李宏毅深度强化学习课程:Q-learning for Continuous Actions


传统的 Q-learning 的动作空间是离散的,有限数目的,比如上下左右四个动作。但是很多场景下,动作都是连续的,比如方向盘的转动角度,机器臂的转动角度等。有三个方法解决:第一个方法是随机 sample N 个动作,看哪个能获得最大的 Q 值;第二个办法是梯度下降来解决优化问题,但是计算量会很大,并且容易陷入局部最优。



设计一个网络让优化问题变得简单,其实就是如何构建一个神经网络,又能输出动作,也能输出 Q 值,而且动作对应的 Q 值最大。


基本的 idea 就是引入 Advantage,也就是每一个动作在特定状态下的优劣。我们不是要选最优的动作吗?其实就是要选 Advantage 最大的动作。Q,A(Advantage)和 V(Value)的关系如下:



如果我们能够限制 A 小于等于 0,并且选择的动作对应的 A 为 0,那么此时选择的这个动作的 Q 值是最大的。要做到这点,一种简单的想法就是让:



并且 P 为正 ,这个时候当 a=x 即选择的动作时为 0。


A 的矩阵表示为:



其中 x 是状态,u 是动作, [公式] 是神经网络的输出动作。令 [公式] ,即:



即 [公式] ,要满足这个要求,P 必须为正定矩阵。作者构造了一个对角线元素都是正数的下三角阵 L,然后再利用 L 构造 P。


具体过程如下:



另外还有一种方法是使用 Actor-critic 方法:



参考文献:


https://www.bilibili.com/video/av24724071/?p=5


https://www.cnblogs.com/wangxiaocvpr/p/5664795.html


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/73309906


2019-12-02 13:301015

评论

发布
暂无评论
发现更多内容

YashanDB数据库多表联查性能提升技巧详解

数据库砖家

YashanDB数据库对实时交易系统的支持能力分析

数据库砖家

一篇文章带你了解清楚,Google Cloud 引发全球互联网服务大面积故障问题

沉浸式趣谈

YashanDB数据库多线程并发处理技术介绍

数据库砖家

YashanDB数据库开发者工具:提升开发效率的利器

数据库砖家

YashanDB数据库批处理功能及优化策略

数据库砖家

YashanDB数据库对大数据处理的支持情况

数据库砖家

YashanDB数据库多维分析功能及应用实践

数据库砖家

YashanDB数据库多维数据分析实用教程

数据库砖家

狄耐克获评“福建省科技进步奖一等奖”

新消费日报

YashanDB数据库如何运用于大规模在线交易

数据库砖家

微擎生态驱动的数字化健康服务

微擎应用市场

YashanDB数据库多维度性能监控工具及使用说明

数据库砖家

YashanDB数据库如何保障海量数据安全与隐私

数据库砖家

YashanDB数据库实时监控系统设计与实现

数据库砖家

YashanDB数据库对企业数字化转型的支持

数据库砖家

YashanDB数据库多表查询优化技巧分享

数据库砖家

YashanDB数据库如何助力数字化转型

数据库砖家

VMware Cloud Foundation Automation 9.0 发布 - 私有云自动化平台

sysin

vmware

YashanDB数据库多维度性能指标监测方法

数据库砖家

中国婴幼儿奶粉消费研究2025

易观分析

YashanDB数据库多维度监控指标详解与实践应用

数据库砖家

YashanDB数据库容灾备份方案设计详解

数据库砖家

YashanDB数据库如何保障数据的高安全性?

数据库砖家

YashanDB数据库如何简化数据分析流程

数据库砖家

YashanDB数据库如何实现跨境数据管理?

数据库砖家

YashanDB数据库实时备份技术及恢复操作指南

数据库砖家

YashanDB数据库实时数据备份与多点恢复方案

数据库砖家

YashanDB数据库多语言支持及国际化方案介绍

数据库砖家

YashanDB数据库接口性能测试与优化方法

数据库砖家

0 代码改造实现应用运行时数据库密码无损轮转

阿里巴巴云原生

阿里云 云原生 nacos

李宏毅深度强化学习课程:Q-learning for Continuous Actions_文化 & 方法_Alex-zhai_InfoQ精选文章