Deep Q

2019 年 12 月 02 日

Deep Q


[公式] 表示状态值函数:在当前状态 s 下使用策略 [公式] ,期望获得的累计奖赏。比如上图游戏中左图当前还有很多怪可以打,期望奖赏就会很高,而右图只剩很少的怪可以打,期望奖赏就比较低。


那么怎么估计[公式]的值呢?第一种方式是 MC 方法:



第二种方法是基于 TD 的方法:



MC 和 TD 的差别是什么呢?MC 方法的缺点是方差较大,因为每个情节的差别可能会很大,有时候游戏玩的好,有时候玩的不好。所以累计奖赏 [公式] 会有很大的方差。


而 TD 方法预估 V 值的时候,只是用了一个时刻的奖赏 r,方差较小,但是也用到了下一个时间的 [公式] 的值,该值在训练的一开始可能存在估计不准确的问题。实际中,MC 用的较少。



上面讨论的是 V 值,和动作无关,下面开始介绍 Q 值:



当 action 的数量特别大时,应该采取第一种方法,即输入状态 s 和动作 a,输出对应的 Q 值。




上图最左边一张图表示,当前状态下采取每个动作的 Q 值差不多,因为这个时候采取上移、下移或者不动都不太会影响能否接住回来的球。而左二表示当前状态下上移才能得到较大的奖赏值,因此此时下移或者不动可能就来不及接住球了。



[公式] ’是根据 Q 值来决定的:当前状态下最大 Q 值对应的动作。另外,该方法不适合联系动作的情景。因为有 argmax 操作。



上面一个投影片是对: [公式] 的证明。



上面介绍了 Target Network 的技巧。Target 网络一开始的权重和主网络是一样,每隔 N 步,再将主网络的权重赋值给 target 网络,这样 target 网络在一段时间内输出是固定的,增加了训练的稳定性。(因为实际上这就是个回归问题,回归的 target 值必须在一段时间内保持固定)



介绍了动作探索的必要性。



replay buffer 中存了很多个样本 transition 序列,这些训练样本不要求来自于同一个策略 [公式] 产生,而当前的 Q 值则是依赖于当前的策略 [公式] 的,因此是属于 off-policy。另外 replay buffer 打乱了样本之间的顺序,保证了训练的稳定性(因为深度神经网络的训练需要训练样本之间是无关联的)。



参考文献:


https://www.bilibili.com/video/av24


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/72954432


2019 年 12 月 02 日 16:2375

评论

发布
暂无评论
发现更多内容

智慧公安情报研判系统开发解决方案,微警务系统搭建

WX13823153201

智慧公安情报研判系统开发

盖洛普

成周

甲方日常 60

句子

工作 随笔杂谈 日常

30分钟玩转「正则表达式」

Yano

正则表达式

写了一套优雅接口之后,领导让我给大家讲讲这背后的技术原理

楼下小黑哥

spring 重构

万字长文深度剖析面向对象的javascript

程序那些事

Java nodejs 程序那些事 面向对象js

智能视频监控的发展和优势

anyRTC开发者

安全 监控 音视频 WebRTC RTC

精心总结C++智能指针用法详解(完整版)附带视频讲解

ShenDu_Linux

c++ 程序员 指针 智能指针

美团T8级架构师剖析Spring Boot源码:日志、缓存、消息、Web服务等

Java架构追梦

Java 源码 架构 微服务 springboot

前端: 如何快速将应用封装成js-sdk?

徐小夕

Java 前端 前端训练 前端进阶

学Linux到底学什么?未来职业到底是怎么样的?

Linux服务器开发

Linux 后端开发 Linux服务器 底层应用开发 web服务器

想了解表格问答,我们先看看TA的前世

华为云开发者社区

数据库 规范 表格

王者荣耀如何使用UDP做到低延迟

linux亦有归途

《华为数据之道》读书笔记:第 9 章 打造“安全合规”的数据可控共享能力

方志

大数据 数据中台 数据安全

极客大学 - 架构师训练营 第十一周作业

9527

为了让你面试不再害怕线程池,5亿脱发大军从此有了我

linux亦有归途

Linux 程序人生 线程池 C/C++ 后端开发

每一位程序员都应该保存的计算机网络总结,哪怕你刚进大学

996小迁

Java 架构 面试

聊聊OpenAPI Specification(OAS)

尤利西斯的微笑

全栈工程师 软件设计 swagger OpenAPI

PGAS模型编程语言

星际行者

年轻人不讲武德,竟然重构出这么优雅后台 API 接口

楼下小黑哥

重构 Spring MVC

go-zero 之 rest 实战与原理

Kevin Wan

go RESTful api 网关 microservice

区块链数字物流应用落地解决方案

t13823115967

区块链落地 区块链+ 数字物流应用落地解决方案

AWS IoT Greengrass设计解析

soolaugust

边缘计算 工业4.0 工业物联网 iiot

腾讯云TcaplusDB基础能力介绍

TcaplusDB

数据库 nosql 游戏

一文带你彻底了解Java异步编程

Java老k

Java 响应式编程 reactor 异步编程

Spring 源码学习 03:创建 IoC 容器的几种方式

程序员小航

spring 源码 ioc 源码阅读

这次我让你彻底弄懂 RESTful

yes的练级攻略

RESTful

跟随杠精的视角一起来了解Redis的主从复制

detectiveHLH

redis redis高可用 redis主从

《机器学习》By:周志华,PDF免费下载

计算机与AI

学习

线程池ForkJoinPool简介

Java老k

Java 线程池 forkjoin

架构师训练营W07作业

Geek_f06ede

Deep Q-InfoQ