今日头条推出强化学习新成果：首次改进DQN网络，解决推荐中的在线广告投放问题_AICon_深度传送门

本文来自“深度推荐系统”专栏，这个系列将介绍在深度学习的强力驱动下，给推荐系统工业界所带来的最前沿的变化。本文主要介绍今日头条推出的强化学习应用在推荐的最新论文[1]，首次改进 DQN 网络以解决推荐中的在线广告投放问题。

背景介绍

随着最近 RL 研究的火热，在推荐平台上在线广告投放策略中如何利用 RL 引起了大家极大的兴趣。然而，大部分基于 RL 的在线广告投放算法只聚焦于如何使广告收益最大化，却忽略了广告对推荐列表的用户体验可能会带来的负面影响。在推荐列表中不适当地插入广告或者插入广告太频繁都会损害推荐列表的用户体验，与此同时插入太少的广告又会减少广告收入。

因此本文提出了一种全新的广告投放策略来平衡推荐用户体验以及广告的收入。在给定推荐列表前提下，本文提出了一种基于 DQN 的创新架构来同时解决三个任务：是否插入广告；如果插入，插入哪一条广告；以及插入广告在推荐列表的哪个位置。实验也在某短视频平台上验证了本文算法的效果。

DQN 架构

在深入本文具体的算法架构前，我们先来简单回顾下 DQN 的两种经典结构：

图 a 的 DQN 接受的输入是 state，输出是所有可能 action 对应的 Q-value；
图 b 的 DQN 接受的输入是 state 以及某一个 action，输出是对应的 Q-value。

这两种经典架构的最主要的问题是只能将 action 定义为插入哪一条广告，或者插入广告在列表的哪个位置，无法同时解决上述提到的三个任务。

当然，从某种程度上来说将插入位置与插入哪一条广告通过某种表示形式譬如 one-hot 编码来建模 action 是一种使用上述经典 DQN 的方式，这样的话 action 的空间会变成 O(A*L)，其中 A 是广告的空间，L 是插入列表的位置空间。这样的复杂度对于实际线上的广告系统是不太能够接受的。

改进的 DEAR 架构

因此，本文提出了一种改进的 DQN 框架 DEAR 用来解决上述推荐系统中在线广告投放问题。该框架试图同时解决上述提到的三个任务。也就是说，本框架会同时针对所有可能的插入位置的 Q-value 进行预估。

如下左图所示，其实是融合了上述提到了两种经典 DQN 结构的结合，输入层包含 State 以及 Action（插入哪条广告），输出层则是广告插入推荐列表的 L+1 位置对应的 Q-value（假设推荐列表长度为 L，则可以插入广告的位置为 L+1 种可能）。与此同时，使用一个特殊插入位置 0 用来表示不进行广告插入，因此输出层的长度扩展成为 L+2。

DEAR 框架详细的架构如下右图所示，输出层 Q 函数被拆解成两部分：只由 state 决定的 V 函数；以及由 state 和 action 同时决定的 A 函数。其中，

state 包含了使用 GRU 针对推荐列表和广告进行用户序列偏好建模的 p；当前用户请求的上下文信息 c；以及当前请求展示的推荐列表 item 的特征进行拼接转换形成的低维稠密向量 rec；
action 则包含两部分：一部分是候选插入广告 ad 的特征；另一部分则是广告插入的位置；其中这里的前半部分会被当做输入层。

reward 函数。Reward 函数也包含两部分：一部分是广告的的收入 r^ad；另一部分则是用户是否继续往下刷的奖励。基于下图的 reward 函数，最优的 Q 函数策略便可以通过 Bellman 等式求得。

Off-Policy 训练

本文基于用户交互历史的离线日志，采用 Off-policy 的方式进行训练得到最优的投放策略。如下图所示，针对每一次迭代训练：

（第 6 行）针对用户请求构建 state；
（第 7 行）根据标准的 off-policy 执行 action，也就是选取特定 ad；
（第 8 行）根据设计好的 reward 函数，计算 reward；
（第 10 行）将状态转移信息（s_t，a_t，r_t，s_t+1）存储到 replay buffer；
（第 11 行）从 replay buffer 中取出 mini-batch 的状态转移信息，来训练得到最优的 Q 函数参数。

实验

由于没有同时包含推荐列表和广告 item 的公开数据集，本文基于从某短视频网站获取的自 2019 年 3 月的数据集训练得到模型，该数据集包含两种视频：正常推荐列表的视频和广告视频。正常视频的特征包含：id、点赞数、播放完成率、评论数等；广告视频的特征包含：id、图片大小、定价等。

实验对比上本文主要挑选了如下的几个代表性的 baseline 进行效果对比，为了实验对比的公正性，所有对比算法使用的特征完全一致。

W&D。本文稍微针对 W&D 进行了扩展来预估是否插入广告以及预估插入广告的 CTR。
DFM。DeepFM 是在 W&D 基础上改进而来的一种可以额外学习特征间低阶交互的一种架构。本文的实验也表明 DFM 的表现好于 W&D。
GRU。GRU4Rec 使用 GRU 来建模用户的历史行为针对用户是否点击进行预估，本文同样也进行了扩展支持实验场景。本文的实验表明 GRU4Rec 效果好于 W&D 和 DFM。
HDQN。HQN 是一个层级 DQN 结构，高阶 DQN 决定插入位置；低阶 DQN 选择特定 ad 进行插入。本文的实验表明 HDQN 效果好于 GRU，因为 GRU 只是最大化当前请求的 immediate 奖励，而 HDQN 则是最大化长期收益。
DEAR。本文提出的 DEAR 框架效果好于 HDQN，因为层级的 RL 架构在使用 off-policy 方式进行联合训练时有稳定性问题。详细的效果对比，如下图所示。

参考

Deep Reinforcement Learning for Online Advertising in Recommender Systems

本文授权转载自知乎专栏“深度推荐系统”。原文链接：https://zhuanlan.zhihu.com/p/85417314

发布

暂无评论

创作场景

今日头条推出强化学习新成果：首次改进 DQN 网络，解决推荐中的在线广告投放问题

背景介绍

DQN 架构

改进的 DEAR 架构

Off-Policy 训练

实验

参考

评论

印尼Widya Robotics携手华为云，让建筑工地安全看得见

企业数字化转型加速，选对在线协作工具事半功倍

【Spring 学习笔记(七)】Spring 管理第三方Bean之管理Druid数据源

C++ Workflow异步调度框架 - 基本介绍篇

去中心化NFT交易平台开发

一年一度 OceanBase 技术征文大赛全面开启！入门实战，等您来写

TiDB 6.0 实战分享丨冷热存储分离解决方案

融云 IMKit Web 端上线，带你感受开发效率的参差

Linux系统环境搭建

什么是算子下盘

企业为什么要部署专属的IM即时通讯软件？

国内首个：ICPR2022多模态字幕识别比赛日前结束

去中心化DEFI质押流动性挖矿项目开发案例（逻辑分析）

集成底座流程测试总结

告警消息何去何从？在飞书中飞起来

聚焦行业，赋能客户 | 博云容器云产品族五大行业解决方案发布

你好复工人，马斯克又因“工作狂”上热搜，远程办公究竟是好是坏？

一对一直播源码部署，是系统上线运行的开始

玩转云原生流量管理——Flomesh

Karmada v1.2发布：开启全文本搜索新纪元

NFT链游系统开发|DeFi+NFT技术搭建

【高阶知识】用户态协议栈之Epoll实现原理

基于任务调度的企业级分布式批处理方案

模块三

设计师必备的设计导航网站

Substrate技术及生态5月大事记 | Square One计划启动，波卡上线XCM！

BI　如何让SaaS产品具有 “安全感”和“敏锐感”（上）

C++ Workflow异步调度框架 - 架构设计篇

实时监控，智能预警，疾控中心的战疫“速度”

大量模块壳工程本地如何快速编译？优酷 iOS 工程插件化实践

玩转云原生流量管理——Flomesh

创作场景

今日头条推出强化学习新成果：首次改进 DQN 网络，解决推荐中的在线广告投放问题

背景介绍

DQN 架构

改进的 DEAR 架构

Off-Policy 训练

实验

参考

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载

推荐阅读