背景和介绍

现在深度学习已经广泛应用到了各种CTR预估模型中，但是大都数模型的输入只是concat不同的特征，而忽视了用户历史行为本身的序列特征。比如一个用户很有可能买了苹果手机后，会买手机套，买了裤子之后会选择继续买个配套的鞋子。而之前一些模型比如wide&deep，就没有利用用户行为历史序列中的order information。DIN模型使用注意力机制来捕获目标商品与用户先前行为序列中商品之间的相似性，但仍然未考虑用户行为序列背后的序列性质。

因此为了解决上述问题，本文尝试将NLP领域中大放异彩的Transformer模型来做推荐任务。具体：使用self-attention模块来学习用户行为历史序列中各个item的序列信息。

模型

问题建模：给定一个用户u的行为序列：S(u) = {v1,v2, …,vn }，学习一个函数F用于预测用户u点击item vt的概率。其它特征包括：user profile, context, item和cross features，如下图所示

模型结构：

1.Embedding Layer：左侧部分通过embedding层将所有的other features映射成固定维度的向量，然后concat起来。另外，该模型也将行为序列中的每个Item（包括目标 Item）通过相同的embedding层映射成低维度的向量。这里需要注意的是，每个Item通过两部分来表示：“序列 item 特征”（红色部分）和“位置特征”（深蓝色），其中，“序列 item 特征”包括 item_id 和 category_id（item通过包括上百个特征，但是item-id和category_id两个特征对于performance来说就已经够了）。位置特征用来刻画用户历史行为序列中的顺序信息，文中将“位置”作为中每个 item 的另一个输入特征，然后将其投射为低维向量。第i个位置的位置特征计算方式为pos(vi)=t(vt)-t(vi)，其中，t(vt) 表示推荐的时间戳，t(vi) 表示用户点击商品vi时的时间戳。
2.Transformer layer：对于每个item抽取了一个更深层次的representation，用于捕捉该item和历史行为序列中的其他item的关系。
Self-attention：Transformer 层中的multi-head attention模块输出：

其中headi为：

self-attention的计算公式为：

Point-wise Feed-Forward Network：目的是增加非线性。在self-attention和FFN中都使用了dropout和LeakyReLU，最终self-attention和FFN的输出为：
Stacking the self-attention block：上面的两步操作被称为一个self-attention 单元。为了抽取出item序列中更加复杂的潜在关联特征，该模型堆叠了几层self-attention单元：

MLP layers and Loss function: 将所有的embedding进行拼接，输入到三层的神经网络中，并最终通过sigmoid函数转换为0-1之间的值，代表用户点击目标商品的概率。loss函数：

实验结果

其中，b表示Transformer的block堆叠的层数，论文里实验了1层、2层和3层的效果，最终1层的效果最好。

总结

DIN、DIEN、DSIN和本文BST模型的区别和联系

DIN模型使用注意力机制来捕获目标商品与用户先前行为序列中商品之间的相似性，但是未考虑用户行为序列背后的序列性质，并且未捕捉用户兴趣的动态变化性。
DIEN主要解决DIN无法捕捉用户兴趣的动态变化性的缺点，提出了兴趣抽取层Interest Extractor Layer、兴趣进化层Interest Evolution Layer。
DSIN针对DIN和DIEN没考虑用户历史行为中的会话信息，因为在每个会话中的行为是相近的，而在不同会话之间差别是很大的。DSIN主要是在session层面上来利用用户的历史行为序列信息。
BST模型通过Transformer模型来捕捉用户历史序列中各个item的关联特征，并且通过加入待推荐的商品item，也可抽取出行为序列中商品与待推荐商品之间的相关性。
参考文献：

Behavior Sequence Transformer for E-commerce Recommendation in Alibaba
https://www.jianshu.com/p/caa2d87cb78c
Deep Interest Network for Click-Through Rate Prediction
Deep Interest Evolution Network for Click-Through Rate Prediction
Deep Session Interest Network for Click-Through Rate Prediction

本文转载自Alex-zhai知乎账号。

原文链接：https://zhuanlan.zhihu.com/p/72018969

创作场景

阿里：Behavior Sequence Transformer 解读