AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks
现在已经有很多深度学习推荐算法旨在构造高阶交叉特征上,比如 WDL,DeepFM,Deep cross network,xDeepFM 等模型。但是这些方法有一些缺陷:fully-connected neural networks 抽取的高阶特征在学习 multiplicative feature interactions 上是 inefficient 的;并且隐式学习特征交叉的方式也缺乏可解释性。因此本文通过 Multi-head Self-Attention 机制显示构造高阶特征, 有效提升了 CTR 预估的准确率。
论文的贡献在于:
提出显示学习高维特征交叉的一种方法,并提高了可解释性。
基于self-attentive neural network提出一种新的方法,可自动学习高维特征交叉,有效提升了CTR预估的准确率。
模型结构
Input Layer:x = [x1; x2; …; xM],其中M表示总共的feature fields的数目,xi表示第i个特征,如果xi是离散的,就是one-hot向量,如果是dense类型的特征,就是一个scalar。
Embedding Layer:
dense和cate类型的特征都经过embedding层,只不过cate特征的embedding是一个矩阵,而dense特征的embedding是一个向量。
Interacting Layer
每个嵌入向量[公式]分别对应三个转换矩阵:[公式]对于第 h 个 Attention head,当第 m 个嵌入向量[公式]作为query时,其对应输出[公式]为:
上式中,[公式]是可选的相似度计算函数,文中选择向量内积。
对第 m 个嵌入[公式],拼接它在[公式]个 Attention head 的输出,然后引入标准的残差连接作为其最终输出[公式]:
Output Layer
其中[公式],[公式]表示 sigmoid 函数。
Training
损失函数:
总结
通过 Multi-head Self-Attention 机制显示构造高阶特征,并添加了 resnet 结构,又是一篇将 nlp 模型和图像领域中比较热门的模块用于推荐模型中的工作。
本文转载自 Alex-zhai 知乎账号。
原文链接:https://zhuanlan.zhihu.com/p/69701477
评论