eBay开发新的推荐模型，从数据中挖掘商机_AI&大模型

QCon北京「鸿蒙专场」火热来袭！即刻报名，与创新同行~ 了解详情 



 写点什么

eBay 基于自然语言处理（NLP）技术，特别是BERT模型开发了一个新的推荐模型。这个被称为“Ranker”的新模型使用词袋之间的距离得分作为特征，从语义角度分析商品标题信息。与之前的模型相比，Ranker 帮助 eBay 将原生应用（Android 和 iOS）和 Web 平台上的购买、点击和广告指标分别提升了 3.76%、2.74%和 4.06%。

eBay Promoted Listing Similar Reccomendation Model（PLSIM）由三个阶段组成。其中获取 Promoted Listing Similar，也就是所谓的“召回集”，是最为相关的。应用使用离线历史数据训练过的 Ranker，根据购买的可能性对召回集进行排序，通过合并卖家广告率对列表进行重新排序。这个模型的特征包括：推荐商品历史数据、推荐商品与种子商品的相似性、产品类别、国家和用户个性化特征。使用梯度提升树对模型进行连续训练，根据相对购买概率对商品进行排序。在相似度检测中加入基于深度学习的特征显著提升了性能。

之前的推荐排名模型使用 Term Frequency-Inverse Document Frequency（TF-IDF）和Jaccard 相似度来评估产品标题。这种基于节点标记的方法存在最基本的局限性，并且它不会考虑句子的上下文和同义词。相反，基于深度学习的 BERT 在语言理解方面表现出色。由于 eBay 语料库不同于书籍和维基百科，eBay 工程师引入了 eBERT，一种 BERT 变体，使用 eBay 商品标题数据进行了预训练。它使用维基百科的 2.5 亿个句子和 eBay 的 30 亿个多语言标题进行了训练。在离线评估中，这个 eBERT 模型在 eBay 的一组标记任务上的表现显著优于开箱即用的 BERT 模型，F1 得分为 88.9。

eBERT 架构对于高吞吐量推断来说太重了，可能无法及时推送推荐结果。为了解决这个问题，eBay 开发了另一个模型 microBERT，它是 BERT 的另一个轻量级版本，并针对 CPU 推理进行了优化。microBERT 将 eBERT 作为训练阶段的老师，使用了知识蒸馏过程。通过这种方式，microBERT 保留了相当于 eBERT 95%到 98%的推理质量，而时间减少了 300%。

最后，microBERT 使用了叫作InfoNCE的对比损失函数进行微调。商品标题被编码成词袋向量，模型的训练目标为增加已知彼此相关的这些向量（表示标题的词袋）之间主题距离的余弦相似度，同时降低迷你批次中所有其他商品标题对的余弦相似度。

这种新的排名模型在购买排名（售出商品的平均排名）方面有 3.5%的改进，但其复杂性导致难以进行实时的推荐。这就是为什么要通过日批处理作业生成标题词袋，并存储在 NuKV（eBay 的云原生键值存储）中，将商品标题作为键，词袋作为值。通过这种方法，eBay 能够满足其在延迟方面的要求。

原文链接：

https://www.infoq.com/news/2023/01/ebay-recommendations-odel/

相关阅读：

构建生产可用的推荐系统需要注意哪些问题？

京东电商推荐系统的应用实践|InfoQ 公开课

推荐系统的未来发展

发布

暂无评论

创作场景

eBay 开发新的推荐模型，从数据中挖掘商机

评论

第五周作业

第五周学习总结

程序人生 | 春风得意马蹄疾，一日看尽长安花

在Windows上使用IIS来托管站点

Python设计模式单例模式

架构师训练营作业-20200705

一致性Hash算法——架构师训练营第5周

分布式系统架构设计 - 从CAP到PACELC

一篇告诉你什么是Spring

ARTS Week6

LeetCode | 7. Merge Two Sorted Lists 合并两个有序列表

极客大学架构师训练营系统架构消息队列数据库备份第10课听课总结

唯一路径的动态规划解法，阿里巴巴架构演化路径 John 易筋 ARTS 打卡 Week 07

第五周作业

架构师训练营第五周 - 作业

Git【入门】这一篇就够了

第一个Spring程序(代码篇)

总结

从“金木水火土”到分布式系统架构设计

游戏夜读 | 简单认识一下爬虫

一文搞懂分布式消息中间件设计

分布式系统架构学习总结

架构第五周 - 学习总结

架构师训练营总结-20200705

如何写好一封简历？

分布式系统架构设计 - 一致性hash算法及其改进

架构师训练营第 5 周总结

分布式缓存架构作业

ARTS打卡（2020.06.29-2020.07.04）

80%会问到的18个Dubbo面试题，快来看看你都掌握了吗

ARTS｜Week 6 合并有序列表、团队、MIME类型和IIS

创作场景

eBay 开发新的推荐模型，从数据中挖掘商机

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载