写点什么

京东搜索重排:基于互信息的用户偏好导向模型

  • 2024-09-26
    北京
  • 本文字数:3739 字

    阅读完需:约 12 分钟

大小:1.87M时长:10:54
京东搜索重排:基于互信息的用户偏好导向模型

本文入选顶会 SIGIR 2024,为你揭晓京东搜索重排多样性与效率平衡的解决方案!


京东零售搜推团队提出了一种基于互信息的偏好导向多样性模型(PODM-MI),该模型可使商品能够根据用户多样性偏好进行自适应排序,该模型可已在京东主搜全量部署,并在 UCVR 和多样性上均有显著收益。



SIGIR 24: A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search


链接:https://dl.acm.org/doi/abs/10.1145/3626772.3661359


摘要:重排是一种通过考虑商品之间的相互关系(上下午)来重新排列商品顺序以更有效地满足用户需求的过程。现有的方法主要提高商品打分精度,通常以牺牲多样性为代价,导致结果可能无法满足用户的多样化需求。而旨在提高多样性的方法可能会降低打分精度,无法满足商品打分精准性的要求。为了解决上述问题,本文提出了一种基于互信息的偏好导向多样性模型(PODM-MI),在重排过程中同时考虑准确性和多样性。具体而言,PODM-MI 采用基于变分推理的多维高斯分布来捕捉具有不确定性的用户多样性偏好。然后,我们利用最大变分推理下界来最大化用户多样性偏好与候选商品之间的互信息,以增强它们的相关性。随后,我们基于相关性得出一个效用矩阵,使商品能够根据用户偏好进行自适应排序,从而在上述目标之间建立平衡。该模型已在京东主搜全量部署,且在 UCVR 和多样性上均有显著收益。

1、背景及现状


在京东商城中,在用户从搜索到下单的过程中存在不同的决策阶段(买、逛等),用户不同的决策阶段对多样性也有不同需求。如下图所示,用户从搜索“连衣裙”到逐渐缩小范围到“荷叶边连衣裙”,这一过程中,他们的搜索意图从多样化逐渐变得明确和具体。



重排作为靠近后链路的一环,需要在效率指标和多样性之间找到平衡,并充分考虑用户的个性化需求。通常来说,用户的需求是多样化的,即在某些场景下,他们对排序结果的准确性要求较高,而在其他场景下,他们则更注重排序结果的多样性。因此,一个合适的重排算法应能够自适应地根据用户需求进行调整:当用户需要多样性时,搜索排序结果应包含尽可能多的不同商品,以满足用户的多种兴趣;而当用户需要准确性时,排序结果应优先展示最符合用户兴趣的单一类别商品。


在解决上述问题的过程中,我们面临两个主要挑战:


  1. 准确建模用户的决策意图:用户的意图是动态且复杂的,会在多次搜索和交互中逐渐演变。捕捉这种演变过程并准确建模用户的决策意图是一个关键挑战。


  1. 增强搜索结果与用户演变意图的匹配:即使我们能够成功建模用户的意图,如何确保搜索结果能够动态地与用户不断演变的意图相匹配也是一个难题。现有的排序算法通常固定在某种优化目标上,缺乏灵活性,难以在多样性和准确性之间进行自适应的权衡。


为了解决上述挑战,我们提出了 PODM-MI(基于互信息的偏好导向多样性模型)。

2、PODM-MI



PODM-MI 模型以待排序商品及其 sideinfo、用户行为流等作为输入。首先,我们使用 PON 捕捉用户的多样性偏好和候选商品的多样性表示。然后,SAM 增强用户多样性偏好与候选商品多样性之间的一致性。从这种增强的一致性中,我们得出一个效用矩阵,该矩阵会动态调整用户偏好,从而重新排序最终的排名结果以更好地满足用户需求。

2.1 PON:用户偏好建模


在京东的搜索场景中,历史 query 及其对应 session 的商品提供了用户意图随着 session 变化的重要表示。因此,我们的方法不仅包括常规的用户历史行为流,还加入了用户的 query 流,以更好地捕捉用户偏好。


在确定用户偏好建模特征之后,下一步是选择适当的建模方法来表示用户偏好。传统模型往往将用户偏好的动态性视为确定性的,在 embedding 空间中生成静态的用户嵌入。然而,这种方法在捕捉用户偏好的复杂性方面不够准确。相比之下,分布表示引入了不确定性,并提供了更大的灵活性。这种方法能够更好地适应用户偏好随时间和情境变化的复杂性。通过将用户偏好表示为一个概率分布,而非单一的固定嵌入,我们可以更准确地反映用户的多样化需求和行为模式。也有部分研究表明将用户偏好表示为分布而非嵌入具有显著的优越性。这些研究表明,分布表示不仅能够更好地捕捉用户偏好的动态变化,还能在实际应用中提供更高的预测精度和灵活性。



因此,如上图所示,我们使用多维高斯分布来建模用户偏好的演变趋势。该分布由均值向量和对角协方差矩阵表征,使我们能够更好地捕捉用户偏好的动态特性。同样的,后续商品序列的多样性表征也用同样的方式进行表征。



此外,高斯分布还可以用于测量收敛和发散趋势。较大的方差表示更均匀的分布,而较小的方差则表示更集中的分布。这个方差可以间接反映用户的偏好趋势。

2.2 SAM 利用互信息优化排序结果



在建模用户偏好和候选商品的多样性之后,下一步是确保排序结果与用户意图紧密匹配。为此,我们可以使用互信息(一种衡量两个变量之间共享信息量的方法)来量化候选商品与用户偏好之间的相关性。通过最大化这两个因素(用户偏好和商品多样性)之间的互信息,我们确保候选商品的分布与用户意图的分布紧密对齐。


然而,直接估计和最大化互信息通常是不可行的。为了解决这一挑战,我们借鉴了变分推理的文献,引入了一个变分后验估计器。该方法允许我们为互信息目标推导出一个可行的下界,具体推导过程如下,这儿不再赘述。



在增强一致性之后,我们设计了一个可学习的效用矩阵,以进一步使最终的排序结果与用户偏好对齐。通过调整矩阵的数值,我们可以控制不同商品和用户趋势在排序过程中的相对重要性。例如,如果某些商品更符合用户偏好,我们可以调整矩阵的数值,使其在排序过程中占据更大的权重。这种方法允许根据用户意图自适应地调整排名结果。

2.3 优化函数及最终 loss:


优化函数:



最终 loss:

L_{total} = \lambda _{1}L_{CE}+\lambda_{2}L_{MI}

前者是 prm 分类 loss,后者是互信息 loss


方案总结:



2.4 实验结果及可视化分析



为了验证 PODM-MI 的有效性,我们在京东电商搜索引擎中进行了在线 A/B 测试。PODM-MI 不仅提高了用户购买的可能性,还增加了搜索结果中商品的多样性。需要注意的是,每增加 0.10%的 UCVR 都会为公司带来巨大的收入,因此 PODM-MI 取得的提升是非常显著的。



不同排序结果的熵值对应于不同的用户意图。为了评估排名结果是否与用户意图高度相关,我们使用 T-SNE [17] 降维方法可视化了根据用户意图分类的排名结果熵值分布。为了增强聚类效果,我们将熵值水平分为 8 个不同的组别。如上图所示,不同多样性趋势下的用户行为流聚类非常明显,用户意图分布聚类的边界清晰可见。这表明所提出的模型成功捕捉到了用户意图的潜在趋势,并相应地调整了排名结果。

值得注意的是,随着用户意图变得更加多样化,排序结果的熵值也随之增加,反映出排名结果的多样性更高。相反,当用户意图变得更加明确时,熵值会降低,表明排名结果的准确性更高。


案例一:


Query 流:switch,塞尔达,手机壳,榔头,油烟机,油烟排风管

当前 Query:果蔬脱水机



案例二:

Query 流:连衣裙,连衣裙通勤,连衣裙 s,拉夏贝尔夏京东自营,

当前 Query:veromoda 官方旗舰店



此外,我们还用一个更具体的案例来说明我们方法的有效性。当用户的历史搜索查询非常多样时,如:Switch,塞尔达,手机壳,锤子,油烟机,排气管,在这种情况下,当用户输入“蔬菜水果脱水机”后,我们的方法比基线方法产生了更多样化的结果。另外,还有一个收敛趋势的案例。当用户搜索“连衣裙”并访问相应的店铺后,再次输入该店铺时,我们的方法比基线方法产生的结果更加集中,并且更好地与用户的历史搜索记录相匹配。

3、未来迭代方向


• 引入更精细的特征,更好的建模用户的逛买意图

• 用户意图建模更新的进一步优化

• 用户意图建模显式影响


Note:


我们京东搜索算法部目前有大量的社招和实习机会,包括基于大模型的生成式召回/排序等,诚邀有志之士加入。无论您是技术专家还是新兴人才,我们都期待您的加入,共同推动技术的进步和创新。欢迎大家踊跃投递简历,期待与您在京东相遇!欢迎大家交流与探讨,简历投递和建议反馈可联系 wanghuimu1@jd.com, limingming65@jd.com。


团队最近相关工作:


1. Breaking the Hourglass Phenomenon of Residual Quantization: Enhancing the Upper Bound of Generative Retrieval (arxiv:2407.21488)

2. Generative Retrieval with Preference Optimization for E-commerce Search(arxiv:2407.19829)

3. A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search(SIGIR 24 ACCEPTED)

4. MODRL-TA: A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search(CIKM 24 ACCEPTED)

5. Optimizing E-commerce Search: Toward a Generalizable and Rank-Consistent Pre-Ranking Model(SIGIR 24 ACCEPTED)

  1. Adaptive Hyper-parameter Learning for Deep Semantic Retrieval EMNLP 2023 ACCETPED


分享嘉宾:


王彗木博士:中科院自动化所博士,亦城优秀人才,CCF 中国计算机学会专业会员,研究方向为大模型、强化学习,目前在京东从事主搜排序及生成式召排工作。


李明明博士:中科院信工所博士,亦城优秀人才,CCF 中国计算机学会专业会员,研究方向为大模型、语义检索,目前在京东从事主搜召回及生成式召排工作。

2024-09-26 10:0712

评论

发布
暂无评论

华为云大数据-助力数据价值化,释放企业发展潜能

科技之光

「复享光学」用深度光谱技术推动光与电的变革

硬科技星球

接口自动化测试不想写代码?这款工具强烈推荐

叶小柒

测试 Postman

启科量子部署工具 Runtime 正式开源

启科量子开发者官方号

部署 量子

蚂蚁金服Java研发岗二面:说说HashMap 中的容量与扩容实现

钟奕礼

程序员 Java 面试 Java、 java 编程

【12.23-12.30】写作社区优秀技术博文回顾

InfoQ写作社区官方

热门活动

AI for Science的上半场:人工智能如何重新定义科学研究新范式?

脑极体

企业数字化转型难?华为云大数据BI帮你一站式上云

科技之光

Dubbo 3 之 Triple 流控反压原理解析

Apache Dubbo

Java 开源 微服务 gRPC dubbo

墨菲安全软件供应链安全产品v3.0正式公测之产品特性简介及用户升级说明

墨菲安全

软件成分分析 开源安全 墨菲安全 软件供应链安全

建木v2.6.2发布

Jianmu

开源 DevOps 持续集成 低代码 CI/CD

2022,我们追逐群星,也在追逐AIGC的无尽可能

脑极体

刷完200+大厂Java真题手册,成功拿到阿里,京东,美团的offer

钟奕礼

程序员 Java 面试 Java、 java 编程

打破工业发展瓶颈,华为云赋能工业企业转型成效显著!

科技之光

打造全链数据营销服务,华为云助力车企业务增值

科技之光

如何快速建立商业智能系统?华为云告诉您!

科技之光

暴雪、迪士尼大佬用什么画画?RayLink远控软件助力解锁远程创作

RayLink远程工具

远程控制软件 远程办公软件 远控软件 RayLink

这88道阿里高级岗面试题,刷掉了80%以上的Java程序员

钟奕礼

编程 程序员 Java 面试 Java、

我坦白→低代码功能我有,SQL练习题、数据可视化、数据填充助你高效

非喵鱼

sql 低代码 可视化 eCharts 数据库·

Pg数据库日常维护操作指南

查拉图斯特拉说

数据库 postgresql PgSQL

备受企业青睐的华为云CDN优势到底在哪?

路过的憨憨

公司刚来的阿里p8,看完我构建的springboot框架,甩给我一份文档

钟奕礼

程序员 Java 面试 Java、 java 编程

华为云CDN提升网站响应速度,让下载快人一步

路过的憨憨

既要速度与激情,也要稳定和安全,华为云CDN让你速度和安全兼得

路过的憨憨

Flink Shuffle 3.0: Vision, Roadmap and Progress

Apache Flink

大数据 flink 实时计算

数字化转型如何更方便?华为云大数据BI解决方案来了!

科技之光

云原生、20.3k Star......时序数据库 TDengine 的 2022 年精彩纷呈

TDengine

数据库 tdengine 开源 时序数据库

华为云CDN,助力安全企业下载服务,更好提升用户体验

路过的憨憨

华为云CDN加速服务,引领企业数字化发展潮流!

路过的憨憨

10 万字节Spring Boot +redis详细面试笔记(带完整目录)免费分享

钟奕礼

程序员 Java 面试 Java、 java 编程

2022年最全大厂面试真题解析:java集合+spring+并发编程+MyBatis

钟奕礼

程序员 Java 面试 Java、 java 编程

京东搜索重排:基于互信息的用户偏好导向模型_AI&大模型_京东零售技术_InfoQ精选文章