本文入选顶会 SIGIR 2024，为你揭晓京东搜索重排多样性与效率平衡的解决方案！

京东零售搜推团队提出了一种基于互信息的偏好导向多样性模型（PODM-MI），该模型可使商品能够根据用户多样性偏好进行自适应排序，该模型可已在京东主搜全量部署，并在 UCVR 和多样性上均有显著收益。

SIGIR 24: A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search

链接：https://dl.acm.org/doi/abs/10.1145/3626772.3661359

摘要：重排是一种通过考虑商品之间的相互关系（上下午）来重新排列商品顺序以更有效地满足用户需求的过程。现有的方法主要提高商品打分精度，通常以牺牲多样性为代价，导致结果可能无法满足用户的多样化需求。而旨在提高多样性的方法可能会降低打分精度，无法满足商品打分精准性的要求。为了解决上述问题，本文提出了一种基于互信息的偏好导向多样性模型（PODM-MI），在重排过程中同时考虑准确性和多样性。具体而言，PODM-MI 采用基于变分推理的多维高斯分布来捕捉具有不确定性的用户多样性偏好。然后，我们利用最大变分推理下界来最大化用户多样性偏好与候选商品之间的互信息，以增强它们的相关性。随后，我们基于相关性得出一个效用矩阵，使商品能够根据用户偏好进行自适应排序，从而在上述目标之间建立平衡。该模型已在京东主搜全量部署，且在 UCVR 和多样性上均有显著收益。

1、背景及现状

在京东商城中，在用户从搜索到下单的过程中存在不同的决策阶段（买、逛等），用户不同的决策阶段对多样性也有不同需求。如下图所示，用户从搜索“连衣裙”到逐渐缩小范围到“荷叶边连衣裙”，这一过程中，他们的搜索意图从多样化逐渐变得明确和具体。

重排作为靠近后链路的一环，需要在效率指标和多样性之间找到平衡，并充分考虑用户的个性化需求。通常来说，用户的需求是多样化的，即在某些场景下，他们对排序结果的准确性要求较高，而在其他场景下，他们则更注重排序结果的多样性。因此，一个合适的重排算法应能够自适应地根据用户需求进行调整：当用户需要多样性时，搜索排序结果应包含尽可能多的不同商品，以满足用户的多种兴趣；而当用户需要准确性时，排序结果应优先展示最符合用户兴趣的单一类别商品。

在解决上述问题的过程中，我们面临两个主要挑战：

准确建模用户的决策意图：用户的意图是动态且复杂的，会在多次搜索和交互中逐渐演变。捕捉这种演变过程并准确建模用户的决策意图是一个关键挑战。

增强搜索结果与用户演变意图的匹配：即使我们能够成功建模用户的意图，如何确保搜索结果能够动态地与用户不断演变的意图相匹配也是一个难题。现有的排序算法通常固定在某种优化目标上，缺乏灵活性，难以在多样性和准确性之间进行自适应的权衡。

为了解决上述挑战，我们提出了 PODM-MI（基于互信息的偏好导向多样性模型）。

2、PODM-MI

PODM-MI 模型以待排序商品及其 sideinfo、用户行为流等作为输入。首先，我们使用 PON 捕捉用户的多样性偏好和候选商品的多样性表示。然后，SAM 增强用户多样性偏好与候选商品多样性之间的一致性。从这种增强的一致性中，我们得出一个效用矩阵，该矩阵会动态调整用户偏好，从而重新排序最终的排名结果以更好地满足用户需求。

2.1 PON：用户偏好建模

在京东的搜索场景中，历史 query 及其对应 session 的商品提供了用户意图随着 session 变化的重要表示。因此，我们的方法不仅包括常规的用户历史行为流，还加入了用户的 query 流，以更好地捕捉用户偏好。

在确定用户偏好建模特征之后，下一步是选择适当的建模方法来表示用户偏好。传统模型往往将用户偏好的动态性视为确定性的，在 embedding 空间中生成静态的用户嵌入。然而，这种方法在捕捉用户偏好的复杂性方面不够准确。相比之下，分布表示引入了不确定性，并提供了更大的灵活性。这种方法能够更好地适应用户偏好随时间和情境变化的复杂性。通过将用户偏好表示为一个概率分布，而非单一的固定嵌入，我们可以更准确地反映用户的多样化需求和行为模式。也有部分研究表明将用户偏好表示为分布而非嵌入具有显著的优越性。这些研究表明，分布表示不仅能够更好地捕捉用户偏好的动态变化，还能在实际应用中提供更高的预测精度和灵活性。

因此，如上图所示，我们使用多维高斯分布来建模用户偏好的演变趋势。该分布由均值向量和对角协方差矩阵表征，使我们能够更好地捕捉用户偏好的动态特性。同样的，后续商品序列的多样性表征也用同样的方式进行表征。

此外，高斯分布还可以用于测量收敛和发散趋势。较大的方差表示更均匀的分布，而较小的方差则表示更集中的分布。这个方差可以间接反映用户的偏好趋势。

2.2 SAM 利用互信息优化排序结果

在建模用户偏好和候选商品的多样性之后，下一步是确保排序结果与用户意图紧密匹配。为此，我们可以使用互信息（一种衡量两个变量之间共享信息量的方法）来量化候选商品与用户偏好之间的相关性。通过最大化这两个因素（用户偏好和商品多样性）之间的互信息，我们确保候选商品的分布与用户意图的分布紧密对齐。

然而，直接估计和最大化互信息通常是不可行的。为了解决这一挑战，我们借鉴了变分推理的文献，引入了一个变分后验估计器。该方法允许我们为互信息目标推导出一个可行的下界，具体推导过程如下，这儿不再赘述。

在增强一致性之后，我们设计了一个可学习的效用矩阵，以进一步使最终的排序结果与用户偏好对齐。通过调整矩阵的数值，我们可以控制不同商品和用户趋势在排序过程中的相对重要性。例如，如果某些商品更符合用户偏好，我们可以调整矩阵的数值，使其在排序过程中占据更大的权重。这种方法允许根据用户意图自适应地调整排名结果。

2.3 优化函数及最终 loss：

优化函数：

最终 loss：

L_{total} = \lambda _{1}L_{CE}+\lambda_{2}L_{MI}

前者是 prm 分类 loss，后者是互信息 loss

方案总结：

2.4 实验结果及可视化分析

为了验证 PODM-MI 的有效性，我们在京东电商搜索引擎中进行了在线 A/B 测试。PODM-MI 不仅提高了用户购买的可能性，还增加了搜索结果中商品的多样性。需要注意的是，每增加 0.10%的 UCVR 都会为公司带来巨大的收入，因此 PODM-MI 取得的提升是非常显著的。

不同排序结果的熵值对应于不同的用户意图。为了评估排名结果是否与用户意图高度相关，我们使用 T-SNE [17] 降维方法可视化了根据用户意图分类的排名结果熵值分布。为了增强聚类效果，我们将熵值水平分为 8 个不同的组别。如上图所示，不同多样性趋势下的用户行为流聚类非常明显，用户意图分布聚类的边界清晰可见。这表明所提出的模型成功捕捉到了用户意图的潜在趋势，并相应地调整了排名结果。

值得注意的是，随着用户意图变得更加多样化，排序结果的熵值也随之增加，反映出排名结果的多样性更高。相反，当用户意图变得更加明确时，熵值会降低，表明排名结果的准确性更高。

案例一：

Query 流：switch,塞尔达，手机壳，榔头，油烟机，油烟排风管

当前 Query：果蔬脱水机

案例二：

Query 流：连衣裙，连衣裙通勤，连衣裙 s，拉夏贝尔夏京东自营，

当前 Query：veromoda 官方旗舰店

此外，我们还用一个更具体的案例来说明我们方法的有效性。当用户的历史搜索查询非常多样时，如：Switch，塞尔达，手机壳，锤子，油烟机，排气管，在这种情况下，当用户输入“蔬菜水果脱水机”后，我们的方法比基线方法产生了更多样化的结果。另外，还有一个收敛趋势的案例。当用户搜索“连衣裙”并访问相应的店铺后，再次输入该店铺时，我们的方法比基线方法产生的结果更加集中，并且更好地与用户的历史搜索记录相匹配。

3、未来迭代方向

• 引入更精细的特征，更好的建模用户的逛买意图

• 用户意图建模更新的进一步优化

• 用户意图建模显式影响

Note：

我们京东搜索算法部目前有大量的社招和实习机会，包括基于大模型的生成式召回/排序等，诚邀有志之士加入。无论您是技术专家还是新兴人才，我们都期待您的加入，共同推动技术的进步和创新。欢迎大家踊跃投递简历，期待与您在京东相遇！欢迎大家交流与探讨，简历投递和建议反馈可联系 wanghuimu1@jd.com, limingming65@jd.com。

团队最近相关工作：

1. Breaking the Hourglass Phenomenon of Residual Quantization: Enhancing the Upper Bound of Generative Retrieval （arxiv：2407.21488）

2. Generative Retrieval with Preference Optimization for E-commerce Search（arxiv：2407.19829）

3. A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search（SIGIR 24 ACCEPTED）

4. MODRL-TA: A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search（CIKM 24 ACCEPTED）

5. Optimizing E-commerce Search: Toward a Generalizable and Rank-Consistent Pre-Ranking Model（SIGIR 24 ACCEPTED）

Adaptive Hyper-parameter Learning for Deep Semantic Retrieval EMNLP 2023 ACCETPED

分享嘉宾：

王彗木博士：中科院自动化所博士，亦城优秀人才，CCF 中国计算机学会专业会员，研究方向为大模型、强化学习，目前在京东从事主搜排序及生成式召排工作。

李明明博士：中科院信工所博士，亦城优秀人才，CCF 中国计算机学会专业会员，研究方向为大模型、语义检索，目前在京东从事主搜召回及生成式召排工作。

创作场景

京东搜索重排：基于互信息的用户偏好导向模型