11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦,立即报名! 了解详情
写点什么

标签个性化数据在推荐排序中的应用

  • 2014-03-09
  • 本文字数:1697 字

    阅读完需:约 6 分钟

导读

个性化是这个时代最耀眼的特征,谁能更好更快的抓住用户的个性化需求,谁就将赢得商业的未来”——《个性化,商业的未来》

本文 share 的这个项目,是我们在个性化推荐上的一个小小的尝试。通过捕捉用户实时的标签快速捕捉用户兴趣变化,用机器学习算法挖掘用户兴趣与实际消费行为的联系,及时调整推荐排序,提高推荐效果。

一、背景

2013 年推荐还能实现效果 100% 的增长吗?

推荐从无到有,除了大盘增长带来的推荐成交自然增长外,基于协同过滤的推荐效果相比热销效果翻了一番。随着协同过滤技术的普及,推荐增长速度已经明显放缓,急需寻找新的突破点提升效果。

个性化的声音此起彼伏,我们团队也开始考虑使用个性化的方案,一方面通过捕捉用户的个性化的信息,更及时的了解用户兴趣点;另一方面,尝试各种个性化推荐匹配思路,希望给用户带来更好的推荐体验。这个 case 在这两个方面都做了尝试,从效果数据上看有明显提升。

二、个性化解决方案

个性化的核心问题是:用户的个性化信息挖掘和个性化信息的应用。

在这个项目启动之前,我们个性化上的尝试还是基于用户的历史信息,难以反应用户快速的兴趣变化;在个性化信息的应用上,缺少统一应用方式,往往是一个情景一种思路,通过人工定规则,难以保证效果且耗费资源。

捕捉用户实时个性化信息,快速捕捉用户兴趣变化;并基于用户反馈的方式应用个性化信息于推荐,是本期项目的两个关键点。现在,用户个性化信息实时捕捉 -> 基于反馈的个性化信息应用 -> 推荐效果提升,已经成为我们优化推荐资源位的一套科学方法论。

1、用户实时信息捕捉:

用户的实时信息虽然有多种多样,但基本上都是来自于用户实时的行为和行为作用的商品 / 品牌实体上。抛砖引玉,这里我们以商品为例,通过用户访问的商品及商品的标签信息来表达用户的实时信息。

每个商品都有一些特定的标签:比如下面两个例子。商品标签的重要性通过权重标出。

商品

标签

商品

标签

正品匡威帆布鞋converse all star白色**/黑色/**酒红拉链高帮

匡威,0.9999

开口笑,0.4291

低帮,0.3121

女鞋,0.2453

高帮,0.2186

匡威开口笑,0.1842

匡威经典款,0.1425

铆钉,0.1286

白布,0.1151

情侣,0.0997

品质保证伟乐WL–908MV头戴式舒适耳麦网吧耳机

伟乐,0.9878

头戴式,0.6898

网吧,0.5427

舒适,0.3143

pc 电脑,0.0829

直插,0.0647

3.5mm,0.0572

有线,0.0494

用户在浏览时,就被打上了他刚刚看过的这些标签信息。用户对某一类商品看的越多,与那一类相关的标签就会越多。

在生成用户标签数据时,我们考虑了以下几个因素:

  1. 商品的标签权重。不重要不具有区分性的标签的权重相对较小
  2. 用户对某商品行为距离当前的时间。时间越近的影响越大,从而用户上的标签可以反应用户最近的兴趣点。
  3. 行为的类型,包括浏览、收藏、加入购物车、购买。对不同的行为类型设置不同的权重。

用户标签示例:

用户 ****id

标签

用户 ****id

标签

6276041xx

(一个偏好日常生活用品的用户)

毛毡:2.14

竹纤维:1.57

面巾:1.26

咖啡棒:1

沐浴瓶:1

漱口杯:1

针织:0.99

保暖:0.88

室内:0.8

生活:0.75

绑带:0.68

1058139xx

(一个偏好时尚小青年服装的用户)

林弯弯:2.59

机械表:2.03

外壳贴膜:2

个性:1.45

外壳膜:1.4

迷彩:1.4

连帽:1.28

镂空:1.16

背包:1.05

逸枫:1

iphone5:1

2、个性化排序

基于用户标签和商品标签,计算用户对商品的感兴趣程度,拍脑袋可以想出很多种方案。但是在数据化运营的时代,我们相信数据本身胜过相信拍脑袋的决策。所以我们想到了利用点击反馈数据来决定如果使用用户个性化数据。

  1. 首先,我们利用用户标签、商品标签,计算了多种相似度,作为 < 用户, 商品 > 相关性的一种表达。
  2. 然后,将用户的每一次点击 / 无点击视为对 < 用户, 商品 > 的一次反馈,形成反馈数据
  3. 最后,利用反馈数据进行机器学习训练,寻出最优的相似度组合方式

最终得到的个性化排序公式的形式是:

从用户的反馈数据中通过算法训练得出的组合规则,有以下几个优点

  1. 科学训练,保证效果,不定规则拍脑袋,节省了不断上线测试效果调整参数的工作量
  2. 自动化进行,在需要引入新的相似数据时,可以自动完成新一轮的组合规则学习

三、效果

效果对比以 A/B test 的方式进行,在天猫购物车 - 猜你喜欢,迎客松等推荐位上进行一周测试,对比测试桶和基准桶,各项指标均有显著提升。

2014-03-09 01:572916

评论

发布
暂无评论
发现更多内容

京东集团技术委员会主席周伯文:推进产业数智化发展需要技术和生态两把“桨”

京东科技开发者

区块链 大数据 AI 物联网,

成德眉资现代农业园区大联动促发展,“1链3e”引领四市农业产业数字化建设

CNG农业公链

京东千亿订单背后的纵深安全防御体系

京东科技开发者

安全 网络 云服务 云安全

SpringBoot-技术专题-如何提高吞吐量

洛神灬殇

MySQL-技术专题-LEFT JOIN避坑指南

洛神灬殇

物化视图如何快速完成数据聚合操作?

VoltDB

数据库 数据分析 sql

区块链医疗、电子票据应用落地开发解决方案

t13823115967

电子票据 区块链医疗

京东智能客服品牌焕新:“言犀”亮相2020京东JDD大会

京东科技开发者

大数据 AI 知识图谱

阿里内部11月最新出台Spring Cloud架构设计+程序开发+运维部署

Java架构追梦

Java 阿里巴巴 架构 微服务 SpringCloud

推荐几款MySQL相关工具

Simon

MySQL 工具 percona server

大厂经验:一套Web自动曝光埋点技术方案

阿亮

埋点 曝光埋点 点击埋点 自动化埋点

以 Kubernetes 为代表的容器技术,已成为云计算的新界面

阿里巴巴云原生

云计算 Kubernetes 容器 云原生

中小型企业创业的福音

anyRTC开发者

创业 音视频 WebRTC RTC

Mybatis日志功能是如何设计的?

Java架构师迁哥

关于 AWS Lambda 中的冷启动,你想了解的信息都在这!

donghui

Serverless Faas 函数计算

接口测试和功能测试的区别

测试人生路

软件测试

距离 2020 年结束不到2个月,字节跳动员工却在闲鱼卖内推名额登上热搜!

Java架构师迁哥

MyBatis-技术专题-拦截器原理探究

洛神灬殇

26张图带你彻底搞懂volatile关键字的底层实现

小牛

volatile 后端 多线程 并发 Java 分布式

uml图中各种线的关系

胡云飞

极客大学架构师训练营 UML

.net5发布,.NET会就此“支棱起来”吗?

Philips

.net 敏捷开发 .net core

「干货总结」程序员必知必会的十大排序算法

bigsai

排序 排序算法 快速排序

2020年9月北京BGP机房网络质量评测:天地祥云木樨园力压群芳终进前三

博睿数据

机房 评测

区块链技术应用开发、区块链版权应用搭建解决方案

t13823115967

区块链技术应用开发 区块链版权搭建解决方案

从数据仓库双集群系统模式探讨,看GaussDB(DWS)的容灾设计

华为云开发者联盟

数据库 数据仓库 数据

前端高效开发必备的 js 库梳理

徐小夕

Java GitHub 大前端 js

数字化时代App们将何去何从?

FinClip

2020年10月北京BGP机房网络质量评测:流水的其他,铁打的世纪互联?

博睿数据

机房 评测

五年时间完成业务数字化转型,华为如今做得怎么样了?

华为云开发者联盟

效率 提升 数字化

架构师训练营 1 期 - 第十周 - 模块分解

三板斧

极客大学架构师训练营

跨语言跨平台聚合OpenAPI文档从来没有这么简单过

Knife4j

微服务 OpenAPI Knife4j Knife4jAggregation

标签个性化数据在推荐排序中的应用_语言 & 开发_弄雨_InfoQ精选文章