写点什么

同为工业界最大的推荐业务场景,快手短视频推荐与淘宝推荐有何不同?

  • 2019-11-13
  • 本文字数:2960 字

    阅读完需:约 10 分钟

同为工业界最大的推荐业务场景,快手短视频推荐与淘宝推荐有何不同?

过去两年时间,国内短视频日均使用时长增长了 5 倍,仅次于即时通讯,短视频已经成为移动互联网下半场新的流量驱动力。作为短视频领域的佼佼者,快手目前拥有超过 2 亿 DAU、千亿级日均曝光、几百亿级日均播放,以及丰富的社交数据,而快手的推荐算法覆盖了其中的大部分流量,是非常理想的推荐技术试验田。近日,InfoQ 记者有幸采访到了快手推荐算法负责人江鹏,在加入快手之前,他曾任阿里巴巴技术总监,负责手机淘宝(以下简称“手淘“)猜你喜欢推荐以及阿里巴巴多条推荐业务线技术研发。同为覆盖过亿用户的工业级推荐业务场景,快手短视频推荐和手淘推荐有哪些异同点?快手短视频推荐在技术实现上有什么独特的难点?未来推荐技术领域还有哪些重要的技术趋势和方向值得关注?让我们来一探究竟。


另外,江鹏还将在 AICon 全球人工智能与机器学习技术大会 北京 2019 进行主题为 《快手短视频推荐挑战与技术方案》 的演讲分享,详细解读快手的多目标排序技术、短视频内容和用户冷启动技术,感兴趣的同学可以关注。


InfoQ:为什么说快手推荐是工业界最大的推荐业务场景之一?您怎么评价推荐系统/算法对于快手的作用?


江鹏:推荐业务的大小其实并没有一个具体的衡量标准,不过它与很多因素有关,比如业务体量和复杂性,体量比如用户量、用户时长、日志量等,复杂性比如业务目标复杂性等。快手目前有超过 2 亿 DAU,千亿级日均曝光,几百亿级日均播放,以及丰富的社交数据,样本数据量级比目前绝大多数推荐业务高 1 到 2 个数量级。同时快手推荐几乎涵盖了推荐领域所有问题,比如用户 &内容冷启动、公平性问题、异构性问题、多样性和惊喜性等等。总体来说,快手推荐是工业界最大的推荐业务场景之一,是非常理想的推荐技术试验田。


推荐覆盖了快手大部分的流量,因此更能影响整体生态,并且直接对 DAU 和 APP 整体时长产生作用。快手的价值观是普惠,推荐系统作为流量分发的抓手为普惠的价值观服务。


InfoQ:从您的个人介绍中,我们了解到您曾在阿里巴巴负责手淘猜你喜欢推荐以及其他多条推荐业务线技术研发,现在您又在快手担任推荐算法的负责人,能否跟我们具体聊聊,手淘推荐和快手推荐存在哪些相同点和差异点?


江鹏:推荐对于手淘和快手影响都非常大,两个推荐业务场景都覆盖了过亿用户,技术上有很多相通的地方,比如整体推荐链路都是基于超大规模在线深度学习技术;推荐差异性主要来自业务差异,短视频推荐有很多需要考虑的特别因素,比如冷启动,包括用户和内容冷启动。在电商推荐里,用户有很多渠道接触到平台的新商品,推荐不是唯一能影响新用户的渠道,因此冷启动并不是一个非常重要的优化项,或者推荐优化对冷启动影响较小。快手短视频推荐影响了快手 APP 大部分流量,直接影响新作品爬坡和用户是否留存,因此冷启动是非常重要的推荐技术,围绕冷启动我们建立了专门的技术团队来负责这项技术的研发。


另外短视频推荐需要更多地考虑生态,优化目标和约束非常多,除了大量的消费侧指标,还有很多生产侧和社交侧指标都是推荐需要关注的。最后,电商推荐数据上结构已经规范化了,类目和 SPU 体系很完善,短视频这类内容推荐,多模态内容理解相对电商推荐会更重。


InfoQ:快手基于短视频做推荐算法,在技术实现上有哪些独特的难点?与手淘推荐相比,二者在技术布局和侧重点上有什么不同?


江鹏:从技术上,电商推荐更侧重 IPV 和 GMV,因此对 CTR 和 CVR 模型要求比较高;快手推荐算法优化的目标更多样,除了各种 XTR,以及短视频特殊的时长预估之外,对整个生态考虑得更多,比如生产、爬坡、负向反馈等等,因此会更侧重多目标排序技术,考虑到多目标情况下在线训练和预估问题,online multi-task learning 基本是标配。另外,出于对短视频业务作品冷启动和时效性的考虑,快手推荐算法对全链路模型实时训练的需求更大,多模态内容理解相对电商推荐也会更重要。新用户冷启动的推荐技术也是快手推荐的重点方向,围绕新用户冷启动有一系列相关技术。


InfoQ:手淘的推荐技术以及您在阿里做推荐技术的经验,有哪些是可以在快手复用和借鉴的?


江鹏:阿里巴巴从 13 年 All in 无线开始,围绕手机淘宝积累了比较多的推荐相关技术,个人有幸经历了这一时期,参与了阿里推荐从 0 到 1 再到发展壮大的过程。在推荐技术上,无论是基础的 CTR/CVR 预估,各类推荐模型,例如图神经网络相关模型,都有借鉴价值。另一方面,业务差异实际上需要在快手做比较强的适配才可能发挥作用。短视频推荐本身的天花板比较高,快手也积累了很多业内领先的推荐相关技术和经验,会逐步在业内推广和交流。


InfoQ:你们如何评估快手短视频推荐算法的效果?主要从哪些指标或因素来考量?针对这些评估指标,快手有哪些对应的技术方案?


江鹏:刚才提到快手推荐算法的评估指标非常多,除了常用的各种 XTR 和时长之外,各种生产和社交指标,还有爬坡、gini、留存等等。针对这些指标,我们研发了基于动态图在线图神经网络框架,对快手亿级节点 x 亿边的大规模异构数据进行实时图表达学习,用于 u2i 和 i2i 的触发召回,在多个评估指标上都拿到了不错的效果。


InfoQ:对于近年来比较热门的知识图谱、强化学习、多模态内容理解等技术的引入,快手短视频推荐做了哪些尝试?能否谈谈引入前后带来的效果有何不同?


江鹏:这些技术在工业界有很多尝试。快手也不例外,比如强化学习在快手新用户推荐中结合 Listwise 取得了不错的效果,是强化在工业界推荐业务中的真实落地。多模态内容理解是快手的基础中台能力,为推荐提供了强有力的支持,特别在新作品冷启动上作用明显。


InfoQ:未来推荐技术领域还有哪些重要的技术趋势和方向值得关注?


江鹏:从技术趋势上看,推荐领域未来方向主要是应用创新技术解决推荐系统的几个典型问题,比如引入强化学习、知识图谱、图神经网络等技术,或者借鉴 NLP 序列建模和多模态的一些新技术方案,解决诸如准确性、多样性、可解释性、数据异构性等问题,离线指标更多的是 RMSE、AUC、precision@topN 等等,线上指标以 CTR、时长为主。另外目前主要解决问题与工业界实际中的问题存在一定 gap,越大规模的推荐系统越需要考虑,在大量优化目标下,怎么评估推荐算法的价值,以及围绕这个价值如何优化,因此与经济学结合也是一个值得关注的方向。


采访嘉宾介绍:


江鹏,快手推荐算法负责人,负责快手主 APP、极速版等业务推荐算法。加入快手前,任阿里巴巴技术总监,负责手淘猜你喜欢推荐以及阿里巴巴多条推荐业务线技术研发,阿里推荐技术演化的主要推动者。在 KDD、WSDM、WWW、RECSYS 等会议发表论文 10 余篇。


福利时刻:


江鹏老师将在 11 月 21-22 的AICon大会上带来更多关于知识图谱的精彩分享,想要跟江老师深入交流的,不要错过面基的机会。另外,大会还有关于机器学习、NLP、搜索推荐、智能金融等 50+最新落地案例,更有来自 AWS、微软、BAT、华为等国内外一线 AI 技术专家带来干货演讲,部分议题抢先看:


【蚂蚁金服】金融知识图谱在蚂蚁的业务探索与平台实践


【菜鸟网络】人工智能在智慧交通物流的技术演进之路


【阿里妈妈】工业级深度学习在阿里广告的实践、创新与最新进展


【微软小冰】人格化对话机器人的构建及在语音场景当中的实践


【百度】AI 大生产时代下的 NLP 技术创新与应用实践


目前大会售票倒计时一周,购票页面输入优惠码“aicon”还可享折扣价,抢票咨询:18514549229(同微信)


2019-11-13 08:044947
用户头像
蔡芳芳 InfoQ主编

发布了 800 篇内容, 共 551.2 次阅读, 收获喜欢 2789 次。

关注

评论

发布
暂无评论
发现更多内容

kubernetes indexer源码解析

欢乐的阿苏

golang DevOps cache 源码阅读 #Kubernetes#

Golang并发编程实战:使用ring buffer实现高效的阻塞队列

Jack

Unity 之 使用原生UGUI实现随手移动摇杆功能经典实例

陈言必行

Unity 三周年连更

Java数组、排序和查找

timerring

Java

RabbitMQ组件介绍

穿过生命散发芬芳

RabbitMQ 三周年连更

openEuler、龙蜥Anolis、统信UOS系统下编译GreatSQL二进制包

GreatSQL

专注写作:Ulysses for Mac中文版

真大的脸盆

Mac markdown编辑器 Mac 软件 文本编辑 文本管理工具

数据库原理及MySQL应用 | 约束

TiAmo

数据库 MySQL数据库 三周年连更 数据库约束

从ReentrantLock角度解析AQS

Java AQS 并发

Java程序控制结构

timerring

Java

跨平台应用开发进阶(四十三)一文走近网络层抓包工具:WhireShark

No Silver Bullet

网络层 抓包工具 三周年连更

论程序员的为码之“道”

酱紫的小白兔

AI日课@20230412:Prompt Engineering

无人之路

ChatGPT

vivo全球商城:电商交易平台设计

vivo互联网技术

分布式事务 订单管理 架构设计 多租户 交易平台

kubernetes delta_fifo源码解析

欢乐的阿苏

golang DevOps 后端 源码阅读 #Kubernetes#

Unity 之 转微信小游戏本地数据存储

陈言必行

Unity 三周年连更

C生万物 | 反汇编深挖【函数栈帧】的创建和销毁

Fire_Shield

C语言 汇编 三周年连更 函数栈帧

不要过于吹捧ChatGPT:人工智能生成文字还有很大提升空间

石头IT视角

程序员如何保住自己的饭碗?| 社区征文

liuzhen007

程序员 三周年征文

ContentProvider介绍

梦笔生花

ContextClassLoader 三周年连更

kubernetes fifo源码解析

欢乐的阿苏

golang DevOps 后端 源码阅读 #Kubernetes#

【坚果派-坚果】获取OpenHarmony 3.2 Release源码的两种方式

坚果

HarmonyOS OpenHarmony OpenHarmony3.2 三周年连更

危中蕴机:Oi! Network展现出的勇气和决心

股市老人

一文掌握 Go 文件的读取操作

陈明勇

Go golang 文件读取 三周年连更

影驰 GeForce RTX 4070显卡正式开售!星曜 OC系列首发评测抢先看

Geek_2d6073

Go语言开发小技巧&易错点100例(三)

闫同学

Go 三周年连更

成都.NET线下技术沙龙倒计时一天

MASA技术团队

.net 开发者 MASA Stack

如何使用 taosKeeper 做好监控工作,时序数据库 TDengine 3.0 监控工具详解

TDengine

大数据 tdengine 物联网 时序数据库 数据监控

一定是疯了!在M1的Mac上玩OpenVINO,让Intel怎么看我?

IT蜗壳-Tango

OpenVINO Stable Diffusion 三周年连更

Spider实战-抓取视频

浅辄

三周年连更

【Linux】之【磁盘】相关的命令及解析[df、du、iostat、iotop]

A-刘晨阳

Linux 三周年连更 磁盘空间

同为工业界最大的推荐业务场景,快手短视频推荐与淘宝推荐有何不同?_AI&大模型_蔡芳芳_InfoQ精选文章