过去两年时间,国内短视频日均使用时长增长了 5 倍,仅次于即时通讯,短视频已经成为移动互联网下半场新的流量驱动力。作为短视频领域的佼佼者,快手目前拥有超过 2 亿 DAU、千亿级日均曝光、几百亿级日均播放,以及丰富的社交数据,而快手的推荐算法覆盖了其中的大部分流量,是非常理想的推荐技术试验田。近日,InfoQ 记者有幸采访到了快手推荐算法负责人江鹏,在加入快手之前,他曾任阿里巴巴技术总监,负责手机淘宝(以下简称“手淘“)猜你喜欢推荐以及阿里巴巴多条推荐业务线技术研发。同为覆盖过亿用户的工业级推荐业务场景,快手短视频推荐和手淘推荐有哪些异同点?快手短视频推荐在技术实现上有什么独特的难点?未来推荐技术领域还有哪些重要的技术趋势和方向值得关注?让我们来一探究竟。
另外,江鹏还将在 AICon 全球人工智能与机器学习技术大会 北京 2019 进行主题为 《快手短视频推荐挑战与技术方案》 的演讲分享,详细解读快手的多目标排序技术、短视频内容和用户冷启动技术,感兴趣的同学可以关注。
InfoQ:为什么说快手推荐是工业界最大的推荐业务场景之一?您怎么评价推荐系统/算法对于快手的作用?
江鹏:推荐业务的大小其实并没有一个具体的衡量标准,不过它与很多因素有关,比如业务体量和复杂性,体量比如用户量、用户时长、日志量等,复杂性比如业务目标复杂性等。快手目前有超过 2 亿 DAU,千亿级日均曝光,几百亿级日均播放,以及丰富的社交数据,样本数据量级比目前绝大多数推荐业务高 1 到 2 个数量级。同时快手推荐几乎涵盖了推荐领域所有问题,比如用户 &内容冷启动、公平性问题、异构性问题、多样性和惊喜性等等。总体来说,快手推荐是工业界最大的推荐业务场景之一,是非常理想的推荐技术试验田。
推荐覆盖了快手大部分的流量,因此更能影响整体生态,并且直接对 DAU 和 APP 整体时长产生作用。快手的价值观是普惠,推荐系统作为流量分发的抓手为普惠的价值观服务。
InfoQ:从您的个人介绍中,我们了解到您曾在阿里巴巴负责手淘猜你喜欢推荐以及其他多条推荐业务线技术研发,现在您又在快手担任推荐算法的负责人,能否跟我们具体聊聊,手淘推荐和快手推荐存在哪些相同点和差异点?
江鹏:推荐对于手淘和快手影响都非常大,两个推荐业务场景都覆盖了过亿用户,技术上有很多相通的地方,比如整体推荐链路都是基于超大规模在线深度学习技术;推荐差异性主要来自业务差异,短视频推荐有很多需要考虑的特别因素,比如冷启动,包括用户和内容冷启动。在电商推荐里,用户有很多渠道接触到平台的新商品,推荐不是唯一能影响新用户的渠道,因此冷启动并不是一个非常重要的优化项,或者推荐优化对冷启动影响较小。快手短视频推荐影响了快手 APP 大部分流量,直接影响新作品爬坡和用户是否留存,因此冷启动是非常重要的推荐技术,围绕冷启动我们建立了专门的技术团队来负责这项技术的研发。
另外短视频推荐需要更多地考虑生态,优化目标和约束非常多,除了大量的消费侧指标,还有很多生产侧和社交侧指标都是推荐需要关注的。最后,电商推荐数据上结构已经规范化了,类目和 SPU 体系很完善,短视频这类内容推荐,多模态内容理解相对电商推荐会更重。
InfoQ:快手基于短视频做推荐算法,在技术实现上有哪些独特的难点?与手淘推荐相比,二者在技术布局和侧重点上有什么不同?
江鹏:从技术上,电商推荐更侧重 IPV 和 GMV,因此对 CTR 和 CVR 模型要求比较高;快手推荐算法优化的目标更多样,除了各种 XTR,以及短视频特殊的时长预估之外,对整个生态考虑得更多,比如生产、爬坡、负向反馈等等,因此会更侧重多目标排序技术,考虑到多目标情况下在线训练和预估问题,online multi-task learning 基本是标配。另外,出于对短视频业务作品冷启动和时效性的考虑,快手推荐算法对全链路模型实时训练的需求更大,多模态内容理解相对电商推荐也会更重要。新用户冷启动的推荐技术也是快手推荐的重点方向,围绕新用户冷启动有一系列相关技术。
InfoQ:手淘的推荐技术以及您在阿里做推荐技术的经验,有哪些是可以在快手复用和借鉴的?
江鹏:阿里巴巴从 13 年 All in 无线开始,围绕手机淘宝积累了比较多的推荐相关技术,个人有幸经历了这一时期,参与了阿里推荐从 0 到 1 再到发展壮大的过程。在推荐技术上,无论是基础的 CTR/CVR 预估,各类推荐模型,例如图神经网络相关模型,都有借鉴价值。另一方面,业务差异实际上需要在快手做比较强的适配才可能发挥作用。短视频推荐本身的天花板比较高,快手也积累了很多业内领先的推荐相关技术和经验,会逐步在业内推广和交流。
InfoQ:你们如何评估快手短视频推荐算法的效果?主要从哪些指标或因素来考量?针对这些评估指标,快手有哪些对应的技术方案?
江鹏:刚才提到快手推荐算法的评估指标非常多,除了常用的各种 XTR 和时长之外,各种生产和社交指标,还有爬坡、gini、留存等等。针对这些指标,我们研发了基于动态图在线图神经网络框架,对快手亿级节点 x 亿边的大规模异构数据进行实时图表达学习,用于 u2i 和 i2i 的触发召回,在多个评估指标上都拿到了不错的效果。
InfoQ:对于近年来比较热门的知识图谱、强化学习、多模态内容理解等技术的引入,快手短视频推荐做了哪些尝试?能否谈谈引入前后带来的效果有何不同?
江鹏:这些技术在工业界有很多尝试。快手也不例外,比如强化学习在快手新用户推荐中结合 Listwise 取得了不错的效果,是强化在工业界推荐业务中的真实落地。多模态内容理解是快手的基础中台能力,为推荐提供了强有力的支持,特别在新作品冷启动上作用明显。
InfoQ:未来推荐技术领域还有哪些重要的技术趋势和方向值得关注?
江鹏:从技术趋势上看,推荐领域未来方向主要是应用创新技术解决推荐系统的几个典型问题,比如引入强化学习、知识图谱、图神经网络等技术,或者借鉴 NLP 序列建模和多模态的一些新技术方案,解决诸如准确性、多样性、可解释性、数据异构性等问题,离线指标更多的是 RMSE、AUC、precision@topN 等等,线上指标以 CTR、时长为主。另外目前主要解决问题与工业界实际中的问题存在一定 gap,越大规模的推荐系统越需要考虑,在大量优化目标下,怎么评估推荐算法的价值,以及围绕这个价值如何优化,因此与经济学结合也是一个值得关注的方向。
采访嘉宾介绍:
江鹏,快手推荐算法负责人,负责快手主 APP、极速版等业务推荐算法。加入快手前,任阿里巴巴技术总监,负责手淘猜你喜欢推荐以及阿里巴巴多条推荐业务线技术研发,阿里推荐技术演化的主要推动者。在 KDD、WSDM、WWW、RECSYS 等会议发表论文 10 余篇。
福利时刻:
江鹏老师将在 11 月 21-22 的AICon大会上带来更多关于知识图谱的精彩分享,想要跟江老师深入交流的,不要错过面基的机会。另外,大会还有关于机器学习、NLP、搜索推荐、智能金融等 50+最新落地案例,更有来自 AWS、微软、BAT、华为等国内外一线 AI 技术专家带来干货演讲,部分议题抢先看:
【蚂蚁金服】金融知识图谱在蚂蚁的业务探索与平台实践
【菜鸟网络】人工智能在智慧交通物流的技术演进之路
【阿里妈妈】工业级深度学习在阿里广告的实践、创新与最新进展
【微软小冰】人格化对话机器人的构建及在语音场景当中的实践
【百度】AI 大生产时代下的 NLP 技术创新与应用实践
目前大会售票倒计时一周,购票页面输入优惠码“aicon”还可享折扣价,抢票咨询:18514549229(同微信)
评论