点击围观!腾讯 TAPD 助力金融行业研发提效、敏捷转型最佳实践! 了解详情
写点什么

数据就是杀手锏!优酷多端多场景下的视频推荐系统探索之路

  • 2019-04-28
  • 本文字数:2254 字

    阅读完需:约 7 分钟

数据就是杀手锏!优酷多端多场景下的视频推荐系统探索之路

在“推荐系统系列文章”里,我们已经了解过图文推荐系统音频推荐系统和一些新型的推荐系统算法。在本篇文章里,我们将带来视频推荐系统的技术解析和最新的进展,为此,我们专门采访到了优酷技术推荐算法负责人夏颉。

与图文推荐和音频推荐不同,视频推荐系统要考虑的元素更多,有的时候影响推荐结果的甚至是一些细微的因素。从 2017 年正式引入推荐算法到现在,优酷推荐系统到底经历了哪些迭代与创新?对于视频推荐系统来说,到底还有哪些可以探索的方向?本文将为你一一解答。

优酷推荐系统概况

夏颉告诉记者:“优酷是在 2017 年下半年开始进行算法化升级的。”


“刚开始是在某些重点场景实现单场景的千人千面,当我们在这些场景拿到很多不错的收益之后,才开始逐渐在全站推广。”夏颉说,直到去年,优酷才逐渐将单场景的推荐进行了多端、多场景上进行的融合,形成全网站一致化的推荐体验,用户现在在页面上看到的推荐内容就是在这时完成的。


至于为什么会在去年才逐渐向全站推广,夏颉解释说,视频推荐系统与文字推荐系统还是有很多不同的。由于文字提取主题和标签(tag)的方式更加容易,加之 NLP 技术发展了这么多年,技术理论与工业实践已经到达了相对可用的级别,所以实现起来会比较容易。


而计算机视觉领域虽然在近几年取得了比较迅速的发展,但还是停留在比较具象的层次,比如识别屋子里有一把椅子,或者识别桌子上有一瓶水等等。而对于画面中的人物正在进行的活动主题——譬如“屋子里的人正在家长里短或者激烈争吵”等等,推荐系统对这类主题的建模与识别还是相对来说比较困难的。


另外,夏颉补充道,用户对文章的消费很多时候是因为文章的主题,但是对于视频的消费是很多元化的,甚至可能是因为其中某一个很不起眼的因素所吸引。可能是因为某个场景的背景音乐,或者说主角使用的某个道具等等。所以,如何去判断一段视频中,哪些因素是吸引用户的关键,对于视频推荐系统来说是非常重要的。

“数据就是杀手锏”

在介绍完优酷推荐系统的概况后,记者进一步向夏颉了解了推荐系统技术层面的内容。


依托于阿里巴巴的数据储备,优酷拥有了大量的数据,并绘制出了更加精准的文娱知识图谱,夏颉说,数据就是优酷推荐系统的杀手锏


首先,从算法上来说,夏颉表示,对于视频推荐系统来说,最重要的是通过多模态的视频分析和内容标签的提取来充分理解视频;其次,要建立一个文娱领域的知识图谱,譬如某位男明星和女明星之间是夫妻关系,在用户观看这位男明星的视频时,是否能推荐他妻子的相关视频给用户;另外,怎样把知识图谱更好地应用在推荐系统的召回和排序中,也非常重要;同时,怎样把有联系的用户之间建立一个行为网络,通过这个行为网络更好地进行用户之间的熟人视频消费内容推荐,也是优酷在考虑的问题。


夏颉以用户画像为例进行了更详细的介绍。在优酷的用户群中,有一类叫做“小嫂子”,组成这个群体的核心成员是一些全职的家庭主妇,在进行视频推荐的时候,更多地会为这类用户推荐家庭伦理情感类的视频。


对于毫无数据的新用户,推荐算法又是如何进行精准推荐的呢?


夏颉说,这是一个非常有意思的话题,如果单独对优酷来讲,这会是一个大问题,但是现在,优酷是阿里经济中很重要的一环,这个问题就不再是难题了。


阿里巴巴基本上覆盖了当前大多数中国人线上线下的消费,例如某个用户可能在大麦上买过某场演唱会的票,或者可能在淘票票上买过某部电影的票,亦或者他可能在天猫上经常购买某一类动漫的手办等等,通过用户在衣食住行上的偏好或消费习惯,哪怕他没有进行内容消费,也是可以通过这些信息对他做出比较准确的推荐。


如果这个用户甚至都不在阿里经济覆盖范围之内,也有很多别的办法可以进行画像,比如从人口属性判断,用户来自哪个城市、属于哪个年龄层等等,根据和他相似人群的观看习惯,仍然可以为新用户做一些个性化的推荐。


除了算法上的优化,在推荐方式上,优酷也是下了一番功夫的。


夏颉举例说,在视频封面上,优酷已经开始大规模使用个性化配图推荐了。


夏颉告诉记者,封面个性化配图是在 2018 年下半年的时候大规模展开的。优酷对于上百部影视作品,每部都会配有至少十张以上的封面图,由设计进行产出,而算法会根据用户不同的行为消费偏好,推荐他可能更感兴趣的封面图,促进用户对内容的转化和消费。


而对于短视频,夏颉表示,优酷内部也有足够的技术储备:“我们现在能够智能生成短视频的封面图,并根据用户对短视频的消费进行个性化分发,在线上取得了很不错的收益。”


对于刚刚添加的新视频,优酷也能做到实时推荐。夏颉说,这一功能的实现得益于内部的一套冷启动算法系统,该系统能够保证每天百万级的短视频,在 24 小时内冷启动完毕,从而实现精准推荐。


除了上面提到的各种技术,近年来比较流行的强化学习、图像学习等技术也已经在优酷内部进行实验,或许在不久之后,用户就能体验到这些技术带来的便利。

未来规划

由于推荐系统技术也在不断迭代,在采访的最后,夏颉也谈了谈自己正在研究的方向和对推荐系统未来发展的一些规划。他表示自己也在关注着很多领域的进展,希望将最新的技术应用在推荐系统中。


比如多模态视频内容分析,它不仅可以对一些具象进行分析,还可以对一些抽象概念进行提取,就像前文中说的,可以理解某一个场景中正在发生什么事;另外,基于图计算的推荐系统也是夏颉正在研究的方向。


夏颉告诉记者,阿里文娱是一个覆盖了全端全场景的娱乐消费平台,怎么样在多端、多场景下做到消费体验一致化,并尽可能的提升用户在整个娱乐生态系统里的消费体验和市场,是一个需要长期不断探索的问题。


更多内容,请关注 AI 前线



2019-04-28 14:494698
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 246.8 次阅读, 收获喜欢 1280 次。

关注

评论 1 条评论

发布
用户头像
哈哈哈,不知所云。
2019-05-14 16:35
回复
没有更多了
发现更多内容

对象可达性状态流转分析、显式地影响软引用垃圾收集

共饮一杯无

Java 11月月更 引用类型扩展

鸿蒙开发入门 | 开发第一个鸿蒙应用+页面跳转

TiAmo

华为 鸿蒙 11月月更

主动学习(Active Learning)简介综述汇总以及主流技术方案

汀丶

nlp 11月月更 主动学习

模块四 -- 作业

李某人

架构训练营 #架构训练营

跟着卷卷龙一起学Camera--信号采样03

卷卷龙

ISP camera 11月月更

三次握手与四次挥的问题,怎么回答?

loveX001

JavaScript

week4 - 作业 - 设计千万级学生管理系统的考试试卷存储方案

in9

Oracle sql 性能优化(二)

默默的成长

oracle 前端 11月月更

诚意满满的前端面试总结

loveX001

JavaScript

强引用、软引用、弱引用、幻象引用有什么区别和使用场景

共饮一杯无

Java 引用类型 11月月更

猿创征文|点亮JAVA技术之灯(线程篇)

叶秋学长

Java 线程 教学 11月月更

从URL输入到页面展现到底发生什么?

loveX001

JavaScript

javascript拖拽功能

格斗家不爱在外太空沉思

JavaScript 前端 11月月更

“吃”完这本Java性能调优实战,MySQL+JVM+Tomcat等问题一键全消

程序知音

Java MySQL JVM java面试 性能调优

第九期-模块五

wuli洋

跟着卷卷龙一起学Camera--自动驾驶需要几个 camera

卷卷龙

ISP camera 11月月更

作业四:学生考试系统试卷储存方案

许四多

千万级学生管理系统试卷存储方案设计

π

架构实战营

千万学生管理系统存储架构设计--redis细化

Johnny

架构实战营

Oracle sql 性能优化(三)

默默的成长

oracle 前端 11月月更

怎样提高报表呈现的性能

步尔斯特

使用Socket.io库制作一个简单的实时聊天室

格斗家不爱在外太空沉思

JavaScript websocket 11月月更

夜幕下的湖畔音乐派对,华为音乐之夜为HDC 2022划上“聚”号

最新动态

教育的本质(57/100)

hackstoic

随机森林-用随机森林回归填补缺失值

烧灯续昼2002

Python 机器学习 算法 sklearn 11月月更

前端工程师面试题自检

loveX001

JavaScript

python的类的定义和使用

乔乔

11月月更

跟着卷卷龙一起学Camera--信号采样04

卷卷龙

ISP camera 11月月更

HTML学习笔记(三)

lxmoe

html 前端 学习笔记 11月月更

Oracle sql 性能优化(一)

默默的成长

oracle 前端 11月月更

JavaScript箭头函数与普通函数的区别

格斗家不爱在外太空沉思

JavaScript 前端 11月月更

数据就是杀手锏!优酷多端多场景下的视频推荐系统探索之路_AI_陈思_InfoQ精选文章