写点什么

AI 在爱奇艺视频内容个性化生产与分发中的运用

2019 年 12 月 03 日

AI在爱奇艺视频内容个性化生产与分发中的运用

AI 技术正在变革着网络视频内容的生产和传播方式。以爱奇艺为例,其每天产生的视频数量规模从几万量级到上百万量级不等,爱奇艺构建的智能推荐系统利用搜索推荐、深度学习等技术,让这些海量内容得到了个性化分发的同时也满足了用户的体验。此外,爱奇艺还在探索利用 AI 技术根据用户的兴趣去定制化生产抓住用户兴趣、增强用户粘性的内容。在 11 月 21-22 日召开的AICon全球软件开发大会(北京站)2019 现场,InfoQ 有幸采访到了爱奇艺研究员杨紫陌,她详细介绍了 AI 技术在爱奇艺的视频内容、个性化海报图及推荐语的生产分发运用。


以下为 InfoQ 与杨紫陌对话全文,有删减


InfoQ:首先请您做一下自我介绍,您自何时加入爱奇艺,以及目前主要负责的工作?


杨紫陌:我加入爱奇艺快两年时间,现在主要负责爱奇艺 APP 的推荐算法。具体来说主要有视频内容推荐、个性化海报图及推荐语的生产分发、流量中控等项目。


InfoQ:爱奇艺 APP 每天大概产生的视频数规模有多少?


杨紫陌:每天产生的视频数量级不太一样。爱奇艺主页的电影、电视剧,综艺,儿童,动漫等优质频道的内容,大概是几百上千数量级。如果加上游戏、主播、体育等偏 PGC(专业内容制作)的视频内容,数量大概在上万数量级。如果要加上 UGC(用户自己制作的视频内容),数量规模甚至有可能上百万。


InfoQ:推荐系统对于海量内容的传播至关重要,爱奇艺的视频推荐系统整体架构是什么样子的,主要运用到了哪些 AI 技术?


杨紫陌:推荐系统是 AI 算法最早看到商业价值的领域之一,所以业界推荐系统的整体架构都比较通用成熟了。一般来说,推荐系统分成这样几个阶段:


首先是生成推荐池。整个视频库的量级非常大,可能是千万或亿量级。先从视频库里选出一些可以被推荐的内容,我们称为推荐池,大概会有百万量级的内容可以进这个推荐池。这一阶段核心是,根据内容特征筛选掉一些低质或者违规的内容,比如低画质、年代久远、涉及到政治敏感、黄色暴力的内容。


第二阶段是召回,召回思路一般会根据用户的观看历史记录、搜索记录、偏好类目选择一些用户可能喜欢的内容,召回策略主要包含协同过滤, 意图预测,偏好召回和向量召回等。这一阶段的核心定位是,对每一个用户根据其偏好和行为,对所有的内容进行一次初筛。


第三阶段是排序。排序环节,会对内个用户召回的内容进行打分,获取分数最高的少量结果,分数计算的规则是通过用户上亿次的线上点击行为学习出来的。分数值会参考的特征也是很丰富的,包括内容的特征(如热度、题材、时效性、外部舆情),用户特征(如用户偏好、浏览记录、登录频率、是否会员),以及环境特征(如 wifi、gps、时间)等。


最后会有一个规则层,通过降权过滤等手段,处理一些算法无法顾及的用户体验的问题,比如不再推荐用户已经看过的视频、尽量向用户多样化展示视频内容等。


InfoQ:针对长短不一的不同视频内容,算法是如何做分类并分发推荐的?


杨紫陌:首先用户对于长视频、短视频的需求不同。用户观看短视频的意图和行为多表现为简单“刷一刷”,打发闲散时间。而消费长视频,大部分用户需要一段相对完整的时间,所以消费长视频的心理门槛也较高。例如,晚上是长视频的高峰期,上下班路上则是短视频的高峰期。基于上述规律性的差异,我们会对用户的意图和行为进行预测,预测用户是更倾向于是看长视频还是看短视频。


用户在一个视频上观看的时长,可以很大程度上反映用户对这个视频的喜好程度,所以在做混合推时,我们也会对长短视频的样本做一些处理。最开始我们的样本是用“观看时长”来决定样本权重,但这样长视频明显有优势。后来我们考虑用“完成度”来衡量,但这样对短视频有优势,用户很容易就看完了,甚至有时候用户不喜欢也懒得跳过。最终我们采用的是一个相对折中的方案,用当前行为相比于“平均观看时长”(指所有用户观看这个视频内容的平均时长)这个指标来衡量用户对该内容的喜欢程度,如果用户观看该内容的时长超出平均时长,我们就认为,相对于其他用户,他更喜欢这个内容。这个策略让排序服务的精度提升非常明显,它可以更好的平滑长短视频之间的打分差异,使得模型打分更注重于真实相关性。


InfoQ:所谓“个性化”,判定标准可能千差万别,机器根据用户的行为去推荐给他可能感兴趣的行为,但很多时候,用户可能并不真正感兴趣,如何来做界定?


杨紫陌:判断一个用户是否真的喜欢某一个视频内容,这很大程度上是通过用户观看内容的时长来衡量的。对用户在该视频内容上的停留时间、是否倍速播放、是否托拉拽、是否有二刷等观看行为做综合分析,来判断用户对该内容是否真正感兴趣。


InfoQ:有时候,算法推荐的可能并不是用户想要的,算法往往推荐给用户大量相似内容,这反而会给用户带来困扰,您怎么看?


杨紫陌:在做推荐分发时,为照顾用户体验,针对用户行为较丰富的用户,在“规则”层会做打散。但如果用户在平台上的行为非常少,他/她只看了某一类内容,那么确实有更大的可能会发生被推荐类似内容的情况。对于这类低粘性用户,我们会给一个相对大的概率去出各频道的优质内容,更多的去探索用户的兴趣,帮助他发现平台上更多样性的内容。


InfoQ:个性化海报的生产和分发具体是如何操作的?


杨紫陌:有很多视频内容,单单通过一个海报者展示,用户可能很难真正理解到这个内容吸引人的地方。我们希望通过改变内容本身的分发形式,来提升内容对用户的吸引力。而相对人工生产/分发,机器制作具有自动高效、可复用、千人千面等特点。


个性化海报的生产主要有三种途径:一是,通过官方运营海报本身的二次加工或者预告片、外部数据生成海报。二是,通过视频内容本身出发,对优质画面进行截帧,对剧照进行再加工。三是,运用模版组合方式,通过素材缩放和位置移动等形成不同模版、尺寸。


海报分发环节,我们会根据用户偏好的标签,匹配出用户最有可能能感兴趣的海报。并且建立退场机制,将一些质量不高的,用户点击率不高的海报从内容推荐池去掉。在人工审核时,运营也会结合画面评分,和用户的线上反馈情况(ctr)进行综合的判断。


InfoQ:在海报分发和生产过程中都用到了哪些 AI 技术?效果如何?


杨紫陌:在海报生产方面,会用到图像增强、目标检测,图像分割等技术。在生成演员特征时会用到人脸、动作、场景的识别、以及对于海报有没程度的打分。在智能检查时也会用到 AI,比如如何避免在智能裁剪时避开人脸、避开文字等。此外,在对一些老影视剧做重塑时会运用到图像增强技术,将以前模糊的、分辨率低的海报变得更清晰。相较于传统的海报生成,个性化海报上线效果提升明显,线上分发效率(ctr)提高了 10%左右。



InfoQ:在海报标签语的制作上,是怎样做的?


杨紫陌:推荐语的生成主要运用到了 NLP 技术。针对同一个内容生成推荐语,需要考虑的因素比较多,如情节、主题、用户喜好、召回方式、内容弹幕等。


InfoQ:AI 参与内容创作目前还在探索阶段,爱奇艺在这方面做了哪些尝试?


杨紫陌:AI 为传统的内容制作行业提供工具。如,前面提到的利用图像增强技术对经典内容的重塑、在原有内容基础上做智能剪辑、拼接等均属于再创作。在一些影视剧、综艺节目的后期制作环节,在渲染、剪辑、对镜等操作中也会广泛运用到 AI 技术。


嘉宾介绍


杨紫陌,爱奇艺研究员,负责视频内容的个性化分发、个性化海报图推荐语的生产分发、流量中控等项目。2013 年阿里星,在阿里集团负责精准营销、商品推荐、支付宝智能运营等项目。曾获全美数学建模特等奖、最佳组织奖、最佳创意奖。发表 SCI 期刊论文十余篇,其中一篇入选 ESI 全球高引用论文。


2019 年 12 月 03 日 10:511624
用户头像
刘燕 InfoQ记者

发布了 554 篇内容, 共 174.2 次阅读, 收获喜欢 1055 次。

关注

评论

发布
暂无评论
发现更多内容

goalng写的IM服务器

Alber

golang IM

架构师训练营 - 第 7 周命题作业

红了哟

MEDO 项目开发中遇到的问题汇总

陈皮

Elasticsearch学习

张明森

如何学习一个框架?

七叶

数据治理第一步,摆脱“手工作坊”

KAMI

大数据 数据治理 数据开发 数据平台

MySQL-技术专题-InnoDB存储引擎

李浩宇/Alex

MySQL-技术专题-共享锁与排他锁

李浩宇/Alex

知道时间轮算法吗?在Netty和Kafka中如何应用的?为什么不用Timer、延时线程池?

yes的练级攻略

kafka Netty Timer ScheduledThreadPool 时间轮

LeetCode题解:88. 合并两个有序数组,双指针遍历+从前往后,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

并不想吹牛皮,但!为了把Github博客粉丝转移到公众号,我干了!

小傅哥

Java 小傅哥 博客 微信公众号

Apache Mina和Netty的历史

dinstone

基于Vert.x的API网关Agate

dinstone

Dubbo2.7试用

心平气和

dubbo 灰度 hessian

国内与国外区块链关键技术现状及差异

CECBC区块链专委会

区块链 应用技术

阿里、力扣、政采云的15位专家分享前端面试与招聘视角

三钻

前端 大厂面试 面试经验

MySQL 架构与历史

多选参数

MySQL 数据库 MySQL优化

鲲鹏一粤,智算万里

脑极体

记一次腾讯云(西安)后台开发面试经历

z小赵

面试 分布式 高并发

如何隐藏你的数据库密码

Rayjun

安全 服务器

docker入个门

书旅

Docker 容器 Dockerfile

用故事去理解「文件 I/O」

小林coding

操作系统 异步 文件系统 同步 非阻塞网络I/O

架构师训练营 - 第十周作业

坂田吴奇隆

抽象类、接口、Trait

书旅

接口 面向对象 抽象 对象 Trait

Flexible Box Layout 原理剖析

大导演

CSS 前端进阶训练营

Github被攻击。我的GitPage博客也挂了,紧急修复之路,也教会你搭建 Jekyll 博客!

小傅哥

Java GitHub 小傅哥 博客

【DevOps】我们忽视了Daily Build(每日构建)吗?

Man

DevOps jenkins 每日构建

手把手教你从零开始使用python编写大型冒险类游戏01之游戏介绍

Geek_8dbdc1

Git命令可视化展示,代码管理再也不愁了,建议收藏!

诸葛小猿

git git merge git rebase git fetch git reset

区块链一新基建 新动能 新发展大会将在南昌举办

CECBC区块链专委会

新基建 区块链技术

源码分析 | Mybatis接口没有实现类为什么可以执行增删改查

小傅哥

Java 源码分析 小傅哥 mybatis

2021年全国大学生计算机系统能力大赛操作系统设计赛 技术报告会

2021年全国大学生计算机系统能力大赛操作系统设计赛 技术报告会

AI在爱奇艺视频内容个性化生产与分发中的运用-InfoQ