AI 技术在娱乐行业应用的新闻已经屡见不鲜，与视频结合的领域也是近年来的热点方向。作为视频平台，爱奇艺一直致力于人工智能与视频、娱乐产业的结合，并陆续推出了针对内容创作、用户推荐等方面的智能产品。在互动视频等新方向出现之后，爱奇艺也踏上了追赶新技术的浪潮，接连推出了优质的互动视频。

为了进一步探秘爱奇艺在“AI+娱乐”方向的进展，InfoQ对爱奇艺副总裁谢丹铭进行了独家专访。

InfoQ：AI与视频的结合已经不算新鲜，但是面对行业的竞争压力，如何做出区分度还是十分重要的，首先我们希望请您介绍一下爱奇艺在AI领域布局的概况，在您看来，爱奇艺在与AI结合的探索中最大的优势是什么？有哪些技术是比较有代表性的？

谢丹铭：爱奇艺在AI方面的战略布局主要是AI+娱乐，重点在内容、用户和合作方三个方面进行AI的输出，目前比较有代表性的技术主要有：ZoomAI智能增强技术（以下简称ZoomAI）、人脸识别、台词分析、精彩度&美学分析、虚拟形象等。具体来说：

在内容方面，在筹备内容的前期，通过NLP技术分析文学、剧本的内容、挖掘有潜在价值的IP；利用CV、大数据等技术辅助导演选角，制片方与海量艺人数据进行高效精准的 AI 匹配，提高娱乐生态的运转效率；在内容制作后期，通过画面、语音识别等 AI 技术，实现视频内容的精准剪辑和加工；在内容播放环节，通过AI 的人脸识别、物体识别、OCR及ZoomAI等技术，提升画面质量，为内容提供更多周边附加信息，提升用户的观看体验。
在理解用户方面，爱奇艺通过知识图谱与深度学习等 AI 技术，优化了用户视频推荐模型。这些功能中的推荐算法并非传统的标签匹配，而是通过识别视频中的人和内容，让观众可以快速找到相关内容。
在合作方方面，爱奇艺为广告主提供创可贴广告，Video-In、智能前情提要、智能跳过、智能中插等多种形式的广告，在为用户提供优质体验的同时，提高广告主的变现效率。

InfoQ：作为一家视频网站，内容创作是非常重要的部分，能否请您介绍下在内容创作上，人工智能发挥了哪些作用？

谢丹铭：内容是视频网站的核心竞争力，除了版权采购之外，内容原创和掌握IP是视频网站的重要战略。为此，爱奇艺在基于AI的内容创作上做了大量的布局，使得爱奇艺在内容创作上达到了出精品、降成本、提人效、扩产出的目标。

（1）出精品

对于长视频的制作，爱奇艺的爱创媒资系统可以在多机位合版、精准镜头搜索、自动唱词等方面提供智能高效的帮助。比如精准镜头搜索，一档大型综艺节目的录制和制作时间是非常紧张的，如何根据导演的思路快速、精准地找到合适的镜头，是非常困难的事情，以往要花费数十分钟甚至数小时才能找到的镜头，爱奇艺依托AI技术，可以通过人脸、表情、动作、声纹等识别，以秒级的速度就能搜索到导演脑海中的镜头，从而帮助导演和编导们制作出精品。

对于短视频的制作，爱奇艺的智能创系统可以分析过往的影片，根据明星、剧情、体育、新闻等不同角度进行拆分和形成素材，并打上各种多维度标签，方便编辑人员进行宣发和热点短视频的制作。

（2）降成本

AI可以有效地降低很多制作环节的成本。比如爱奇艺基于AI技术开发了多语种的字幕翻译系统，有效地支持了爱奇艺的海外拓展，基于AI的翻译成本不到人工翻译的万分之三，极大地降低了内容的生产成本；同时在开发针对动漫领域的创作系统，动漫内容创作中有大量的重复性人工劳动（比如颜色校对、逐帧上色等），这部分工作不但费时而且费用不菲，将耗时费力的重复性工作交给AI来完成，既提高了产出又降低了成本；

（3）提人效

AI在内容创作上可以有效地辅助人工，提高人效。爱奇艺自有的内容编辑系统–乐高采用了大量的AI技术。

以新闻类短视频生产为例，这类短视频必须讲究时效性，必须在电视新闻播出后极短时间内完成拆分和分发，才能获得较大的播放量，如果由纯人工来做则需要大量的人力来支持，我们的编辑系统采用了AI技术，可去除广告、检测片段点位、识别标题、内容分类、去重等，基于音频相似性的智能合板技术，将后期制作中的合板时间从天级别做到了分钟级别；

（4）扩产出

爱奇艺也基于实际的应用场景，在不同的垂类布局了基于AI的内容创作技术，有效地提高了内容产出。我们开发了针对体育场景的SportsWorks，利用AI来对各种体育赛事进行深度理解，可在直播过程中快速高效地生产出大量不同类型的集锦视频，有效地扩充了优质内容；ZoomAI采用超分辨、插帧等AI技术，大量高效地将低分辨率、低帧率的内容制作成1080p，4K的优质内容，有效地提高了用户体验；

AI的发展可以将脑力负担转化为机器运算负担，机器运算负担相对人力负担来讲更加容易解决，相信随着爱奇艺AI的不断发展，将更好地赋能内容创作。

InfoQ：从用户角度来说，内容的搜索推荐至关重要，爱奇艺在搜索推荐系统上进行了哪些优化？是否有数据或者案例来说明优化的效果？

谢丹铭：

主要有如下两个方面：

标签化搜索：搜索中有很多时候用户不是找具体某个视频，而是某种类型的视频，如“剿匪电视剧”、“爱情电影”等，这种单独做文本的匹配是不合理的，我们会通过NLP语义理解识别出用户背后的真实意图，然后通过相应的标签召回结果。这些标签既有视频标题简介中提取出来的标签，也有通过知识图谱技术扩展出来的相关联的标签，还有更多的是通过对于视频的画面内容、音频等内容进行理解，获得的更详细的内容标签，从而丰富整个搜索推荐的体系。
基于视频内容理解的搜索方式（支持站内有版权视频）：除了在传统的文本搜索方面，不断研发新技术提升用户体验外，爱奇艺还在视频内容搜索的领域进行了很多创新的尝试。我们通过对于视频中内嵌字幕的识别以及索引，提供了台词搜剧功能，赋能用户对于视频中的经典台词内容进行搜索，我们也提供了对于影视剧的以图搜剧功能，当用户看到感兴趣的视频画面的时候，无需知道这个场景属于哪个视频的哪个时间位置，只需提供视频截图就可以实现，感兴趣视频点位的快速搜索和定位。

在内容推荐方面，除了传统的推荐模型上的持续迭代外，我们还在内容组织和呈现维度上做了创新：

内容组织：结合之前的搜索策略，爱奇艺通过大量用户行为日志机型分析，发现用户对题材相似的正片内容有较强的偏好，如搜索“我的兄弟叫顺溜”，会有很多用户点击观看“我的团长我的团”、“士兵突击”的剧，对此我们根据用户的行为和知识图谱，去挖掘文本不匹配但内容题材上用户喜欢的内容，上线了相关视频的产品样式，在搜索结果页精确匹配结果之后展现这些内容。这个样式上线后，消费指标提升明显。我们按照内容的演员，题材等特点把长视频内容组织成一些集合，通过个性化的方式进行流式分发（形式如下），让没有明确观影目的的用户有逛起来的意愿，在电影频道页这种形式的推荐能够达到40%以上uctr。
内容呈现：我们尝试了个性化的海报图，对同一内容生产不同的海报，通过算法进行分发。从海报的维度来看，我们自动化生成的海报的点击率可以相比于默认海报翻倍，算法会根据用户反馈选出适合他们的海报。使用个性化海报图后，内容的点击率平均而言可以提高25-80%左右。在排序算法方面，我们在个性化推荐中引入深度学习模型排序算法，在实际的场景中实验，相对于浅层模型点击率指标得到了明显提高，可以提高8%左右。

InfoQ：在AI+视频结合的过程中，多模态一直是备受关注的技术，甚至有观点认为：多模态理解做不到位注定要掉队。能否请您谈谈爱奇艺目前在多模态技术上的探索？在您看来，目前该技术还有哪些短板需要补齐？爱奇艺在多模态领域未来的规划是怎样的？

谢丹铭：爱奇艺很早就开始了在多模态技术上的探索。

从2016年开始，爱奇艺在多模态上有了实质性的研究成果，比如在EmotioW2016国际情感识别竞赛上取得了第一名。

爱奇艺已经成功把诸多研究成果，转化为实际生产力。

爱奇艺的智能制作爱创媒资系统，就综合运用了人脸识别、说话人识别等多种模态技术，比如视频说话人身份识别成功实现了“谁说了什么话”的精准定位，就使用了人脸、台词、声纹来精确判断哪句台词是谁说的，这是视频理解当中的一个最核心问题。

在AIWorks智能创作系统中也采用了多模态技术，比如视频中的表情包的自动提取及配文案，小视频创作中的自动配乐、音乐卡点、画面风格匹配等，以及明星精彩片段自动切分等，来实现明星的视频混剪，都取得了非常好的效果。

多模态身份识别面临的难点在于各种模态的原始分析结果参差不齐。比如人脸模糊、背景声干扰等场景经常出现。如何充分挖掘有效的信息、去除噪声干扰，是多模态身份识别成功的关键。另外，由于涉及到多种底层算法，如何对他们进行有效的整合，提高整体运行效率，也是工程应用上必须解决的问题。

InfoQ：Netflix曾推出过一集互动版《黑镜》，自那以后互动视频似乎成为了全球视频网站探索的新风向，能否谈谈爱奇艺在互动视频领域的布局？这其中是否有AI技术的加持？在主流视频网站都开始尝试的情况下，爱奇艺如何做出特色？

谢丹铭：互动视频确实是视频网站的一个探索热点。

爱奇艺在做的不仅是互动内容本身，核心是通过标准和工具降低创作门槛，提升用户体验的标准化能力。为了能够加速互动视频的普及，爱奇艺推出了《互动视频标准》（IVG）和协助互动视频生产的互动视频平台（IVP），帮助广大内容创作者更容易的创作互动视频。此后，对外发布IVP互动视频制作插件（IVP插件），这是业界首个直接与非线性编辑软件深度融合的互动视频制作工具。IVP插件与视频剪辑流程深度结合，支持创作者直接在非编软件中创建、编辑、预览和导出互动视频，实现“零门槛”编辑互动视频。在观看端，我们还推出了跨平台的互动视频引擎（IVE），使我们的观众在手机、PC端都有良好的观影体验。

如何让互动发挥更大价值，爱奇艺发布了《互动视频广告白皮书》，规范并提供互动视频广告创作指南，旨在帮助品牌方打造更强沉浸感、参与感的互动视频广告。目前，爱奇艺已经开创性地将互动视频标准应用在影视创作、竖短片、电影预告片、综艺、广告产品等多种内容形态中。

互动视频带给创作者的一个巨大的挑战，视频拍摄和后期制作的工作量和成本随着分支环节的增加而成倍增加。爱奇艺有爱创媒资系统的加持，能够在后期制作环节显著的降低剪辑师的工作量，提升内容创作的质量和速度。比如利用废片识别算法可以在分钟级别的时间里，把无用的素材识别出来，节省剪辑师的时间。素材检索功能，可以帮助剪辑师快速检索到角色的特定镜头、表情、动作等素材，将原来通常几小时的工作降低到分钟级。此外通过对用户的行为进行分析，可以更好的为用户推荐情节，增加互动的趣味性。

InfoQ：您曾经说过：“AI会成为视频行业的壁垒，随着壁垒的增大，用户的马太效应会越发明显。”这句话应该如何理解？是否代表积累较少的后来者很难有机会再寻求突破？

谢丹铭：这里的壁垒更多指的是技术发展的马太效应，是针对AI在视频行业应用的整体情况而言，而不是单指某个具体方向的技术壁垒。因为AI的发展还有很大空间，所以各种技术都还在不断突破。但在视频行业这样的工业界，作为后来者要提供面向行业的AI解决方案，或者做AI驱动的大众视频服务，确实会面临更大挑战。

因为从工业界来看，AI的发展是一个“多维滚雪球”模式，即算法、业务、数据、资源、人才这几个方面，互为推动。一开始可能是几个人拿公开数据集做个简单算法，找个简单业务部署几台服务器就上线。一旦上线，会获得更多数据，从而获得更好的算法效果，并落地到更多业务场景，自然也会增加资源并吸引人才。这是一个正反馈过程，而像爱奇艺这样的几家大型视频公司，很早就开始重视AI并大力投入，经过多年实践积累，确实也形成了一定行业壁垒。当然，对于后来者，只要找到某些具体的方向发力，凸显垂直领域的AI技术或应用优势，也还有很多可挖掘的空间。

InfoQ：随着5G成为热度越来越高的话题，AI+5G也成为了不少技术公司的目标，在您看来，5G与AI能够给彼此带来哪些突破？对于视频领域，这两者的结合又可以创造出什么样的亮点？

谢丹铭：5G相比4G在许多方面都有非常大的改进：带宽大幅提升、延时大大压缩、设备连接数密度大幅增加等等。5G的带宽可达Gbit/s，4K甚至8K清晰度的视频将逐步在移动端推广开。爱奇艺提供的ZoomAI就有提升视频分辨率至4K以上的能力，5G的到来将使爱奇艺的用户可以无拘无束地在各种场合下体验到ZoomAI带来的高清逼真的视频体验。

目前AI可用于进行各种虚拟形象虚拟内容的生产，比如爱奇艺就开发了许多的虚拟偶像、虚拟主播等虚拟形象。5G时代下，远程服务器生产的内容几乎可以以零延时方式呈现在用户眼前。这将大大推进用户对虚拟视频，尤其是对AI生产的交互性的虚拟视频的需求得到极大提升。

InfoQ：在您看来，AI+视频的发展目前还存在哪些问题需要解决？爱奇艺在这些问题上是否有合适的解决方案或者探索方向？

谢丹铭：AI+视频，目前全行业都仍处于探索初期，AI能实现的价值、要解决的问题非常多。从视频行业看，可以将全链条简单提取出几块核心环节：创作，分发和变现。每个环节，都可以提出极具挑战性的AI目标。比如：AI是否可以自动化生成创意或内容？AI是否能让用户看到当前最合适的内容？AI如何极大提升视频场景的商业化效率？

在每个环节，爱奇艺都在积极探索，并且已经有一定应用。面向上述几大问题，爱奇艺仍在持续探索，不断落地和升级AI应用，让AI在行业中发挥越发重要的作用。

采访嘉宾简介：

谢丹铭，爱奇艺副总裁。毕业于复旦大学，曾任职英特尔并在 P2P 网络、人机交互、视觉计算等方面主导了诸多创新工作，拥有多年的一线技术研发和大型团队管理经验，在人工智能，云计算，安全和创新等领域有深入的研究，就职于爱奇艺后主要聚焦于AI，云服务和创新应用孵化。

创作场景

“AI+ 视频”落地实践探索，爱奇艺的经验有何值得借鉴之处？