在优酷，每天有大量新增短视频产生，经过预处理或基础过滤后，仍有数十万量级的短视频进入视频质量审核链路，更是有海量的存量视频，而每日人工审核资源有限，如何平衡人工成本，高效地审核视频质量，挑出真正“好”的视频并呈现给终端用户。本文，阿里大文娱的技术专家分享了优酷视频质量审核的AI算法实践，希望对各位开发者有所帮助。

背景

短视频信息流产品是目前最炙手可热的互联网产品之一，在短短的两三年时间里呈现井喷式增长。据相关统计，活跃在短视频的用户已然达到6亿，每天有大量新的UGC与PGC视频被生产出来，相对于长视频或OGC视频，短视频的质量参差不齐，智能识别视频质量有助于提高视频生产效率和入仓视频质量，并最终提升用户体验。

在优酷，每天有大量的新增短视频产生，经过预处理或基础过滤后，仍有数十万量级的短视频进入视频质量审核链路，更是有海量的存量视频，而每日人工审核资源是有限的，如何平衡人工成本，高效地审核视频质量，挑出真正“好”的视频并呈现给终端用户。

本文是结合阿里文娱摩酷实验室的实践，对我们用AI进行海量视频筛选与低质视频机器过滤工作进行了总结，希望对视频质量多维评价算法方向有一定启发，提升视频质量审核效率与效果，赋能视频业务。

机器过滤概述

视频审核是一条比较复杂的链路，但基本可以简化为红线审核、机器过滤和人工审核等主要步骤。如下图所示，其中每个步骤都可能涉及到视频安全的审核和视频质量的审核（广义来讲，视频安全也是视频质量的一部分），人工审核过程也可能包含有基于不同业务要求或分类场景下的精细化机器审核等前置流程。

图1: 视频审核链路简化流程

机器过滤通常包含基于规则的基础过滤部分，如：时长、时效、播控状态、清晰度、横竖版等，以及基于AI算法进行视频标题、封面、内容等维度的质量评价的质量过滤部分。本文将着重于机器过滤环节中的视频质量维度过滤部分，也即基于算法进行视频多维度的质量评价，根据各业务场景不同的过滤要求，对增量（送审/建仓）与存量（建仓）视频进行质量维度的低质视频机器过滤，实现人审提效、精品化建仓并形成运营抓手。

如何用AI进行视频质量评价？

视频质量评价通常分为主观质量评价和客观质量评价，主观质量评价需要依靠大量的人力，并需要制定一套详细的统一标准，保证尽可能少的由于人为因素的不确定性对最终视频的评估产生影响；而客观质量评价利用特定的评估模型来自动计算视频质量，可分为三类：全参考、部分参考和无参考质量评价方法。依托优酷智能视频分析平台，我们开发了一套基于优酷短视频数据的质量算法框架，构建了从视频标题、封面和内容多个维度进行评价的质量评估模型，在算法模型的训练和优化的过程中，输入批量的人工主观质量评价的视频数据。

从视频标题、封面和内容几个维度，短视频的主要低质问题包含以下几个方面：

视频标题质量：标题过于简单，字数过少，有特殊符号，含社交信息、敏感词、广告，有错别字，标题党，句子不通顺等；
视频封面质量：构图不佳，主题不突出，模糊，黑边，含logo、二维码，变形，过暗，人体不全，背景杂乱等；
视频内容质量：视频无意义，不清晰，含logo，黑屏、花屏，有广告，音视频不同步等。

基于此，我们构建了基于端到端深度学习模型的视频标题、封面、内容综合质量评估模型，以及标题规则/特征检测、图像基础检测和封面特征识别等多维度的质量分析模型，如下图所示，我们的视频质量服务算法框架主要包含：

基础设施层：计算平台，数据平台，标注平台，算法训练平台等；
算法能力层：图像算法，图像基础检测，文本算法，视频理解算法以及对外提供的算法服务接口等；
业务应用层：视频质量算法的应用场景，主要是服务于视频送审，内容池建仓，产品运营管理等；
数据与反馈系统：对线上业务相关的算法指标进行监控，提供算法Bad Case自动回流与数据分析，为算法模型迭代和优化提供数据输入。

图2: 视频质量算法服务框架

智能视频封面挑选

封面质量评价是视频质量机器过滤中最为直观也非常关键的一个环节，封面也是视频生产与消费过程中极为重要的因素。关于封面质量标准，优酷视觉设计团队提供了数十项客观指标，如人物个数，图像质量，封面特征，标题安全区等。从这些指标出发，我们构建了多模态的图像综合质量评价、封面特征识别与图像基础检测模型。

1. 图像质量模型

我们的图像综合质量评估主要采用了深度学习模型，构建了美学回归模型（偏重美学指标：失焦，三分构图，主题突出，过曝光/过暗等），内容分类模型（侧重⼈物关系、人体等），图像清晰度模型，人脸模型，以及字幕、标题区检测等基于弱监督的多模态模型，最终输出图像综合质量打分。

图3: 图像综合质量评价模型

2. 封面特征识别

根据我们实际抽查和人工审核数据统计，低质封面中含logo、二维码、黑边、蒙版图片等特征的比例比较高，所以对低质封面显著特征的识别是低质封面机器过滤的一个重要的维度。

图4: 低质封面特征示例

为此，我们对这些显著封面低质特征分别构建了独立的兼顾效率与性能的特征识别或检测模型： logo与二维码识别模型，黑边检测模型，蒙版图片识别模型等。通过封面这些低质特征的识别模型，可以快速高精度地识别出一大批低质封面的视频。

3. 图像基础检测

一些图像基础物理统计属性的检测也有助于我们对封面质量的评估，为此我们也构建了图像基础检测模块，检测图像的客观亮度、颜色和分辨率等参数，提供的检测模型有：亮度/对比度检测模型，用于过滤过暗或过曝的低质封面；偏色检测模型，用于过滤偏色严重的比如绿屏等低质封面；分辨率检测，用于判断封面是否分辨率异常、拉伸变形；以及图像色彩检测、分屏检测等。

图5: 图像基础属性检测示例

图像基础检测主要是基于图像物理属性的统计模型，是一种客观评价方法，以此为基础可以过滤掉一些物理属性值异常的低质图像，但由于没有充分考虑人眼视觉特性，因此会造成客观评价结果和实际视觉效果的不一致，容易导致误判，比如图5中的示例4。因此，在特定业务场景下，需要结合其他方法进行判断，达到主客观一致可用。如何基于特定场景和条件有效地使用图像基础检测的客观结果，是一个在实际应用中需要反复讨论与衡量的问题。

优质视频标题过滤

标题文本质量评价是视频质量机器过滤中比较重要的一个环节，与封面类似，也是视频生产与消费过程中比较重要的影响因素。同样，依据产品、运营、审核等业务方提供的标题质量的客观标准，我们构建了基于文本分类的深度学习模型，用于标题文本的综合质量评价，以及基于文本统计特征的标题特征检测模型：

标题综合质量模型：基于文本分类的深度学习融合模型；
标题特征检测：敏感词/关键词检测，社交信息检测，错别字检测，标题语言，标题字数，标题形态检测等。

图6: 标题综合质量评价模型

图7: 典型低质标题示例

视频内容质量分析

视频内容质量评价通常需要结合音画、图像、文本等多个维度的分析进行质量评价，同时需要对视频进行内容理解，包括人物、剧情、情节、有无看点、画质等，这是一项比较困难也是富有挑战的工作。追求大而全的算法模型来解决上述所有内容质量问题，是不现实的；而建立多个细而精的模型，逐步解决多个局部场景的内容质量问题，是一个有潜力和值得探究的实践方向。在工程上，需要建立视频抽帧表示、光流表示、音频表示等多个质量模型对整个视频系列进行分析，对算力资源也有较高需求。

针对业务上主要的视频内容低质问题，我们分别构建了独立的算法模型，包括：视频画质识别（不清晰、模糊等），视频logo（竞品logo等），视频画面异常（黑屏等），音画分析（音质差、不同步等）等。

图8: 视频内容级质量算法建模

上图是典型的视频内容级质量算法建模流程，对原始视频进行抽帧后得到音、画的帧信息，然后基于深度模型分别提取帧级图片RGB特征、视频级RGB特征、时间序列上光流表示、音频特征等，进而根据不同维度特征建立多模态融合的分类/识别模型，综合判断给出内容质量分析结果。

随着业务的深入和发展，内容维度的低质特征也会不断呈现出分布或形式上的变化，所以线上的算法模型需要周期性迭代和更新，根据最新数据进行优化与调整。

应用及结果

如前所述，短视频信息流产品通常在视频质量方面会面临着多方面的挑战：

盘货建仓的挑战：每日新增大量的短视频，而人工审核带宽是有限的；而且存在海量的存量视频，有些场景的内容底仓没有经过人工审核，导致分发给用户的视频质量无法得到保证；
产品运营的挑战：没有形成有效的产品运营抓手，为产品运营同学提供在不同业务场景和标准下，进行质量维度规则选品以及送审过滤；
视频质量算法的挑战：不同的业务场景，需要针对性的设计开发质量算法模型，并不断地根据线上运行情况进行迭代调优；而且需要一套规范的工程化与上线流程。

为了应对这些问题，我们构建了基于优酷智能视频分析平台的质量算法服务框架，目前已经为优酷短视频信息流产品部分场景提供机器过滤服务。我们遵循如下的算法工程化与上线流程，涉及到多个合作团队，其中多个环节可能需要多次反复迭代，才能进入下一个上线环节。

图9: 算法上线与工程化流程

审核提效

我们机器过滤模型上线后，初期经过评测，总体人审得货率提升了5-6个百分点。经过多轮算法迭代与优化后，机滤后视频低质率（错误率）已经由模型上线前15%左右降低到3%以内，误报率也在比较低的水平，起到了较大程度审核提效的作用，结合更多其他封面、标题、内容维度特征识别后，低质率与误报率会进一步降低。

精品化建仓

针对有些短视频分发场，底仓里有大量的视频人工审核无法覆盖，为保证分发视频的基本质量和用户体验，采用机器过滤进行标题、封面、内容维度筛选建仓是必需的一步。

运营抓手

基于对增量、存量视频的各个维度的质量打标结果，我们提供给短视频运营中台从各个维度进行质量过滤的能力，可以在运营中台上通过规则或字段灵活配置，满足不同业务场景对质量标准的不同要求，进行建仓选品或送审过滤，从而形成有效的视频质量上产品运营抓手。

问题与展望

机器过滤算法结果和标签作为一项视频基础信息服务，不仅可以在生产侧链路辅助人工进行提效，而且在视频分发/消费侧链路上可以协同推荐、搜索算法一起更好地赋能视频业务。

机器过滤技术的相关工作还包括：视频内容深度理解，视频自动分类打标，视频安全识别算法，视频精细化机审等等，这些都是我们未来会继续深入的方向。另外，视频质量与安全审核标准也在不断的更新与变化中，不同审核人员对标准理解与执行结果不完全一致，这也是机器过滤技术面临的挑战之一。

参考文献：

[1] NIMA: Neural Image Assessment. Hossein T, Peyman M. arXiv:1709.05424 [cs.CV], 2018.
[2] Convolutional Neural Networks for Sentence Classification. Yoon K, arXiv:1408.5882v2 [cs.CL], 2014.
[3] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm. Bjarke F, Alan M, Anders S, et al. arXiv:1708.00524v2 [stat.ML], 2017.
[4] AVA: A Large-Scale Database for Aesthetic Visual Analysis. Naila M, Luca M, Florent P. IEEE on CVPR, 2012.

作者介绍：

阿里大文娱技术专家董火明为第一作者，阿里大文娱郭晓璐、田天、王晓龙、刘晓宇、陈静涛、叶挺孟亦对本文有贡献。

创作场景

优酷视频机器过滤算法实践