深度解读字节跳动的画质评估工具：抖音也在用~

本文从抖音集团内部画质评估体系的建设历程着笔，主要分享画质评测对于业务的重要性、主要应用场景和内部产品的一些典型实践案例，希望通过分享业务视角遇到的一些问题和解决思路，能够为遇到类似困扰的伙伴提供有价值的参考。

一、画质评估体系建设历程

（一）为何评测画质如此重要？

我们通过线上业务大量实验发现，图片画质优劣对点击率、 停留时长等消费类指标有正相关影响，间接影响用户收益指标。因此，建设一套行之有效的画质评估体系，保障用户的画质体验是非常有必要性的。

直观来讲，画质提升能够为带来更好的观感体验，但 QoE 综合体验也需要考虑其他方面如用户设备、网络状况、观看环境等多方面因素，不计成本地提升画质是否能持续为用户带来 QoE 的收益需要在业务场景中通过严谨的实验方案来验证效果的。

在低质图像打压和基于画质的推荐优化等多项业务中的数据分析积累沉淀，我们获取画质评分与用户主观体验之间的明确关系，数据统计显示用户对不同画质内容的敏感程度有着不同趋势，在中档画质分区间持续提升画质，用户的 QoE 体验也会显著提升，但当画质低于或者高于某个阈值时，用户对于画质将变得不再敏感，提升/降低画质对用户的影响均会降低。

期望中的画质甜点关系，中段区间的画质提升会持续带来 QoE 收益：

实际业务场景中，分析画质与用户平均观看时长的关系，中高画质可以带来持续的看播收益。下图具体描述了两类典型应用场景下，画质评估体系在业务实践中发挥的主要价值：

（二）我们为何自研画质评估体系？

图像服务的最终用户是人类，图像质量评价致力于成为可衡量图像的人眼感知质量需求的客观计算方法。

1、行业现状

主观质量评估：最准确，但费时费力费钱，难以批量应用。例如专家评测、众包测试等。
客观评估算法：省时省力可大规模应用，但无论全参/无参考算法与主观评测均存在一定 GAP，在 UGC 场景，差距会更加明显。

业界常用的有参画质评估算法，主要包括 PSNR、SSIM、VMAF 3 种：

2、痛点

难以量化画质增强效果：行业通用指标（ PSNR、SSIM、VMAF 等）均为有参考画质指标，主要适用于压缩失真的画质评估，难以量化评估画质增强效果。
不适合 UGC 场景的评分：行业通用指标适用场景存在一定局限性，其训练数据集主要为 PGC 内容，在 UGC 场景的泛化效果较差。
评估维度有限：UGC 场景下，图片内容复杂且画质影响因素多样，需要更多维度评估指标用于画质分析和指导优化。

3、我们如何建设画质评估体系？

根据点播、直播和图片等不同形态业务需求，火山引擎多媒体实验室自研的 VQScore 画质体系提供配套最优的全链路画质打分能力，提供异步或实时画质打分数据，为后续转码、增强、推荐策略和大盘监控提供能力支持。

具体画质分析打分能力分为两个部分：

内容分析理解：主要包含 ROI 检测、CG 内容检测、人脸检测、内容分类等基础分类和检测的能力，为后续画质打分和增强转码提供细分的维度拆解能力和关键内容识别能力，实现精细准确的端到端自适应增强转码组合能力
画质打分能力：主要包含通用清晰度打分算法、美学指标、高阶色彩指标、人像画质等评估指标，噪声、块效应、过曝、脏镜头、模糊和伪高清等细分归因指标，以及超分质量、锐化质量和增强组合评估等前处理画质提升能力评估指标，通用+归因+增强多个维度组合，为不同的业务场景的画质优化需求提供集监控、分析、策略推荐等全方位画质打分能力。

通用的画质清晰度评估算法基于多样化多业务场景主观标注样本、开源数据集和多样化失真合成数据集，驱动的轻量 transformer-based 深度学习的方案，在 UGC 视频/图像场景提供更稳定准确的客观清晰度预测能力。

在多种业务场景下，根据点播、直播和图片不同形态业务需求，支持最高 4K 分辨率内不同投稿内容的源画质分析，结合业务属性维度提供深入细化的画质维度分析，为自适应转码提供编码优化对比和不同时间尺度的画质监控，为 AB 实验和版本迭代等业务流程提供有效的 QoE 维度数据，同时也可以为多分辨率/码率档位播放下发提供画质与 QoS 网络、设备等因素组合组合的自适应播放分发优化能力。

（三）抖音画质评估体系有哪些优势？

1、适用范围广泛

高质量且规模庞大的训练数据集，覆盖 PGC 和 UGC 内容，适用范围广泛（特别针对 UGC 场景）。
算法模型历经亿级 DAU 产品持续打磨优化，泛化能力强。

2、评估维度多元

包含主观清晰度、大众美学质量等两类综合指标和噪声、亮度等十余类细分指标，支持更多维度、更细粒度地分析画质问题，便于业务有针对性地进行优化和调整策略。

3、多业务线上验证收益显著

历经抖音、头条、番茄小说等数十个大体量业务线上验证，评估效果可靠，能有效支持业务进行画质体验提升，进而带来用户消费指标提升，收益显著。

4、算法能力业内领先

画质评估体系涉及的算法模型已申请多项专利。eg. 一种检测伪高清视频的方法，一种基于多任务孪生神经网络的高阶视频色彩质量评价模型，一种三明治视频自适应播放方法等。

在 ICME 2021 的「压缩 UGC 视频质量评估」比赛中，火山引擎-多媒体实验室凭借自研的 VQScore 算法斩获无参考视频质量评价（NR-VQA）MOS 赛道第一名。（详细介绍）

该比赛主要针对 UGC 源视频画质和 H.264/AVC 压缩失真对视频主观画质的影响的研究。

二、画质评估主要应用在哪些场景？

以瘦身计划和体重秤之间的关系做个简单类比，画质评估体系作为一套相对客观且行之有效的评测工具，在帮助产品了解业务画质现状、了解行业和市场现状、监测线上画质变化和支持提升用户体验等方面都有非常广泛的应用。

了解业务画质现状

业务团队可以借助 veImageX 提供的画质评估工具，通过离线测评和在线评估等手段高效完成业务产品的画质摸底；同时，画质评估体系包含丰富的评测维度（例如噪声强度、色彩质量、块效应检测、过曝光检测等），数十项细分评测指标可高效帮助业务团队完成低质图像归因分析，快速锁定问题所在。

了解行业/市场现状

借助画质评估工具，可以帮助业务团队对市场主流产品或同类业务进行画质评测，以便制定合理的画质提升目标；同时，综合用户主观评测和客观指标的对应关系，高效帮助业务团队确定适合自身业务的画质评估标准。

监测线上画质变化

对于一款关注用户画质体验的产品来说，线上画质监测工具必不可少。而 veImageX 提供端到端的画质指标监测工具，可帮助业务团队长期高效监测线上画质变化；通过前后数据对比分析，帮助业务有效验证画质优化举措的效果；同时，线上低质问题告警也可帮助业务团队及时发现问题，保障线上用户浏览体验。

支持提升用户体验

借助画质评估体系提供的评测结果，业务团队可以通过对低质图片进行搜索/推荐降权等方式打压低质内容，或借助画质增强能力提升画质，有效提升用户的浏览体验，进而带来点击率、人均阅读/消费时长、用户留存等业务指标正向提升。

三、典型案例实践分享

目前，由火山引擎 veImageX 提供的画质评估工具已服务于抖音、头条、西瓜、番茄小说、懂车帝等数十条业务线，在保障用户的画质体验方面发挥着重要作用。接下来，我们选取了几个典型案例为大家简要分享我们的实践经验。

（一）某短视频/社区平台

需求背景

某短视频/社区平台的主要用户分布在多个国家和地区，发布内容覆盖多个细分垂类。业务团队收到部分用户反馈关注到不同国家和内容垂类间的画质存在一定差异，影响了用户的浏览体验，从而设立专项进行问题解决。

实践方案

业务团队首先使用画质评估工具对全地区的图片画质进行了离线摸底分析，发现部分国家间、某些重点垂类间的图片画质有较大差异，故使用自适应增强模型，针对性进行画质提升的同时尽可能节省码率。

整体收益

优化后，该平台各地区间、重点垂类间的画质基本拉齐且均达到【良好】及以上水平，图片大小显著降低，人均停留时长、人均互动、人均阅读时长、人均 session 次数等消费指标均显著正向。

（二）番茄小说

需求背景

相比于网文，漫画的书封更加精美，信息量也更多，因此在产品形态上，番茄小说频道采用了大屏的展现形式。然而，在漫画功能上线后，业务团队发现，有部分漫画的原始书封比较模糊，严重影响用户浏览体验。如下图所示：

为了提升这部分图片的画质，业务团队想到了通过画质评估筛查低质图片，使用画质增强能力搭建自动化处理流程，针对性处理低质图片，得到高清图，以提升整体观感。

实践方案

业务团队使用 veImageX 画质评估工具，针对出版物（如小说封面、插图、电子书书封、有声播放器封面等） 和漫画（漫画封面、横图等） 等场景进行离线画质测评，对不同分辨率图片进行画质摸底。根据对低质原因的分析和增强算法对主观画质提升的收益大小综合评估，明确差异化的处理方案。最终业务团队选择搭建自动化处理流程，根据评估结果对不同画质等级的图片进行如自适应增强、超分等优化处理，针对性提升用户的画质浏览体验。

低质图片优化前后对比如下：

整体收益

番茄小说团队借助 veImageX 画质评估和画质增强能力，有的放矢的提升画质，有效提升了用户画质体验和点击率、人均阅读/消费时长、留存等用户消费指标。

（三）今日头条

需求背景

头条小视频频道主要以双列展示为主，而双列流频道展现形式又以封面图为主。综合线上实验结果和实践经验发现，封面图的画质质量不仅会影响用户浏览体验，也会影响点击转化率和用户留存等业务指标，如何有效识别封面模糊的内容并进行打压调控成为一项较为棘手的工作。

实践方案

借助画质评估工具，业务团队对封面图进行画质打分，高效识别出低质封面（blockiness≥ X 且 vqscore< Y）并实行打压调控策略；同时将 vqscore 纳入推荐模型的参考指标，给优质内容提供更多优先曝光机会。

整体收益

业务团队通过对低质封面图进行打压调控，人工评估封面优质率提升约 3 倍，封面低质率降低了约 36.7% ，模糊封面图占比降低了约 51.4% ，人均阅读数、 停留时长 、点击转化率等业务指标也得到显著提升。（数据来自业务 AB 实验）

（四）幸福里 VR

需求背景

幸福里房产 VR 能力在建设初期，因素材供给来源多样且渠道纷杂，质量良莠不齐，频繁收到线上用户反馈；图像质量把控主要依靠人工审核、定期抽检和线上反馈，不仅耗费人力且评估主观，对全景图缺乏有区分度的数据指标量化衡量图像质量和行业领先水平的差距，导致业务团队难以高效定位画质问题并针对性的改善和评估优化效果。

实践方案

通过对线上样本数据进行离线画质摸底并综合算法专家建议，业务团队最终选定清晰度 （ VQScore ）、噪声（Noise）、亮度（Brightness）、过曝光（Overexporsure） 等四项指标作为全景图量化评估指标。评估发现精装、简装、毛坯等三种装修类型存在显著画质差异，关键差异与环境光线、灯光照明等因素有较高关联，业务团队针对性进行迭代优化并监测画质指标变化，显著提升了 VR 看房效果。

整体收益

业务团队通过画质评估工具，定位具体的画质问题，针对性进行迭代优化以缩小和行业领先水平的差距；同时借助 veImageX 提供的 VR 画质增强能力，显著提升全景图画质，阶段性实现用户 0 客诉，弥补了前端采集设备质量参差等问题。

创作场景

深度解读字节跳动的画质评估工具：抖音也在用~

一、画质评估体系建设历程

（一）为何评测画质如此重要？

（二）我们为何自研画质评估体系？

1、行业现状

2、痛点

3、我们如何建设画质评估体系？

（三）抖音画质评估体系有哪些优势？

1、适用范围广泛

2、评估维度多元

3、多业务线上验证收益显著

4、算法能力业内领先

二、画质评估主要应用在哪些场景？

三、典型案例实践分享

（一）某短视频/社区平台

需求背景

实践方案

整体收益

（二）番茄小说

需求背景

实践方案

整体收益

（三）今日头条

需求背景

实践方案

整体收益

（四）幸福里 VR

需求背景

实践方案

整体收益