互联网的迅速发展,提高了用户获取多样化信息的能力,根据《 2019 中国网络视听发展研究报告》显示:截至 2018 年底,我国网络视频用户规模达 7.25 亿,占总体网民的 87.5% 。视频已成为触达用户的主流媒介,网络视频行业的壮大已成为必然。如何在最小的带宽消耗下,最大幅度提升用户观看体验,成为了视频应用商首要考虑的问题。
七牛云深耕互联网行业 8 年,针对网络视频行业推出了锐智高清转码服务,融合感知编码、深度学习、图像处理、画质增强等技术,为点播、直播提供更智能的转码服务,也可以为存量视频做二次瘦身。
在体验方面,能够在低带宽条件下为用户提供高质量的视觉效果,画面更细腻、更美观。
在成本方面,可以节省超过 40% 的视频码率,极大降低客户的传输带宽和视频存储成本。
关键技术解密
智能场景分类
不同场景可以适配更佳的算法提升压缩和画质效果。针对视频场景和复杂度进行两层分类,场景上包含:影视、教育、交通、体育、秀场等 10 多个类型;在部分场景上,会进一步做复杂度的分级。通过深度学习大量训练,目前 CNN 网络模型的准确度达到 95% 以上。
场景分类为自适应算法策略奠定基础,对于不同场景,适配的算法类别包括:
编码压缩算法和工具的组合
前处理算法类别和参数
ROI 感兴趣区域的算法
客观质量评价工具 VMAF 的较准
Per-Title 参数的选取
锐智高清的智能自适应目标是在不同场景下匹配最优的算法,追求最佳的收益效果。以在线教育场景为例,屏幕录制为视频主要内容,针对屏幕内容采用特定算法可取得有效的针对性提升;而在秀场场景上,算法会更倾向于人脸和细节上的优化;再到体育场景,运动目标检测和去运动模糊是主要关注点。
锐智高清智能自适应场景视频处理
Per-Title 编码技术
根据视频内容自适应码率以及自适应分辨率。在 Per-Title 技术出现之前,视频服务提供商通常会使用一个事先确定好的通用的编码配置来处理几乎所有的视频内容。一方面存在浪费,另一方面也不能始终给用户最佳体验。相比于传统的编码方案,Per-Title 编码技术更加注重不同类型视频之间的区分度,为每一个视频或视频片段找出满足清晰度和主观敏感度要求的最低码率点,以达到节省带宽的目的。除了根据内容自适应码率,Per-Title 技术还包括自适应分辨率。
图片来源:Netflix
如图所示,对于同一视频源,采用三个分辨率,以及不同的码率编码。在各个分辨率下,编码质量随着码率的增加而单调上升。当码率达到一定阈值后,曲线开始变得平缓,这时需要通过提升分辨率才能进一步提升质量。
通过大量实战,锐智高清转码建立起的智能码控决策模型,对不同类型、相同类型不同片源、相同片源不同片段,应用完全不一样的编码参数,并且可以按帧级智能调优。锐智高清使用时可以让用户设置一个上限码率,码控模型将 bits 有效分配到最有价值的地方,在保障画质下尽可能输出最低码率。
锐智高清秀场场景,画质相当节省码率 66%
AI 视频前处理
AI 视频前处理是提升画质的关键所在。由多个算法模块组成,每个模块负责某种画质增强的方向,包括:去编码脏效应、去噪、去毛刺、锐化、对比度增强、饱和度增强、去模糊等,各模块自适应调整强度,协同作用。
AI 视频前处理除了提升主观画质以外,其作用效果并非完全与视频编码解耦。比如在增强人眼易关注纹理的同时,弱化人眼不易察觉的信息,以期达到节省编码码率的目的。值得一提的是,所有的前处理 AI 算法,我们经过大量的调优打磨来平衡计算资源的消耗。
锐智高清-AI 前处理对画质大幅提升
ROI 与码字分配
ROI 感兴趣区域识别,以及更合理的码字分配,重点考虑了以下几个方面:
人脸
人脸大概率是主观敏感区域。准确定位人脸,做针对性地画质调优以及编码参数调优。智能转码系统支持标准版和超低复杂度版本人脸检测,其中超低复杂度版本处理 1080P 视频在 2ms 每帧以内。
人眼聚焦区域、前景重点区域
智能转码系统支持标准版和超低复杂度版人眼聚焦区域检测。
标准版聚焦区域检测:采用眼动仪训练样本,有效定位人眼聚集区域。
超低复杂度版聚焦区域检测:1080P 视频单核运算时间在 1ms 每帧以内,复杂度基本忽略不计。
各个块的主观敏感度
X264 默认的自适应量化(AQ),仅仅依据方差大小作为评判依据,对方差大的块施以更大的量化因子。方差大小的鲁棒性不足,甚至都不能很好地判断平滑程度。如图示例的一维信号,左图的方差比右图更大,事实上左图是比较平滑的。
图片来源:Fan Zhang, etc. Limitation and Challenges of Image Quality Measurement. SPIE 2010
以 RaceHorses 为例,第一行宏块,正好绿色草丛背景块的方差比较小,而涵盖了帽子、人脸、人眼的宏块方差比较大,导致主观敏感的人脸/人眼被施加了较大的 delta QP。智能转码系统区分了易被人眼关注的规则纹理,加以保护,在其他编码条件相同的条件下,取得明显改善。
质量评价体系
锐智高清转码后的画质评定,主要参考 Vmaf 客观指标以及 MOS 主观打分,为画质质量保驾护航,并为算法指导可持续的优化迭代。
锐智高清,主观+客观质量评定
以下是基于 JCTVC 标准测试序列,以客观 Vmaf 参考指标的 RD 曲线对比:
锐智高清与 X264 的 RD 曲线对比
MOS 主观打分作为 AI 画质优化算法迭代的主要指导指标,比如秀场场景的锐化算法优化,人脸边缘以及头发的细节从主观上可以看到改善效果,但从 Vmaf 数据上不一定有明显的变化。MOS 采用 5 分制,打分的参考特征包含:块效应、噪点、毛刺、边缘纹理、对比度等,为此研发的 MOS 打分平台可以支持 20 人同步评测,极大提升效率。
本文转载自公众号七牛云(ID:qiniutek)。
原文链接:
https://mp.weixin.qq.com/s/LLWLDE_9jhY6GqRMHl9qaw
评论