HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

5G 超高清关键技术:高帧率重置、高动态渲染、云加端增强

  • 2020-04-30
  • 本文字数:4273 字

    阅读完需:约 14 分钟

5G超高清关键技术:高帧率重置、高动态渲染、云加端增强

随着 5G 落地,用户对视频体验的要求越来越高。当带宽不再是超高清的主要矛盾之后,超高清还存在哪些挑战?我们距离全面超高清还有多远?阿里文娱一直在做相关技术的预研,并在 2019 年底推出了互联网视频行业超高清解决方案——帧享。那么,帧享是什么、有哪些关键技术、未来有哪些发展方向?且看阿里文娱高级算法专家 张行在 GMIC Live 2020 智慧文娱技术专场中的相关分享。

帧享是什么?

帧享是一个超高清的解决方案,从 2B 到 2C 的视角,帧享具备 4 个技术能力:


  • 一是高帧率增强,可提供最高 120 帧的超高帧率视频,顺滑地呈现物体运动场景;

  • 二是超高分辨率,对于画面中微小的细节与结构,在帧享的视频中也能刻画得非常清楚;

  • 三是 HDR 高动态渲染,画面对比更丰富,颜色鲜活有质感;

  • 四是帧享环绕音效,我们利用声道间的相位差异,充分体现声音的立体感和空间感。


前三个方向的特性分别体现了帧享对于时间、空间、亮度、色度的超高分辨与呈现能力,第四点是声音特性和声场效果,这四点组合起来,既是帧享能给用户提供的关键特性,也涵盖了观众对于超高清的诉求。



要真正将帧享落地,需要深入到视频制播产业的各个环节中,从左到右有 5 个关键词:拍摄、制作、生产、传输和呈现,这五个环节环环相扣,每一步都与最终视频的呈现质量息息相关。我们首先要保证每一步都能够正确地处理,尽可能采集和保留更多内容信息;其次是挖掘链路上各环节的处理能力,利用我们在制作、生产和呈现上的人力和算力,进行信息的重建和增强,提升视频体验。


具体来讲,在拍摄和制作环节,我们会给出明确的超高清视频的要求规范;在制作环节,开放云剪辑能力,为后期的剪辑提质提效;在介质环节,做严格品控,保证介质内容的基础质量。在生产环节,减少转码的损失,利用我们平台的计算能力进行恢复和重置增强,同时对视频进行结构化分析,拿到视频的各种分类、场景、标签等高低层的语义信息,将其与码流一起传输到终端设备上,并进行适配的后处理增强和渲染。这种适配包括对内容、设备和用户偏好的适配等,确保最终的体验和效果。

帧享的关键技术:高帧率重置、高动态渲染、云加端增强

1. 高帧率重制

从视频中可以明显看出,低帧率的竖线运动时一直在颤动,而高帧率的运动就很平滑。 为什么低帧率会抖动?



如上图,x 轴表示时间,y 轴表示位移,物体的匀速运动在坐标系中是一条斜线,如图中有箭头标记的蓝线。而实际的物体位置在这条蓝线之上。由于低帧率的刷新率是有限的,物体的实际位置在一帧内是固定的,到下一帧会跳跃到另一个位置,就像上台阶一样。人的眼睛会天然的跟踪运动的物体,也会根据当前位置和运动速度,去推测物体的下一个位置,如图中绿星星所标记的。我们看到物体的实际位置和物体的预测位置一直不重合,且预测位置一直在实际位置的上下抖动,非常伤害观看体验。


高帧率重置,在算法上就是插帧。插帧技术已经存在很久了,方法大概分成两类,一类是基于特征的传统方法;另一类是基于数据的网络方法。两者思路是一致的,根据像素的帧间相关性去推算光流,再做插值。


在传统算法中,先根据多帧的视频图像去做光流,预测出前后向光流,来映射到需要插帧的相位上。这时候就需要考虑很多特征,比如到底是用前向光流还是后向光流、用双向光流还是单向光流,哪些地方是露出遮挡区域等,根据这些去做插值重建,得到高帧率视频,这是一种完全基于运动特性的传统方法。


网络方法非常类似,只是将光流的预测还有像素的差值都用网络来实现,还有一些网络方法可能更极端,它会把光流网络和插值网络合二为一,直接用一个端到端的数据训练,得到一个插帧网络。但无论是传统还是网络办法,在插帧中有一个难以解决的问题——在一些运动的交界处,光流很难严格贴合物体的实际边缘,这样会导致各种各样的问题。


优酷是如何优化的?


首先是基于成熟的插值算法,将各点效果做到极致,在实际场景中有效解决问题;其次是拆解问题,尝试把通用的插帧问题,分层分类成不同的垂类,用不同的插帧方法来解决,实现整体最优。



1)场景分类。在时间上做分类,将时间轴上的一个视频按照场景切开,分成了多个场景,把不同场景分成全局运动场景、静止场景、复杂运动场景、片头片尾等。


2)目标的分割。在空间维度将图像分成多个目标区域,例如台标角标的区域、字幕区域、前景背景、露出遮挡的区域。


3)垂类场景的插帧完成后,再经过一些柔性的融合得到最终的插帧结果。


4)人工校对。无论用多么精巧的办法、算法,总会有一些疑难的 case,是技术无法处理的,所以在设计算法时,会自动对疑难 case 进行标记。在审核后台,这些标记区域进行人工审核,对于有问题的插帧结果进行回退处理。



上图是对比图,左侧上方飞掉的字幕,通过对字幕区域的特殊处理以后,已经能够正常做插帧了。右侧,将运动光流进行精细化,让光流更贴合运动的前景轮廓,有效去除在运动物体周报的光圈效应。

2. 高动态的渲染


高动态渲染其实就是 HDR。上图是对比图,左侧是 SDR 效果(画面偏灰,看不清细节);右侧是 HDR 效果,画面很美,点点繁星和山势的暗部细节轮廓都非常清楚。


HDR 是一个成熟概念,行业中有各种各样的 HDR 标准。我们如何区别中间的差异,并选择一个好的 HDR 算法?HDR 解决的是一个从高动态到低动态,从宽色域到色域的映射效果问题。自然景物能够呈现出的亮度范围是非常高动态的,从 1/万 nit 到 1 万 nit 以上都有。但显示设备能够呈现的亮度范围是低动态的,大部分只有几百 nit,而低亮也不够低。要把自然景物呈现到显示器上,就面临着一个从高动态到低动态的映射问题。所以,HDR 的关键不是 8ibt 还是 10bit,也不是 4k 或者 1080,而是去理解内容和设备,确定在什么设备什么环境下,用什么样的映射去渲染内容,达到主观效果的最优。



上图,左侧是亮度从高到低映射,右侧是色彩映射,需要把马蹄形的大的宽色域映射到内部小三角形上面的窄色域。


帧享 HDR 在技术上做了哪些改进?


  • 一是测屏校屏,帧享要做标准的颜色管理,需要将不同颜色做到在不同设备做到显示效果一致,用来排除屏幕的颜色偏移,把颜色做的更加准确。

  • 二是屏幕亮度和色度适配,不同设备的亮度差异非常大,从两三百尼特到上千尼特,我们的测试也发现,即使用标准的 HDR 视频,在不同亮度的设备上面的效果也存在差异。 所以帧享 HDR 采用了多种的流策略,对于超过 500 尼特的屏幕,输出标准 HDR 流;对于低亮屏幕,基于亮度去适配调整出独特的 SDR 流;

  • 三是内容适配。每一个场景的内容,很少是满动态或宽动态,有的场景整体很亮,有的场景整体很黑,这时我们可以取巧一点,将内容所在的部分亮度范围做更好的映射,然后在其他亮度范围,将映射做的差一些,这就是根据内容来做动态映射的一个出发点。帧享的 HDR 也是基于这一特性,用动态元数据,根据场景做动态的 tone mapping。

  • 四是做链路的把控,后期、平台以及端上渲染,都可以做这种映射,但不能各自为战,需要信息互通、互相协同,用统一的映射将效果做到最佳。


下图是 HDR 对比图。



第 1 幅是颜色准确性、渲染颜色准确性的对比。右下角是优酷在苹果上的播放效果显示,其他三张都是同一个安卓手机的不同 APP 的显示效果。因为屏幕本身是有些偏色的,所以可以看到友商两幅图的效果,人脸比较红润,就会红的不太正常。 但是优酷,人的脸色比较正常,更像苹果的颜色显示,所以对比就能说明在我们优酷通过测屏校屏,能够去纠正错误的颜色渲染,然后得到更好的颜色效果。



上幅图是帧享 HDR 的对比图,左侧是 HDR 前(画面颜色整体偏亮,对比小、画面偏灰偏白);右侧是 Tone mapping 后的 HDR 效果,动态 TM 后,扩大对比度,提升了画面质感。

3. 云加端增强

以前,我们常遇到这些问题:为什么视频流很好,到电视上却效果不佳?每个设备的效果不一致,如何兼顾?如果知道内容特性,算法参数可以设置得更好,但实际上我们无法知晓内容特性,所以效果只能打折。以上都反映了一个共同问题,体验是整条链路的体验,必须将云和端协同起来,一起为体验负责。


云和端如何做协同?


云上,在编码前做前处理;端上,在解码后做后处理。我们在云上处理的优势,主要是算力丰富、算力高,并且它是非因果和离线的,可以算得很慢。劣势是云上算的时候,不知道设备信息,所以只能够去做统一的处理,不能单独调优。其次,云上的增强恢复重建,都是增加信息量,所以压缩效率低,压缩后的码率高,导致传输效率降低。在端上,我们知道设备、用户以及环境的信息,用多参数、多种算法做适配,是一个多样性的能力。



我们将云和端联合在一起,用云上的丰富算力做分析,用端上的多样性做呈现,实现优势互补的效果。右图的 4 种情况,1 是纯云端的处理,2 是纯端上的处理,3 是云端都可以处理,4 是云加端的协同处理。


云+端的联合处理到底有哪些应用?


基于算力优势,我们会在云端做复杂的探测、分析、分类,打标签、编码,再将码流和探测出的语义信息、一些结果通过控制流去传输到设备端。用来指导端上的后处理模块进行参数的设置、算法的选择,以及适配处理。例如,通过去块、锐化、超分等让端上效果更出色。



案例一,去块。块效应是压缩导致的,在码率不够或者低亮的场景中。统一的去块,有可能会损失信号的有用细节,使图像变得模糊。但如果我们能够做云加端的配合,可以在源头将流上块的强度、类型都探测出来,然后把信息传到端上,用这种信息去控制端上的去噪去块算法的强度,达到既有效去块又能够保护细节的效果。



案例二,智能满屏的效果对比。


优酷有大量的年代剧,往往是 4:3 比例,现在屏幕尺寸是 16:9,甚至是 23:9、22:9。如果直接播放 4:3 视频,画幅会很小。普通平铺是以图像的中心为中心,这样的构图布局经常会丢一些重要画面。优酷智能平铺是利用 CV 的识别分析能力,将眼睛更关注的信息保存下来,让画面的布局更合理。


所以整个应用过程就是在云端利用分析理解能力,对画面进行自动的分析、提取,将信息与码流一起传到端上,根据信息进行渲染窗口的调整,达到实时的拆切满屏的目的。优势是一个流能够满足各种尺寸屏幕的观看需求。

优酷超高清的愿景

帧享的愿景是,在 5G 和 AI 的背景下,为国内的互联网视频超高清路线提供解法和答案,推进视频的超高清体验的升级,让 C 端用户早日进入到超高清的观影时代。另一个愿景是超高清产业共赢。我们需要有超高清的标准去约束视频产业链条的各方,制作生产出符合超高清标准的内容、设备,培养提升用户心智,使他们愿意为体验买单。只有用户愿意买单,平台才愿意为超高清买单,制作公司才会愿意为超高清买单,实现超高清的商业化、规模化,实现用户、制作、平台、终端整个链条上的共赢。


作者介绍::阿里文娱高级算法专家 张行


2020-04-30 10:311461

评论

发布
暂无评论
发现更多内容

3700万人在线见证梅西“圆梦”!火山引擎实力护航世界杯

火山引擎边缘云

云计算 云原生 CDN 边缘计算 火山引擎边缘计算

如何使用 Towify 在小程序中创建关联表?

Towify

网页抓取中最常用的三大 Python 库

Geek_2d6073

创建好的小程序如何正式发布?

Towify

GitHub上标星79K的LeetCode算法小抄开放下载了

小小怪下士

程序员 面试 算法 LeetCode

精准测试之覆盖

京东科技开发者

数据库 测试 代码 覆盖 企业号 1 月 PK 榜

时序数据库 TDengine 签约中冶京诚,助力钢铁工业智能化

TDengine

数据库 tdengine 时序数据库

Apache APISIX Ingress 1.6 正式发布!

API7.ai 技术团队

APISIX Serverless Kubernetes Ingress Controller

培训机构与自学的优缺点有哪些

小谷哥

react源码中的hooks

flyzz177

React

「极狐GitLab 内容共创计划」强势来袭,丰厚权益等你赢取!

极狐GitLab

DevOps 云原生 写作 #运维 #DevOps

ElasticSearch必知必会-基础篇

京东科技开发者

大数据 搜索引擎 数据分析 技术分享 Elastic Search

葡萄城邀您参与「表格技术开发者新年分享会」,共话表格技术新未来!

葡萄城技术团队

小程序编译原理解析

Onegun

微信小程序 前端

POI 中 getPhysicalNumberOfCells 与 getLastCellNum 有什么区别

ModStart

数字图像处理笔记

嵌入式视觉

数字图像处理 几何变换 低通滤波 图像锐化 高通滤波

podman如何开启sock使用docker客户端进行管理

ModStart

尚硅谷Airflow视频教程发布

小谷哥

要避免的自动化实践

FunTester

硬实力,高潜力!旺链科技当选“2022德勤中国高科技高成长50强”

旺链科技

区块链 区块链技术

从实战出发,聊聊缓存数据库一致性

C++后台开发

MySQL 数据库 缓存 中间件 后端开发

2023年汽车行业向好发展,火山引擎VeDI助力车企数智转型

字节跳动数据平台

数据库 大数据 数据处理

PHP 中命令行调用 escapeshellarg 函数中文问题

ModStart

react hook 源码完全解读

flyzz177

React

TDengine 签约航天五院,助力航天事业信息化

TDengine

数据库 tdengine 时序数据库

RISC-V SIG 新进展:Chromium 等多个桌面软件登录欧拉开源操作系统

openEuler

firefox Linux 操作系统 openEuler risc-v

移动跨端框架最全盘点,16款总有一款适合你

Onegun

flutter 移动开发 跨端框架

USB端口的ESD防护电路设计

元器件秋姐

经验分享 usb 电路设计 电源电路 ESD防护

react源码中的fiber架构

flyzz177

React

开源共建|旺链科技与FISCO BCOS达成产业应用合作

旺链科技

区块链 开源 区块链技术

总有一个你能用上的29个IDEA小技巧

风铃架构日知录

Java 程序员 IDEA IT 开发工具

5G超高清关键技术:高帧率重置、高动态渲染、云加端增强_行业深度_阿里巴巴文娱技术_InfoQ精选文章