2019 年 9 月 7 日,腾讯技术开放日·5G 多媒体专场在腾讯滨海大厦完美落幕。来自腾讯多媒体实验室的专家们给大家带来了关于 5G 技术和标准的精彩分享,揭开了许多关于 5G 的谜团。本文重点给大家讲解 5G 时代下多媒体标准、多媒体压缩前沿技术的标准化,以及面向未来的多媒体系统架构。
赵帅博士,腾讯 5G&多媒体标准专家。赵帅博士 2019 年初加入腾讯美国公司,担任腾讯 5G 和多媒体标准专家。赵博士获得美国密苏里大学堪萨斯分校的研究生和博士学位,专注于计算机网络和多媒体系统标准于传输领域,在数多国际期刊都有文章发表,IETF RTP VVC 负载格式编辑。
5G 下,多媒体为什么要做标准化
在 5G 下,多媒体产业链全景图跟 4G LTE 包括以太网差不多。现在社会上有很多一些错误的宣传认识,大家认为有了 5G 后可以无限制地在网上畅游。但其实,网上畅游的体验,很多时候完全取决于 5G 运营商给老百姓提供的真实网络实现。多媒体产业链,基本是从有视频源开始,有了视频源后就有了视频压缩的技术和算法,有算法之后需要标准化。
多媒体的标准化包含两大块:多媒体压缩技术标准化(后文会重点讲)、多媒体系统传输标准化(包括 3GPP 和 IETF 的网络传输协议)。有了标准定义后,直接有标准的产出,面向消费者或者网络运营商。
为什么要做标准?有以下四点原因:
一是互联互通。 保证各个厂商在指定多媒体 5G 标准下,各个设备之间可以互联互通。这是做标准最基本的原理。
二是防止垄断。 因为这样各个公司可以相互参加,每一个公司都会把自己的技术放在里面,保证技术的共享。
三是保证技术的先进性。 比如参加 5G 国际标准制定时,不但可以把自己的技术贡献出去,更重要的是可以学习别人的技术,保证了我们技术的先进性。
四是做标准有两个重要的作用: 一是知识产权,实现商业化。有专利后把专利应用在产品上,任何人要买这个产品时就要付专利费。比如现在任何手机制造商产一个手机时都要给高通付钱,这是专利产品的价值。另外是防御性,很多专利产生时目的并不是为了产生商业价值,而是保护自己。作为腾讯,很多专利的制定并不是非得用这个专利卖钱,很多时候是保护措施。我们有这样的专利,别的公司就不会通过专利投诉方式来控告我们,因为我们有自己的知识产权。
5G 下,媒体应用所面临对挑战
视频流量一直是占领网络流量的先驱,在 5G 趋势下会只增不减思科公司考预测的 2017 年到 2020 年全国以 IP 为基础的视频流量百分比。到 2020 年视频流量百分比可以达到 82%。到 2020 年 82%的流量是视频传输,包括视频会议、小视频、云游戏类似的服务。
而 5G 下,媒体应用也面临着多种挑战。
一是新兴媒体格式的出现,包括 4K、8K 等。另外是新兴媒体的体验,比如沉浸式媒体、VR、增强现实 AR、云游戏等都需要很强的带宽和低延时等网络的需求。比如自动驾驶,需要很高的网络可靠性。控制的连接设备、新兴媒体的运营模式,OTT 运营比如像 YouTube、NetFlix,国内的优酷等。美国 NeFflix 在高峰期时视频流量可以占全球 65%。随着网络带宽越来越高,视频流量会越来越高,我们想要体验更高的多媒体流量只会越来越难。
5G 下重要的新兴媒体格式:8K
1.为什么说 8K 是 5G 下重要的新兴媒体格式
现在很多人提到 8K,8K 对我们来说到底意味着什么?——8K 意味着全方位视频体验的提升,一是分辨率,二是亮度,三是色彩位数,8 位或者 10 位,然后是帧率。
8K 分辨率是 708x~4320,这比普通高清上升 5-6 个维度,意味着看到的像素更多,更清晰。
SDR 和 HDR 是图像亮度的标准。亮度的单位 nit。人眼对亮度可以识别 0.01 到 2 万 nit。HDR 之前用的是 SDR,是 100nit,跟人眼可以看到 2 万 nit 比起来还是很小的。HDR 是 SDR 的 10 倍大约是 1000nit,图像更加清晰更加好。8K 出现后,HDR 可能达到 5000 或者 1 万。但随着 8K 不断推广,HDR 技术不断提高,人肉眼看图像亮度时更加亮。
但是,普通视频是 8 位表示一个像素,8 位是 256 种颜色;而有了 8K 后,10 位或者 12 位是一个趋势,10 位是一个像素有 1024 种颜色,12 位更很多了。颜色越多,意味着看的色彩越鲜艳。这对我们来讲,更重要的是这表示每一个视频、像素的分量就很重,最终落实到一个视频的文件大小,这个文件就会越来越大。
网络看视频大约在 30 帧每秒,在 1 秒里可以看 30 个图片。人的肉眼对快速移动的图片是分辨不清的。到 8K 后会支持到 60 帧一秒或者 120、180。在一段时间内看图片的帧率会越来越多。这样看到的视频就会越来越平滑。现在看大片,慢动作,那个就是用高帧率拍,比如 1 秒钟拍了 100 个图片,在 5 秒钟内放出来,这就是慢动作释放的原理。
给大家看一下 8 视频文件的大小大。如果一个像素是 15 个 bit(这个是比较保守,最可能该是 30bit 甚至更大),那么不经过压缩的一个 120 帧每秒的 8K 的视频 1 秒大约是 60G。如果按照如压缩 1000:1,压缩后 60M 左右。
我们国家在 8K 的发展和普及相对落后,日本和韩国跑得相对快。日本将会在 2020 年用 8K 直播。中国在 2022 年冬奥会时也会用 4K 和 8K 结合的形式直播,相信那个时候很多 8K 支持的设备、网络协议、5G 技术都会相对成熟一点。
2 .关于 8K 标准的制定,不得不提 8K 工业联盟
腾讯多媒体实验室在今年 8 月份时,成功加入了 8K 工业联盟,成为了董事会一席。这意味着腾讯在 8K 未来发展时有一定的话语权,可以参与制定 8K 的标准,在推动 8K 在未来 5G 网络下起到非常主导的作用。
5G 多媒体压缩技术前沿
如果只有 5G,而没有视频压缩,那对于多媒体来说传输一切都是 0。所以,这里我再讲一下腾讯多媒体实验室最重要的技术——视频压缩技术。
1.VVC(H266)视频压缩标准简介
简单讲一下视频压缩技术的演进:2003 年 AVC(H264)编码标准正式发布。2013 年时到了 HEVC(H265)。每一次视频压缩技术的迭代,都会比上一次主观上提高 50%左右,客观上提高 30%。客观是通过数学统计,主观是人眼看,最后综合下来有 40%~50%的提高。
而 VVC(H266)是腾讯多媒体实验室正在积极参与制定的。VVC 在 HEVC 上客观节省 33%,主观是 40%~50%。腾讯多媒体实验室在很短时间内有几十项专利被研发,并且好几个位成员都在 VVC 里承担主席席位。
VVC 视频编码架构跟 HEVC 基本一样,但为什么它会提高?在某些算法上经过前十年包括硬件的支持,算法上有优化、提高,在整体视频压缩基础上有客观上 30%的提高和主观上 50%的提高。
整个 VVC 包括 HEVC 在处理视频压缩时,根据最简单的视频播放道理,短时间内看很多照片,视频压缩分两个方向:帧内压缩和帧间压缩。
帧间压缩是根据不同图片之间的差别,把这几个照片放在一块进行压缩。HEVC 只支持一种方法,VVC 支持四种方法。在压缩时提供更多可能性,更大的提高了压缩的速率。
帧内压缩是在一个图片内找到相似点压缩。HEVC 支持 33 种方向,但 VVC 可以支持 65 个方向,可以提高预测和压缩的准确性。VVC 支持更多帧内预测技术比如 MRL,支持多条线预测。
处理完帧间和帧内预测后,下一步做数学运算,把所预测的根据数学的离散正弦、离散余弦。这两个是压缩里比较常用的技术。HEVC 只支持离散余弦,VVC 支持离散余弦和离散正弦。把所有像素转成数字后,做数学运算,最后做无损压缩。视频压缩原理,就是把大数据变成小数据,文件大小就会降低。
2.腾讯多媒体实验室关于 VVC 技术落地总结和成果
现在 VVC 比之前做的 HEVC 视频压缩客观上 33%左右,主观上 50%。我们在相同感官条件下,视频文件已经少了一半。
VVC 应用的场景很多,对腾讯内部来说有各种社交类,微信,腾讯视频,云游戏等。
截止到 2016 年 6 月份,腾讯 VVC 视频压缩技术是全球第三,而且是用了不到两年时间。
另外还有一个重要的成果,腾讯开发的《王者荣耀》被加入到 VVC 测试序列,可以更好的压缩游戏,这个意义对腾讯是非常大的。
3.腾讯多媒体实验室标准落地现状
在简单总结了标准制定的成果后,我们再来看一下腾讯多媒体实验室标准落地现状。
这里重点讲一下云游戏。云游戏跟传统游戏最大的不同是传统玩游戏时要买游戏然后下载然后安装,要补丁就要下载补丁。云游戏是任何处理都在云端服务器端,不需要下载,你需要的是注册一个帐号,可以用任何设备,比如电脑、手机同时玩这个游戏。你现在坐在这儿玩,突然要起来,拿着手机可以接着玩。这是云游戏为我们带来的新的用户体验。现在全世界做云游戏的公司有谷歌、Microsoft,腾讯是第三个。现在在深圳、上海已经测试。
云游戏是视频压缩技术很大的应用场景,包括前面说的 IETF 里包括 QUIC 等很多网络传输标准。你的游戏安装都在云端,云端把游戏渲染,渲染之后以视频形式通过网络传输给客户端,客户端不需要维护、下载、安装游戏,也不需要打补丁,服务器已经帮你处理完,你需要的是像看一个电影一样玩游戏,这是非常不一样的游戏用户体验。另外,多媒体实验室研发的 TPG 图片压缩技术,从主观上分不出区别的前提下文件数量少了十几倍,这使文件传输到云端会减少很多带宽。
4.关于解码标准
前面讲了我们主要做视频压缩编码标准,现在我们也在做结合标准,把标准做到编码器里,就可以直接产生商业化。我们不仅做编码也做解码,解码就是在客户端里播放这个视频,编码是把视频源压缩。同时,我们也在维护一些免费的标准,像 VP9、AV1,做一些自己的贡献,促进视频压缩生态圈健康发展下去。
面向未来的多媒体系统架构:异构计算
异构计算,就是用不同的结构做计算。这个概念并不是很新,在上世纪 90 年代已经有异构计算的概念,但当时硬件支持也并不是很好,所以一直没有发展下去,最近十年人工智能、机器学习、深度学习、自动驾驶这些人工智能产品落地,对不同计算的要求提高了一个档次。再加上摩尔定律,现在芯片制造厂商已经很难很难在短时间内把芯片速率提高。
我们已经见过异构结构,平时玩游戏装单独的 CPU,或者 CPU 和 GPU 结合就是异构的一种。现在随着计算要求提高,比如云游戏,在云端需要大量 GPU,把游戏压缩成视频再传输到客户端。如果只是用 CPU,根本做不到,现在用 GPU 包括 FPGA,把所有能运算的结构放在一起,让它们共同运转。比如 CPU 更好做的是缓存、处理,GPU 可以做更好的运行处理。把不同计算的兆放到不同模块,实现更好的异构结构。多媒体实验室在这方面有很大的投入,比如跟很多芯片厂商合作,把我们自己的编解码技术标准做到他们的芯片里,来为腾讯的业务服务。
本文转载自公众号云加社区(ID:QcloudCommunity)。
原文链接:
https://mp.weixin.qq.com/s/IU5H3EkG5zJ-4vuQgmdndg
评论