AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

2023,音视频技术将如何发展?

  • 2023-02-09
    北京
  • 本文字数:4398 字

    阅读完需:约 14 分钟

2023,音视频技术将如何发展?

过去三年, 人们的日常生活、工作方式发生了巨大改变,短视频、互动直播、在线教育、云上会议等音视频使用场景深入到各行各业。井喷的需求使音视频的传输方式也发生了许多改变。


回顾音视频技术的整体发展,我们将其总共分为三个阶段。第一阶段,音视频的传输方式粗暴简单,通过非模拟信号进行传输;第二阶段,音视频信号纯数字化,诞生了如 DVD、DVB 等一系列的存储传输方式,同时音视频技术延展出了编解码器 codec、存储冗余、流媒体传输等更多细分技术;第三阶段,随着硬件能力的提升和互联网的发展,音视频技术的发展更细分,如编解码器的技术演进、流媒体传输协议的技术演进等,播放方式也变得更加丰富,如点播、直播、超低延时直播、互动直播等。


整个音视频领域正朝着超高清、低延时、强互动等方向演进,处于为全真互联时代的到来做技术储备、更多场景覆盖的关键阶段。基于此,InfoQ 与腾讯云音视频高级工程师孙祥学进行了对话,一起讨论音视频技术在 2023 年的具体发展方向。

一、追求极致的“低时延、强互动、超高清”


5G 的快速落地,4K/8K 视频快速普及,元宇宙、AR、VR 等技术兴起,全真互联时代来临,"低时延、强互动、超高清"的音视频能力越来越受到行业内的关注,这对原有的媒体处理系统发起了新挑战。


4K/8K 超高清通常需要几十兆,甚至上百兆的码率,带来了高昂的存储和带宽成本。同时,超高分辨率对媒体处理系统也提出了新的要求,尤其是对于直播系统,相比 1080P,8K 视频的分辨率实时转码对算力的要求提高了十几倍。此外,虽然超高清播放设备得到了广泛的普及,但是目前超高清的片源并不多,如何生成超高清的片源视频也是行业的绝对痛点。


想要解决这些技术挑战,这就意味着媒体处理产品需要提供性能领先的编码内核,在压缩率上帮助产品降低成本,从而提升终端用户的观看体验。通过分布式来解决单机难以完成的实时 8K 高算力视频处理,所以媒体处理产品对系统的处理能力要做到能够池化。除此之外,媒体处理产品还需要有全面的画质提升工具,包括但不限于去噪、去伪影、HDR、超分、插帧等画质修复能力,来满足用户对超高清画质的诉求。


为此,腾讯云媒体处理 MPS 在全球化 region 部署,自动扩缩容,可以灵活应对高并发转码需求。长视频支持最高 30 倍速分布式转码加速,满足极速转码发布需求。腾讯云媒体处理 MPS 的云端画质增强技术在云端进行视频超分来实现超高清的画质体验,解决了“移动端设备难以支持实时 4K/8K 采集”的问题。


值得一提的是,在低延时方面,腾讯云媒体处理 MPS 与腾讯云音视频快直播(超低延时直播)结合,通过监测用户的并发情况,为用户实时自动拉起腾讯云媒体处理 MPS 极速高清智能转码相关服务,在降低延时的同时为用户减少带宽成本。腾讯云音视频的快直播是典型的媒体传输技术的升级与融合,其在延迟、秒开、抗性等指标上的大幅优化,极大提高了用户体验。这个技术的背后其实是深刻理解媒体传输特性前提下的融合优化,在信令、数据通道上,采用云端结合的优化方式,并充分理解传输的媒体内容,最终实现“低时延”的目标。


另外行内人都知道,超高清的观看体验必然伴随着高码率,尤其当下终端用户对极致视听体验的追求,视频清晰度从高清到超高清,再到 4K/8K,视频存储越来越大,对带宽的要求也越来越高,用户的成本也越来越大,用户日益增长的观看体验追求和传输、存储成本之间的矛盾成为了音视频处理领域首先要解决的问题。


所以,腾讯内部优化了 O264/V265/TXAV1/O266 等编解码内核,在保持画质的前提下,极大地降低视频码率,减少超高清体验的带宽、存储等压力,而这些技术也都在腾讯云媒体处理 MPS 产品中有体现。腾讯云媒体处理 MPS 极速高清技术能够在保持视频画质质量不变的情况下,降 50%+ 的码率,减少视频传输存储成本。



腾讯云媒体处理 MPS 超高性能的编码算法,支持 8K 的 120FPS、144FPS 视频实时编码,融合超分辨率、HDR、拓宽色域等技术,为用户提供了极致清晰的观感。



二、“AI 智能分析”缓解爆炸式增长的短视频管理需求


最近几年,媒体传播热潮从图文向短视频进行跃迁,在短视频爆发和全民直播的风口下,视频量爆炸式增长,当越来越多人开始玩起短视频,短视频平台之间的博弈从单纯的视频发布逐渐转变为视频处理功能是否足够丰富、好玩且智能,与此同时,每日百万级短视频审核处理,也对传统媒资编目的视频管理工作带来了极大挑战。


为此,腾讯云媒体处理 MPS 支持自定义服务流程、音视频转码、音视频增强、视频截图、内容理解、审核、智能编辑等能力,开放丰富的模板配置能力,支持用户根据自身需求自定义配置。传统媒资编目通过该产品可以对海量媒体文件流程化处理,一站式完成转码、截图、水印等基本操作,集成事件回调机制,及时掌握任务进度。


其中,腾讯云媒体处理 MPS 提供的智能识别、智能分析等相关处理能力,能够通过 AI 对视频内容进行分析,自动提取出视频标签、分类、语音、文字等信息,相较于传统媒资编目效率更高且提取内容更丰富,极大地方便了视频的管理,用户能够基于标签快速检索关联视频,继而进行二次处理和推荐分发。



AI 在腾讯云媒体处理 MPS 中应用其实非常广泛,腾讯云媒体处理 MPS 的 AI 能力主要体现在三个方面:


第一,转码。在转码方面来看,腾讯云音视频团队应该是最早一批尝试 AI 智能编码的团队。比如腾讯云媒体处理 MPS 极速高清编码,他们根据视频场景识别出不同的视频分类,针对不同场景采用不同的编码参数,在不影响画质的情况下达到最优的压缩效果。同时,团队在前处理、后处理的优化方面也做了许多努力,这帮助腾讯云媒体处理 MPS 转码在 2020/2021 MSU 云端编码大赛获得 2020 全项最佳,2021 年的 15 项考量项中有 12 项为最佳,O264/V265 综合最佳,V265 MSU 连续 4 年行业领先。TXAV1 MSU2021 视频编码评测中取得综合指标第一,O266 4K@1FPS 赛道取得综合指标第一。



MPS 媒体处理在 SLC 2022 内容自适应转码服务评测中取得综合评测方面全部最佳 (Excellent) :



据孙祥学介绍,腾讯云媒体处理 MPS 转码在落地一些 AI 增强效果(超分、画质增强、插帧、抠图、色彩增强等)的场景过程中曾经遇到过引擎算力消耗大、语言框架不统一、转码集成困难、上线周期长等问题,在腾讯云音视频的强力探索下,腾讯云媒体处理 MPS 通过 AI 算力池调度的通用解决方案很好的解决了这些问题。


 MPS AI 算力池调度


腾讯云媒体处理 MPS AI 算力池调度通过统一的转码实例同机代理,很好地解耦了引擎和转码实例,既统一了直播转码、点播转码的集成方式,又做到了 CPU/GPU 资源隔离,使转码和引擎资源利用率相互不制约。同时,引擎的迭代更新也完全不依赖转码实例,能够高度解耦独立升级。横向扩充算法种类对转码实例透明,只需配置对应转码模版下发引擎类型即可。


第二,内容理解。腾讯云音视频团队集成了腾讯内部多维度的引擎算法,全方位挖掘视频内容,支持对视频进行视频分类、视频标签、视频封面提取、视频拆条、视频集锦、片头片尾识别、语音识别、文字识别、物体识别、帧标签识别等,充分理解视频内容。


第三,审核。腾讯云媒体处理 MPS 除了支持“黄暴”视频内容审核以外,腾讯云音视频团队还提出了视频质量审核的解决方案,可以智能检测视频画面中存在的抖动重影、模糊、低光照、过曝光、黑边、白边、黑屏、白屏、花屏、噪点、马赛克、二维码等多个异常场景,还可以自动检测视频无音频异常、无声音片段。


此外,腾讯云媒体处理 MPS 拥有业界领先的视频 AI 技术,支持老片修复 / 标准转高清 / 高清转 4K 的能力,能够大幅祛除视频噪声、毛刺、划痕,能够大幅提升视频清晰度和色彩丰富度。这对于有视频处理需求的终端用户来说,是一个实用价值很高的功能。

三、大幅降低“音视频媒体处理”门槛


行业里对媒体处理 MPS 的标准定义是一种多媒体音视频数据处理服务,致力于通过经济、弹性和高可扩展的转换方法,将存储于 OBS 上的音视频转码为适应各种终端播放的格式,提供极致编码能力的同时,大幅节约存储及带宽成本,并实现音视频增强、内容理解、内容审核等功能,满足多样化的业务场景下的视频处理需求。换言之,媒体处理 MPS 的终极目标是“满足业务的视频处理需求”。


于是,当音视频技术的发展走到追求极致的“低时延、强互动、超高清”的这种程度,几乎所有云厂商当前都不再只关注转码速率、高清等技术的实现,在媒体处理系统的接入、易用性方面也投入了更多精力。

事实上,随着音视频技术的发展,媒体处理门槛高一直是用户对云厂商的“不满之处”。业内对于媒体处理产品的槽点很多,比如功能繁多,却无法快速验证;接入门槛高,对非技术背景用户不友好...云厂商们为了解决这些问题,想出了不少办法。比如腾讯云媒体处理 MPS 为提高产品的易用性,进行了 2.0 版本的升级,通过模版、任务编排的方式,可视化任务处理逻辑,使得用户零代码开发即可完成腾讯云媒体处理 MPS 的接入。



又比如,针对不同的行业,腾讯云媒体处理 MPS 提出了不同的解决方案。针对在线教育行业,腾讯云媒体处理 MPS 提供具有针对性的、强悍的视频转码功能,可以针对不同的终端生成对应规格的视频,满足在线教育行业多端播放的要求;针对广电行业,腾讯云媒体处理 MPS 具备高速稳定的分片转码系统,支持多任务并发进行和动态扩容,满足广电行业对转码效率的需求;针对 OTT 智能电视领域,媒体处理支持 4K 和 8K 转码,满足智能电视的超清需求等等。


另外,腾讯云媒体处理 MPS 在产品层面,除了在不断优化迭代公有云的用户体验外,目前也陆续上线了专有云版本(包括转码 SDK 和 PaaS 平台),其可以私有化部署到用户机房或者第三方云上,全方位满足用户使用场景。在公有云方面,腾讯云音视频团队也正在尝试打通第三方云,支持通过 MPS 控制台配置走内网处理媒体文件存储在第三方云上的用户资源。多云灵活部署,最大程度地降低了用户接入门槛。3 月初即将上线的腾讯云媒体处理 MPS v3.0 版本中会有相关技术优化的体现,大家可以关注一下。

四、写在最后


总体来说,我们站在宏观视角去看整个音视频领域的发展,其实主要就分为两个部分。


从互联网行业的流量来看,将近 84% 的内容都是音视频,面对流量的增长,进一步优化 codec 能力来降低存储和带宽成本、优化产品运营,同时减少编码算力的消耗,是所有提供媒体处理 MPS 服务的云厂商都需要关注且持续探索的问题。


从全真互联这个层面看,音视频未来在各行各业的应用占比一定会进一步提升,随之而来是各种终端设备的接入,优化音视频标准和传输协议来适配海量的终端设备,也是未来的关注重点。随着元宇宙、VR 等技术的不断演进和兴起,音视频对实时互动、低延时有了更高的要求,低延时的标准协议,尤其是 WebRTC 将会有更快的发展。


但无论怎么看,未来几年,音视频技术的发展都是互联网技术发展的重头戏,云厂商是否能够抢占未来的音视频市场,就看是否能够精准抓住用户需求,是否能够在细分技术上做出新突破,就让我们一起持续关注腾讯云音视频等厂商的技术探索和优化动作。

2023-02-09 13:4514045
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 364 篇内容, 共 286.5 次阅读, 收获喜欢 299 次。

关注

评论

发布
暂无评论
发现更多内容

AI+工业互联网:百度AI专利讲述“中国智造”

百度开发者中心

架构实战营 第 6 期 模块七课后作业

火钳刘明

#架构实战营 「架构实战营」

Serverless JOB | 传统任务新变革

Serverless Devs

Serverless SAE

昆仑芯科技加入龙蜥社区 ,赋能智慧开源,共筑AI芯生态

OpenAnolis小助手

芯片 龙蜥社区 CLA 昆仑芯科技

在进行行情 tick 数据存储时,哪种数据结构查找起来更快?

TDengine

数据库 tdengine 时序数据库

七天玩转 PolarDB-X 开源训练营 完成任务更有AirPods大奖等你拿!

阿里云数据库开源

数据库 阿里云 开源 分布式 PolarDB-X

名师开团,倾力指导!CCF GitLink 编程夏令营来袭,亚马逊云科技开源专家携丰厚奖金,与你相约!

亚马逊云科技 (Amazon Web Services)

亚马逊云

青山不遮,毕竟东流,集成Web3.0身份钱包MetaMask以太坊一键登录(Tornado6+Vue.js3)

刘悦的技术博客

vue.js tornado 区块链落地 区块链+ 认证授权

一款简洁强大兼顾的小程序IDE

Geek_99967b

小程序 ide

【LeetCode】单词长度的最大乘积Java题解

Albert

LeetCode 5月月更

集成底座项目实施规程

agileai

主数据管理 集成底座 企业服务总线 项目实施 统一身份

EasyRecovery2022苹果电脑数据恢复软件

茶色酒

EasyRecovery EasyRecovery15

Flutter 也能玩 React 的 Redux?

岛上码农

flutter ios 安卓开发 跨平台应用 5月月更

Apache APISIX v2.14.1 探索性版本发布,进军更多领域

API7.ai 技术团队

服务注册与发现 API网关 Apache APISIX APISIX 网关

能够发现零日漏洞模糊测试威力几何?

极狐GitLab

security DevSecOps

观测云&新数科技,共同赋能企业数字化系统

观测云

与爱“童”行,皮皮携万千网友的语音信,用声音传递温暖

联营汇聚

深入浅出Nginx实战与架构原理

C++后台开发

nginx 架构师 后端开发 Linux服务器开发 C++后台开发

基于ArkUI开发框架,图片马赛克处理的实现

HarmonyOS开发者

HarmonyOS

软件开发模型有哪些?

源字节1号

软件开发

OpenHarmony 3.1 Release版本关键特性解析——ArkUI框架又有哪些新增能力?

OpenHarmony开发者

Open Harmony

半导体erp系统和传统erp系统的区别

低代码小观

芯片 ERP 企业管理软件 半导体行业 ERP系统

新思科技探究保护供应链安全需要考虑的六个因素

InfoQ_434670063458

软件 新思科技 软件供应链

JavaScript闭包

源字节1号

软件开发 前端开发 后端开发

EasyRecovery15手机版数据恢复软件

茶色酒

EasyRecovery EasyRecovery15

极客星球 | 数据治理三步走,助力企业节省百万+资金投入

MobTech袤博科技

数据治理 大数据架构 降本增效

GitHub 3.1K,业界首个流式语音合成系统开源!

百度开发者中心

陆奇:“黑客精神”过时了吗?答案是永远不会

图灵教育

nginx 程序员 服务器 计算机

国内首个纯数字藏品元宇宙世界“ADAMeta”星城宇宙开启公测

最新动态

视频直播技术干货:一文读懂主流视频直播系统的推拉流架构、传输协议等

JackJiang

实时音视频 直播技术 即时通讯IM

万亿级别数据量的秒级实时分析,小红书OLAP引擎的进化和自研之路

小红书技术REDtech

大数据 实时数仓 OLAP Clickhouse

2023,音视频技术将如何发展?_AI&大模型_鲁冬雪_InfoQ精选文章