云、物联网、5G、人工智能……接踵而至的前沿技术，开发者们是如何进行天马行空的创意和极限突破？11月6日—7日，首届Techo开发者大会在北京召开。在前沿技术探索X论坛上，腾讯多媒体实验室总监李松南发表了《视觉媒体的今天与未来-智能化与沉浸式》的主题演讲，围绕视觉媒体的发展现状以及未来发展趋势展开分析，以视觉媒体的实际应用为例，从智能化与沉浸式两方面分享了腾讯多媒体实验室的研究领域及实际落地应用，并表示，会持续进行技术优化，为用户带来更好体验。

Techo开发者大会由腾讯云发起，致力于开发者的能力成长和实践创新，旨在通过汇聚全球顶尖行业专家和技术爱好者，搭建一个开放、中立、活跃的技术交流平台。本届大会聚集来自全球的5000多位开发者，并邀请超150位业界大咖围绕前沿技术发展进行分享和交流，是一次真正面向全球云计算领域开发者和技术爱好者的年度盛会。

（腾讯多媒体实验室总监李松南）

视觉媒体的智能化趋势

新媒体时代人们接收到的内容越来越丰富，用户个性化特征日益明显，优质的内容、合理的分发无疑是视频网站吸引用户的重要手段。

近几年，在内容生产、分发和管理三个方面涌现出了许多人工智能媒体应用，作为在音视频领域具有长久规划的实践者，腾讯多媒体实验室正在努力实现从生产到消费全方位视觉媒体的智能化，把媒体呈现的内容和最主要的媒介——视频、图像、声音演变为数据，并借助深度学习技术实现更加智能化的建模，为企业带来更优质的音视频处理以及理解服务，为个人用户带来更佳的多媒体消费体验。

（腾讯多媒体实验室的部分视频处理能力）

在人工智能的赋能下，多媒体实验室通过结合传统图像视频处理以及深度学习技术，提供了多种视觉媒体的处理能力，如降噪、超分、增强、去压缩失真等；通过使用基于多模态的深度学习技术，在媒体生产、云服务，媒体消费全流程中解决处理、编辑、审核、管理等应用问题，实现视觉媒体的质量增强和内容理解。

智能云剪辑是腾讯多媒体实验室的众多研究领域之一，并且已经成功应用于国庆七十周年的阅兵直播中。“通过对历史阅兵视频的学习，时间上精准定位不同方阵间隔之处，精准拆条；图片分类上精准识别领导人、海军方阵、陆军方阵、群众方阵，以及方阵间隔等；音频识别上识别“向右看”口号和音乐，最终基于以上多模态时序信息，实现智能剪辑。”李松南介绍，智能云剪辑在国庆阅兵中实时帮助完成拆条工作，短时间内为央视频App输出更多优质素材。

优化技术，为用户带来沉浸式体验

在5G技术影响下，沉浸式体验是未来视觉媒体另一重要特征。在打造沉浸式新媒体这一领域，腾讯多媒体实验室始终走在技术前沿，不断探索未来信息传递的多种可能性，把OMAF、DASH等标准研究成果融入产品，从采集、传输、转码、播放、互动等多端带给用户沉浸式感官体验。

目前，腾讯多媒体实验室已经引入国际最新360视频标准，针对VR视频压缩传输等技术壁垒进行工程化实验和XR(VR，AR，MR)互动技术落地探索，并联合在线教育、视频云联合推出VR教育业务。李松南表示：“站在5G的风口，腾讯多媒体实验室未来将会针对实际业务场景持续研发，保持领域内技术领先，同时为XR系统提出解决方案，在融媒体、新媒体等更多更丰富的场景中实现落地。”

互联网平台创造了一个海量信息自由开放流通的公共领域，也把各类信息和数据汇聚到平台之中，随着5G的落地应用，让海量数据高速率、低延时传输成为可能。腾讯多媒体实验室将会持续完善音视频的传输、处理以及理解技术，实现从看见、看清再到看懂，让工具更懂用户，推动数字媒体的繁荣发展。

创作场景

智能化与沉浸式将成视觉媒体的未来趋势