音视频场景破局，视频云技术开启新浪潮_字节跳动_雷雨亭

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么



大小：1.91M时长：11:07

AI 改变的不仅是音视频的创作方式，而在重新定义人们的交互与消费模式。

近年来，随着大模型的引入，音视频消费场景正迎来新的机遇。与过去相比，智能语音助手更加智能化，且能提供更为即时和个性化的响应；视频平台也开始依据用户的历史偏好，自动生成符合个人兴趣的视频片段；在赛事直播方面，观众可以通过 VR 设备获得全新的视角，并借助 AI 技术分析球员的表现。

这些新兴场景不仅对创新能力提出了更高的要求，同时也考验着视频云技术的底层支持能力。作为基础设施，视频云不能只是支撑内容的生成、处理、传输及消费，还需进一步提升以满足更加复杂的需求。

除了娱乐行业，教育、医疗和金融等专业领域也可能涌现出更为复杂的应用场景，这对视频云技术的发展方向提出了新的指引，预示着更具挑战性的未来机遇。

其中火山引擎在视频云与 AI 融合的实践中处于行业前沿。在火山引擎视频云联合英特尔中国共同推出的《云上新视界》第二季中，深入探讨了 AI 时代下视频云技术的革新与应用，展现了火山引擎视频云在音视频全链路中的创新实践，以及 AIGC 技术如何赋能音视频领域的新发展。

本文将继续跟随《云上新视界》第二季的脚步，深入探讨视频云技术创新所带来的无限可能性。在面对 AI Bot 的语音交互障碍，如何提供更加自然流畅的人机对话体验？面对日益增长的多媒体处理需求，火山引擎如何不断优化自身的架构设计和技术能力？在视频直播领域，全新技术的引入是否带来新的可能性？

让 AI Bot 从“能说话”到“会说话”

近年来，AI Bot 作为一项前沿技术，正迅速成为人工智能落地的热门途径。从智能客服、办公助手，到情感陪伴机器人，其应用范围正在持续拓展。然而，在语音交互场景中，当前的 AI Bot 面临语音识别不准确、语义理解浅显及反馈机械呆板等问题，“已读乱回”现象正在严重影响用户体验。

在此背景下，扣子平台推出了全新的智能语音 OpenAPI，并接入了火山引擎视频云的RTC（Real-Time Communication）能力，旨在打造一个更加贴近人类真实交流体验的 AI 生态。

RTC 是一种支持实时语音、视频和数据传输的技术框架，它使用高效的 RTP 协议并结合多种算法来确保数据的快速、稳定传递。相较于传统的 WebSocket 技术，RTC 在抗弱网能力、全双工通信等方面具有显著优势。例如，在网络条件不佳的情况下，RTC 仍能保持高质量的通话质量；同时，它允许说话者和听者在同一时间发送和接收信息，使得 AI Bot 可以实现实时打断功能，极大地提升了用户体验的真实性和互动性。

扣子作为热门的 AI Bot 开发平台，以其易用性和灵活性饱受开发者好评。用户无需编写代码即可创建个性化的聊天机器人，并且可以轻松部署到不同的平台或应用程序中。此次引入 RTC 技术，扣子不仅增强了其语音识别和合成的能力，还实现了毫秒级响应时间和流式输入特性，让 AI Bot 从“能说话”真正升级到“会说话”。此外，RTC 技术的加入也为扣子带来了更强的网络适应性和稳定性，即使在网络环境不稳定时也能保证良好的通话效果。

火山引擎视频云 RTC 技术已经在抖音、飞书等多个平台上得到了广泛应用，证明了其可靠性和高效性。特别是在处理高并发请求方面，火山引擎视频云 RTC 技术表现优异，这得益于自研算法、精细化设备适配以及强大的云端算力支持。

RTC 技术的应用将使 AI Bot 在未来的企业客户服务和个人消费市场中发挥更重要的作用。企业可以通过定制化设置来构建高度拟人化的客服机器人，提高工作效率和服务质量；而在 C 端市场，如游戏、教育等领域，实时语音交互将带来更加沉浸式的用户体验。此外，结合智能硬件的发展，AI Bot 还可以应用于智能家居等场景，进一步拓展其功能性和应用场景。未来，随着多模态能力的提升，AI Bot 将在视觉、听觉等多种感官上实现有机结合，为用户提供更多元化的服务选择。

扣子平台与 RTC 技术的结合不仅是技术上的突破，更是推动 AI 应用实践落地的重要一步。它不仅满足了当前用户对于高质量语音交互的需求，更为未来的创新和发展奠定了坚实的基础。

端侧处理兴起，轻量级框架正当时

随着 AI Bot 等 AI 应用技术的不断创新，用户体验和服务模式日益丰富和复杂化，这不仅推动了应用层的革新，也对支撑其运行的基础设施也提出了更高的要求。

目前，视频生成大模型的训练规模与预处理计算需求呈指数级增长，市场不仅需要确保这些大模型能够在云端高效运行，还要求端侧也需具备一定的音视频处理能力，以便与云端共同应对复杂的计算挑战。

面对以上需求，火山引擎推出全新端侧媒体处理框架——BMF Lite。BMF Lite 是火山引擎基于 BMF 自研端侧的通用的多媒体框架的的轻量化版本，历经三年打磨，目前已应用于抖音、西瓜视频等应用的主要业务场景中，涵盖播放、推流、图片处理和云游戏等领域。该框架横跨 Android、iOS、鸿蒙、PC 和 Web 等多个平台，服务于超过十亿用户，每日处理数万亿次的视频和图片请求。

在框架层，BMF Lite 强调跨平台兼容性和资源的有效复用。它采用了统一的数据结构设计，确保了 Android、iOS、Web 以及 PC 等多平台的支持。为了应对资源受限的问题，BMF Lite 引入了算法控制器来管理算法实例的生命周期，并通过资源池机制实现了不同算法间算子和数据资源的共享。这一设计减少了频繁创建和销毁资源所带来的开销，特别适用于点播和直播后处理场景，在抖音播放中显著提升了资源利用率。

BMF Lite 还扩充了客户端的一些异构能力，涵盖了 DSP、NPU 以及端侧 GPU 等多种计算单元。这不仅提高了计算效率，也为开发者提供了更多的选择，可以根据具体应用场景灵活调配计算资源。

随着 AI 视频时代的到来，强大的视频生成大模型成为必要，但其训练面临成本、质量、协同和性能等多方面挑战。BMF 通过与字节大模型团队合作，针对海量视频数据进行高效预处理，短时间内生成了大量高质量素材，支撑视频生成模型的训练、上线及调优。为应对成本挑战，我们采用潮汐资源和精细化混部调度；质量上，通过 30 多种算子对视频进行多维度分析筛选；协同方面，BMF 动态模块特性加速了算子集成与链路开发，效率数倍于传统框架；性能优化中，BMF 灵活调度 CPU、GPU、ARM 等资源，实现了快速性能调优，显著提升了任务吞吐量并缓解了资源瓶颈。

未来，火山引擎计划推出基于 BMF 的大模型视频预处理方案，该方案将为大模型企业提供一种灵活且低成本的视频预处理服务。企业能够以更经济的方式获取高质量的视频数据支持，加速其模型训练过程并提升最终模型的表现。

“全景式”的直播时代来临

随着底层技术的进步和 AI 开发的日益丰富，越来越多视频形式在应用场景中涌现，其中“全景式”的直播体验正逐渐吸引人们的广泛关注，视频行业正在向更加沉浸式和个性化的方向迈进。

在视频通讯方面，Google 的 Starline 项目提供了一种如同面对面交流般自然且逼真的视频通话体验，用户甚至能通过身体移动或眼神接触增强沟通效果，这项技术为传统的 2D 视频会议带来了全新的挑战；而在 VR 领域，像 Pico 这样的头显设备则为用户打造了一个完全沉浸式的虚拟环境，允许他们在目标场景中自由探索和漫游。这些科幻电影般的场景，其背后的核心力量便是六自由度视频技术，从二维到三维视觉体验的重大飞跃，为各行各业开辟了创新的机会和发展空间。

与传统的 360 度全景视频不同，六自由度视频允许用户在三维空间内进行全方位的移动和旋转，包括前后、左右、上下三个维度的平移以及偏航、俯仰、侧倾三种形式的转动。观众能够主动根据个人喜好选择最佳观赏位置，获得身临其境般的沉浸式体验。

近年来，六自由度视频技术的应用范围也在不断扩大。其中，火山引擎视频云所推出的六自由度直播技术便是对六自由度视频的新升级，有望成为未来数字娱乐与信息传播的重要组成部分。

六自由度（6DoF）直播技术通过从数据采集到云端重建、编解码再到端侧渲染，构建了一条完整的处理链路，以此提供沉浸式的多视角观看体验。

在数据采集阶段，多相机系统获取的视频流经过时间同步与聚合编码，形成一路推流至 CDN，并转发给云端服务器。

云端处理分为两个主要步骤：第一步是通过训练的编码器提取人体特征，利用 correlation volume 进行多视角图像匹配，恢复深度图，并借助多头注意力机制在稀疏视角下重建初步的人体点云模型。第二步则生成精细的 3DGS 模型，预测包括透明度、尺度和旋转在内的高斯属性，学习不同姿态下的参数分布，自适应调整高斯体分布以减少点数，从而渲染出逼真图像。

为了适配现有视频传输链路，火山引擎开发了一套轻量高效的 3DGS 模型压缩编码算法，将模型流转化为视频流推送至 CDN。为保证解码后模型的渲染效果，依据不同高斯属性分配差异化码率，优化传输与渲染质量。播放端从 CDN 拉取并实时解码视频数据，还原三维模型进行渲染，支持手机、PC 和 VR 头显等多平台实时交互观看。在云端，使用 Nvidia Turing 及以上显卡（如 3090）可实现实时重建；播放端如 iPhone 15 能实现 30FPS 以上、个人电脑 60FPS 以上的实时解码与渲染帧率，图像 PSNR 达 30dB 以上，整体延迟能控制在 200ms 以内，确保几乎无延迟的直播体验。

目前，六自由度直播技术已经成功落地火山引擎视频云的直播服务中。未来，这项技术将会推动更多元化的直播内容出现。

在《云上新视界》第二季，我们不仅见证了 AI Bot 技术从基础语音交互向高度拟人化交流的重大跨越，也揭示了多媒体处理框架和六自由度直播技术在提升用户体验方面的重要作用。随着这些前沿科技的深入应用，可以预见未来视频云技术的进步将会不断创造全新的可能性，重新定义我们与世界互动的方式。

发布

暂无评论

创作场景

音视频场景破局，视频云技术开启新浪潮

让 AI Bot 从“能说话”到“会说话”

端侧处理兴起，轻量级框架正当时

“全景式”的直播时代来临

评论

taosd 写入与查询场景下压缩解压及加密解密的 CPU 占用分析

StarRocks 在爱奇艺大数据场景的实践

国家级播音老师30年专业功力加持，为华为阅读带来听书精品音色3.0

快收藏！一个技巧从此不再搞混缓存穿透和缓存击穿

Typora for Mac：您的 Markdown 写作利器

哈尔滨等保2.0丨5分钟速览：小白也能看懂的等保2.0介绍

浅谈Tox之二

出海企业必看！国际网络开通全攻略

CST仿真分析：圆柱形谐振腔的模式分析

iA Writer for Mac：极简写作，专注创作

Musify for Mac：轻松下载与管理音乐

AI口语练习APP的模拟考试

后勤采购管理系统（源码+文档+讲解+演示）

远程打游戏摸鱼哪款远控最流畅？盘点几款国产远控软件

智能制造：汽车从订单到交付全流程

Beyond Compare 5 for Mac：高效文件对比与同步工具

TiCDC 新架构试用启程

TikTok网络搭建方法：稳定的短视频运营与直播

Color Wheel for Mac：设计师的色彩搭配助手

上海第二批49家创新型企业总部名单出炉，合合信息入选

SD-WAN即服务如何重塑企业网络架构

TiDB Labs云环境测试故障期间数据库零宕机

百度百舸 DeepSeek 企业套件上线，加速 DeepSeek 融入企业生产业务

存储降本，查询提速！时序数据库 TDengine 助力靖江特钢释放数据价值！

TechSmith Snagit for Mac：屏幕捕捉与编辑的全能工具

TiCDC 新版本初体验 tidb->mysql

创作场景

音视频场景破局，视频云技术开启新浪潮

让 AI Bot 从“能说话”到“会说话”

端侧处理兴起，轻量级框架正当时

“全景式”的直播时代来临

评论

推荐阅读

电子书

大厂实战PPT下载

推荐阅读