AI视频时代，如何才能不掉队？

让你反复点赞收藏的短视频，或许已经不是人类做的了。

不久前，一段“皮卡丘打工”的 AI 视频，在全网流传爆火。精美的画面，流畅的动作，以及丝滑的雨滴，几乎可以与大制作的动画电影相媲美。

更久之前，今年抖音上爆火的科幻短剧《三星堆：未来启示录》，同样是由 AIGC 生成。这部剧 12 集，每集 3 分钟，讲述考古工作者联手揭开古蜀国神秘面纱的故事，一经上线，就引发 1.4 亿播放。其背后的技术支持字节旗下视频生成工具即梦，也随之引发市场关注。

技术的普及与工具的成熟，让视频创作门槛快速降低，在 AI 的助推下，用户从单纯的内容消费者升级为生产、消费和拥有的三位一体，视频的总量也随之爆炸性增长：当前，视频数据的规模飞速增长，IDC 预计，2025 年全球数据量将达到 175ZB，其中绝大部分将来自视频数据，而这一趋势，还将继续加速。

但 AI 视频时代，主角不止有 AI。同一时期，在消费端，随着全景直播、三维重建的成熟，伴随着国产 3A 大作《黑神话：悟空》中 AI 技术结合无人机实景三维重建实现真实场景的纹理与细节以 1:1 的比例精准还原，视频的交互与消费链路也从此被重构。

技术的成熟，叠加应用的爆发，AI 视频的战争，正迎来市场化为导向的下半场。

AI 视频时代的三座大山

以 AI 技术为为代表，一个新的视频生产、交互、消费时代正在缓缓拉开序幕，但近在眼前，仍有三座大山有待翻过。

与大家发布会上杀得你死我活形成鲜明对比的是，具体的场景之中，真正好用的产品并不多见。

两者中间的鸿沟，来自工程化。一个简单的例子，仅在 AI 视频生成环节，业内发布会上，AI 生成的视频中，小猫会正常跳跃，展示出的技术水平就已经遥遥领先；但现实中，一个会正常跳跃的小猫，只是最基础的要求，视频本身的内容与趣味的重要性，远远高于对 AI 技术的追求。

更具体来说，在生产端，成本与效率，正逐渐成为一个越来越棘手的难题。

一方面 AI 视频生产的赛道正随之变得前所未有的拥挤。Sora 发布引发全球视频大模型热潮，AI 视频的赛道也在很快的时间里变得拥挤。仅仅在国内，就先后出现了字节系即梦、快手系可灵，创业公司系 Pika、智谱清影、生数科技 Vidu 等一众明星产品。

然而，生成式 AI 带来的视频数据指数级增长对计算效能提出了严峻考验；年初推出的 Sora 模型的训练算力需求是 GPT-4 的 4.5 倍，而推理算力需求更是接近 GPT-4 的 400 倍。无论文生视频，还是图生视频，相关的算力指标动辄几十上百 T，甚至高达千 T，这种激增的成本，带来了算力资源的可负担性的挑战。

与此同时，多模态媒体处理挑战也日益凸显。多模态媒体处理需求的日益凸显对音视频处理的生产端、交互端和消费端提出了全新要求；生产端，多模态内容的生产是否足够高质高效，比如给用户交付的究竟是模型、API 还是一个类似即梦这样的软件都对应着不同的用户分层；交互端，当我们的交互从传统的单模态人机变成多模态交互乃至人与 AI 的交互，如何让机器更直观的理解人类的需求，依旧是个困扰，消费端，如何让交互空间从 2D 升级到 3D 乃至虚实融合，也对内容的创作以及呈现本身提出了更高要求。

同时，如何让技术应用真正落地并带来实际业务价值也是我们必须面对的问题。AI 视频很火，但成本同样不低，如何让内容生产出来之后能带来确定的收益，会决定 AI 视频长久的生命力。

单点的问题解决，需要编解码技术的更新，需要有应对洪峰波谷的能力，需要 AI 的加持。但系统性问题，需要的，则是一个所有能力的融会贯通，从生产端，到交互端，再到消费端的全链路解决方案。

而这，或许正是火山引擎视频云最擅长的地方。过去 Sora 等技术的成熟只是点燃了 0 到 1 的火种，但 AI 视频真正的爆发，还需要从 1 到 100 漫长的累积。

如何定义 AI 视频时代

AI 视频时代的到来理所当然，但如何定义 AI 视频时代，这曾是火山引擎视频云内部，一个长期的思考题。

通往未来的门票，就藏在对过去历史的梳理中。

经过复盘总结，火山引擎视频云认为，围绕视频，我们的时代，可以被分为三个阶段：

第一阶段，信息时代。以传统的 UGC 短视频内容为代表，我们中的大部分都是内容的消费者，我们与视频的交互，以手机屏幕的 2D 体验为代表，是一个在线、双向的过程；

第二阶段，到了数字时代，我们对视频品质的要求越来越高，PGC 成为内容生产的主流，直播兴起带来交互上的实时、流畅、高清，而交互的空间，也从二维逐渐向三维空间过渡。

这是一个生产侧内容的品质不断提升，交互侧效率不断提升，消费端交互体验与空间不断升维的过程。

相应的，AI 视频时代，自然也不等同于传统的数字视频时代加上 AI 能力，故事依旧要回到生产、交互、消费的叙事中来。

首先是生产端。AI 的加持，抹平了视频制作水平差距带来的鸿沟，AI 辅助视频制作，逐渐成为各大软件，人人可用、人人会用的基础技能。我们不再局限于主动的内容生产与被动的内容消费，在 AI 视频时代，用户将成为 AI 原生居民，既是内容的生产者，也是消费者，更是拥有者。在这背后，则是 AI 技术从过去的问答，到图文交互，再到如今多模态交互，多模态内容生产的一步步跨越。

而在交互端，技术的成熟，则进一步拉近了人与视频，真实世界与数字之间的连接。过去，留言的存在，让人人交互成为可能；直播等技术的兴起，通过互联网的链接，让人与人的实时交互得以实现。而以 GPT-4o、火山引擎对话式 AI 实时交互解决方案等技术为代表，人与 AI 的交互，则在多模态的基础上，变得更加实时流畅、逼真与拟人。全球市场研究机构 MarketsandMarkets 曾做出预测，到 2028 年，全球 AI 助手市场规模将达到 285 亿美元。在这背后，2023—2028 年的复合增长率将达到惊人的 43%。

消费端的这个趋势是更沉浸。以年初苹果发布的 Vision Pro 为代表，空间计算的新时代正式开启。在此之后，今年 7 月，抖音 VR 直播上线，9 月《黑神话：悟空》以其极具震撼力的视频画面质感、跌宕起伏的剧情架构和深厚的文化底蕴，迅速吸引了全球玩家的目光。3D、虚实融合与 VR 技术，将成为消费端变革的主力军，架起数字世界与物理世界之间的桥梁。

方向已经确认，一个新的时代就在眼前呼啸而来，接下来，火山引擎视频云的重点工作，就是去梳理在这次史无前例的市场爆发中，究竟还有多少痛点没有被解决，而火山引擎，手里又还有多少张牌。

为什么是火山引擎视频云

当确定了未来的大趋势，与眼前的具体困境后，接下来的故事就进入了火山引擎视频云最擅长的剧情，从生产到交互再到用户体验的全方位重构。

而这一切的基础，则是框架层的创新。AI 视频时代，超大规模视频训练数据集，导致了计算和处理成本激增；而伴随着视频数据质量参差不齐，数据样本的分类、分段和清洗也带来了庞大的工作量；整体处理链路涉及多个环节，工程复杂，需要多团队协作。相应地，对于视频云来说，框架不仅需要支持大模型的高效运行，还要能够满足日益复杂的音视频处理需求，以应对生成式 AI 时代带来的挑战。

为此，火山引擎联合英特尔共同发布了 BMF 大模型训练视频预处理方案并升级了大模型与 AI 能力。

BMF 在本次大会上，推出了不依赖任何第三方组件的轻量化开源版本 BMF-lite。通过 kernel 融合等创新方案，BMF-lite 实现了算子加速能力，大幅提升了视频处理的效率。在通用性上，BMF-lite 则提供了多平台统一的接口形式，让所有开发者都能轻松使用 BMF-lite。而随着视频处理越来越从云上向端侧迁移，BMF-lite 还新增了对端侧大模型的接入支持，为 AI 技术的融合提供了强大的支持。当前 BMF-lite 已经广泛地应用在了抖音的各个业务上，每天服务于上亿用户，处理视频图片万亿次。

此外，应对成本挑战，火山引擎通过海量的潮汐资源和精细化的混部调度来降低单用户的平均使用成本；而为了应对质量挑战，火山引擎视频云使用多种算法对视频进行多维度的分析和筛选，在实践中沉淀了 50 多个算子对视频进行了精细化的过滤；对于协同挑战，火山引擎视频云利用 BMF 的动态模块的特性，在短时间内完成了几十个算子的集成和处理链路的开发，迭代效率相比使用传统框架提升了数倍。应对性能挑战，基于英特尔 CPU 等各种不同的资源，火山引擎视频云则利用 BMF 框架的灵活调度，将复杂的算子处理流程灵活的部署在多种资源上，并实现了快速的性能调优，提升了任务吞吐，缓解了资源瓶颈。

在这背后，则是硬件在算力侧提供的稳定支持。为了应对多元的业务需求，选择不同的硬件来进行视频处理以实现最佳的性价比，是几乎所有企业都会面临的问题。英特尔强大的至强 CPU 处理能力，可以为 8K 视频实时处理、包括传统的 CV 视觉优化、LLM 和 AIGC 在内的多种 AI 应用，各种类型业务在火山引擎上的部署，提供强大的计算支持和可靠的服务。

与此同时，为了应对生成式 AI 时代，海量视频数据，用户高质量视频需求，不同对象丰富场景等需求，BMF 还推出了灵活高效大模型训练视频预处理能力，通过视频净化、多种算子、组合输出、大规模部署等技术，目前已经在生产环境中，取得良好效果。

而基于这种框架层面的创新，以及反复的内部练兵以及外部用户需求调研，针对市场痛点，火山引擎做出了三步走计划。

第一步，在生产端，降低视频的生产门槛，带动 AI 视频时代，人人成为视频内容的消费者、生产者以及拥有者。

基于这一认知，火山引擎视频云推出了多模态视频理解与生成方案，依托自研 AI 视频理解技术和 AIGC 技术，可以做到自动化提取视频高光和生成解说内容，让字幕识别错误率降低了 30%。

目前，该方案已探索针对短剧、赛事和直播电商的自动化解决方案。能够针对长视频进行智能拆分、高光片段提取和产出摘要描述，能够在提高人效的同时保证内容的精准传达。同时，结合 AIGC 技术生成视频素材，创作者可以快速完成预告片的视频生产，能够显著缩短制作周期并降低成本。

为了让内容生成更加丰富有趣，火山引擎视频云还落地实践了多模态营销素材生成方案，通过融合图像分析、AIGC（人工智能生成内容）、大模型处理、3D 物体重建等先进技术，实现了商品氛围图、图文视频、解说视频、AIGC 视频和 3D 商品模型等多模态营销素材的自动化生产。目前，这些创新服务已经支持自营电商智能氛围图的端到端自动化托管，并且在电商场景的核心指标上取得了显著提升。

当然，这种生产端的升级，并不止于视频画面，声音技术的升级同样重要。火山引擎视频云通过采用了自研的豆包语音大模型，实现了高品质多语言声音复刻，并利用虚拟人技术调整演讲者口型，让观感更加自然。

而在交互端，火山引擎视频云则推出了对话式 AI 实时交互解决方案，通过火山引擎豆包大模型和视频云 RTC 技术实现了语音数据的高效采集、处理和传输，并在服务端，并为用户提供了智能对话和自然语言处理的强大能力，毫秒级人声检测和打断响应，以及丝滑稳定的端到端响应体验。当前，这一方案已经广泛应用于智能助手、AI 陪伴、AI 教育、智能客服等场景，并为用户带来更自然、流畅和真实的人机交互体验。

框架的建构，解决了生产端的效率；交互的革新，带来了产品体验的进一步升级，AI 视频时代的未来已经初见雏形，但要让全链路的升级更加完整，还差最后一步——消费端的沉浸式体验升级。

今年以来，随着《黑神话：悟空》爆火，带动 3D 生成和场景重建技术兴起，火山引擎视频云推出了基于 AI 的 3D 生成方案，借助大模型强大的生成能力，采用基于图生 3D 的模式来完成 3D 内容的快速构建。同时，火山引擎视频云还上线了高质量 3D Gaussian-Splatting 场景重建及低延迟重渲染方案，用于对场景进行高质量的几何、外观重建和渲染，并实现行业内首个高斯方案支持复杂的实时重打光及阴影渲染。目前，该技术已经实际应用在虚拟直播等 VR/AR/XR 应用中，相比传统的手工 3D 建模, 在效率、多样性和操作成本等方面具备明显优势。

一定程度上，AI 视频时代，技术只是引爆一切的起点，但真正的商业化，则需要以用户的体验为核心，从框架到场景，从生产到交互再到消费端的全方位发力，市场也随之进入马拉松长跑阶段。

火山引擎视频云，为这场长跑的下半场，做了一次不错的探索。

创作场景

AI 视频时代，如何才能不掉队？

AI 视频时代的三座大山

如何定义 AI 视频时代

为什么是火山引擎视频云