多模态技术爆发元年，行业应用如何落地？

近年来，多模态大模型技术发展迅速，展现出强大的视觉理解能力，显著提升了 AIGC 的可控性，各行各业正经历从“人工密集型”到“AI 原生驱动”的颠覆性变革。那么，多模态技术中面临哪些核心技术挑战？在 AIGC 技术落地过程中，会产生什么新的应用场景？大模型的下一阶段突破可能来自哪些方向？

近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了 上海交通大学人工智能学院副教授赵波 担任主持人，和 快手快意多模态模型算法负责人高欢、腾讯混元专家研究员邵帅 一起，在 AICon全球人工智能开发与应用大会 2025 上海站即将召开之际，共同探讨多模态大模型如何开启智能交互新篇章。

部分精彩观点如下：

先训练一个大模型，再用它来蒸馏小模型或减少推理步数，比直接训练小模型或低步数模型效果更好。
现阶段，比起通用模型，针对特定业务场景定制化的垂直领域模型仍是更优选择。
如果单纯为了追求效果而无限制地扩大模型规模，虽然可能获得性能提升，但投入产出比会明显失衡。
轻量级模型在处理相关性判断和创意类任务时表现足够出色，对于需要深度知识储备和强推理能力的任务则需要大规模模型。

在 5 月 23-24 日将于上海举办的 AICon 全球人工智能开发与应用大会上，我们特别设置了【多模态大模型创新实践】专题。该专题将深入解析多模态大模型的技术原理，探讨其在智能客服、智能驾驶等领域的创新应用，展示多模态大模型如何实现语音、文本、图像等协同交互。

查看大会日程解锁更多精彩内容：https://aicon.infoq.cn/2025/shanghai/schedule

以下内容基于直播速记整理，经 InfoQ 删减。

完整直播回放可查看：https://www.infoq.cn/video/mNVM5eqQsFsd0H4sZNrD

技术挑战

赵波： 前段时间 GPT-4O 文生图功能令人印象深刻，从 CLIP 实现跨模态“图文对齐”，到 DALL·E 掀起文生图革命，多模态技术正打破单一感知的边界。快手的 AIGC 技术，让视频生产成本直降 50%。快手快意模型目前在多模态领域具体在探索什么方向？以及选择探索这些”方向的原因是什么？

高欢： 快手当前重点推进的 AIGC 业务"可灵"，已具备基于文本或图片生成视频的核心能力。为支撑该业务，我们构建了深度视频理解系统，通过多模态模型对视频内容进行语义解析与知识关联，确保模型建立完整的世界知识框架。这使得用户输入指令时，系统能智能生成符合语义的画面呈现——这种文本到视频（T2V）模型训练中的多模态理解能力具有关键作用。

例如在数字人场景中，我们的多模态模型已有效提升主播与观众的交互体验；在素材剪辑场景中，通过精准的素材定位检索功能，显著降低用户创作门槛；同时在电商及广告领域，多模态理解技术为商品展示、海报生成等环节提供核心支撑。当前技术方向聚焦于构建 caption 模型，包括 rephraser 与 prompt engineering 模块，通过深化用户意图理解和视频内容解析，持续提升视频生成模型的语义还原度。

赵波：近期腾讯混元大模型也在多模态理解与生成方面努力，显著提升了内容创作效率。腾讯目前在多模态领域具体在做什么方向呢？

邵帅： 腾讯正基于多模态基础模型，研发图像、视频、3D 内容生成系统。与单纯依赖文本输入的基础模式不同，实际业务中更多采用图生图、图生视频等混合生成模式，并延伸至图片 / 视频 /3D 编辑、智能混剪等理解 - 生成一体化场景。腾讯生态的多元化内容需求（如腾讯视频、微信生态、游戏及广告业务）持续驱动技术创新。目前相关技术已在影视创作、社交内容生产、游戏资产生成、智能广告投放等领域实现规模化应用。

赵波：高欢老师是否可以分享一下快手在 caption 模型这一块运用的独特技术？

高欢： 快手的技术布局聚焦多模态内容生成领域，覆盖文生图、文生视频、图生图、图生视频全链路生成能力。其技术核心在于预训练阶段对多模态数据的深度解析——不仅需要提取基础语义信息，同时涉及美学要素提取。相较于传统 caption 任务仅关注事件要素记录，我们更强调通过美学维度的结构化解析提升生成内容质量。

在技术实现层面，我们重点构建了镜头语言解析能力，包括景别识别、运镜模式分析等影视化特征建模。通过数据标注体系优化与模型架构创新在可控参数量级下实现了高精度 caption 标注。这些结构化描述数据为模型构建世界知识体系提供关键支撑，使其能准确解析用户输入的 prompt，最终实现创作意图的精准视觉转化。

赵波：大家的模型是开源、闭源？为什么选择开源或闭源？如果是闭源将来是否会开源？认为未来多模态技术会是开源更强还是闭源更强？

邵帅： 腾讯混元团队认为开源与闭源并非对立的技术路线，而是交替引领行业发展的双轨模式——开源生态通过社区智慧加速技术迭代，闭源体系则更聚焦商业场景的深度优化。

开源模型能有效吸纳开发者社区的创新成果。例如我们开源的图像 / 视频生成模型，已吸引大量开发者在底层架构上构建 LoRA 微调模块、ControlNet 控制流等工作流，这些衍生创新通过技术反哺持续增强原始模型能力；中长尾业务场景存在碎片化需求（如区域化营销素材生成、小众内容创作工具），开源模型为中小团队提供了低成本试错路径，待验证场景可行性后再进行商业闭环构建；在设计师增效工具、广告内容生产等核心场景，商业价值实现取决于技术效果与应用适配度，而非单纯依赖模型的开源属性。

需要强调的是，开源策略实际上拓展了技术商业化的可能性边界：当社区开发者基于开源模型解决特定场景需求后，其验证成功的解决方案可通过技术集成反哺企业级产品，最终实现生态价值的正向循环。这种社区创新 - 商业转化的双向流动机制，正是腾讯践行技术开放战略的核心考量。

高欢： 从快手的角度来看，我们目前主要在做的事情涉及更复杂的系统，而非单一模型就能支持的。因此，我们与开源社区的互动更多以技术分享为主。在过去一年中，我们开源了可图，为社区提供了相应的技术输出。此外，在可灵的开发过程中，我们也整理了一些效果较好的技术方案，并将其开源，同时发表了相关论文。

关于开源与闭源的选择，我们认为两者各有优势。但目前，我们的核心目标是为客户提供更完善的服务，因此整个系统仍以闭源为主。现阶段，我们更专注于优化系统架构，因此尚未计划将核心业务开源。

赵波： 我们作为高校实验室当然是拥抱开源的，从模型、代码到数据都是完全开源的。

赵波：多模态理解和生成的区别？以及结合点？有没有什么融合趋势？

邵帅： 我认为一个非常重要的结合场景是：如何利用理解模型来提升生成模型的性能。从技术实现上，可以将其分为训练前、训练中、训练后三个阶段。

训练前，理解模型至少可以发挥两个作用：数据清洗和数据标注。我们的实践经验表明，数据质量与生成效果呈正相关，因此我们在这一环节投入了大量优化工作。训练过程中，强化学习是一个关键能力，而强化学习通常依赖奖励模型，而奖励模型本身就是一个理解模型。

训练后，生成模型的应用可以进一步分为生成前和生成后两个阶段：生成前，目前常用的方法是 prompt rewriting。我们发现，许多用户输入的 prompt 较为简单，通过优化用户的原始 prompt，可以显著提升输出质量。生成后，我们也在探索多种优化手段，比如 test-time scaling；我们也会做 post-filtering，例如，在某些场景下，我们可能一次性生成 10 张图，但仅返回其中 4 张质量最佳的结果给用户。

目前，我们已经观察到生成与理解一体化的明显趋势，并且这一进展可能会比预期更快。如果这类一体化模型能结合强大的语言模型，还能复用其知识和推理能力，进一步提升生成效果。

高欢： 我们认为模型架构并非当前最重要的考量因素，关键还是在于技术路线的选择和应用目标。例如，在 GPT-4o 的技术方向上，赵老师团队此前发表的 EMU-3 论文已经验证了相关技术路线的可行性。我们团队主要从 Diffusion 模型的角度进行探索。Diffusion 模型非常依赖对用户意图的理解，以及多模态信息的处理能力。虽然传统观点认为自回归模型更适合理解任务，Diffusion 模型更适合生成任务，但我们认为未来应该以实际应用效果为导向。

赵波：多模态技术中，处理不同模态数据（如视频、图像、文本）时，分别面临的核心技术挑战是什么？

邵帅： 目前最核心的难题在于多模态对齐与融合的问题。不同模态数据在数据结构上都存在显著差异，这种根本性的差异导致我们需要解决两个关键技术难点：一方面是如何设计通用的 tokenizer 来实现跨模态的统一表征，另一方面是如何建立有效的模态对齐机制来实现异构数据间的语义关联。

在实际应用过程中，我们还面临着数据平衡的挑战。当训练数据中某一模态占据优势时，往往会导致其他模态的性能出现退化。此外，在多任务学习场景下，当模型需要同时处理多种不同类型的任务时，经常会出现任务之间的相互干扰问题，以及计算资源如何合理分配的难题。

高欢： 与静态图像不同，视频是由连续帧构成的时序数据，这对当前受限于上下文窗口的自回归大语言模型提出了更高要求。目前常见的解决方案包括帧采样、降低分辨率增加帧数，或是采用 token merge 技术来压缩视觉 token。但每种方法都不可避免地会损失部分信息，这种信息损耗在进行深度多模态理解时尤为关键。

作为短视频平台，我们每天都需要处理海量的新数据，这带来了热门概念快速更迭的问题。一个今天爆火的舞蹈可能明天就过时了，而训练一个模型往往也需要一整天时间，这就导致模型刚训练完就可能面临失效的风险。为了解决这个问题，我们探索了 RAG 等技术方案，以及轻量级训练方法来快速融入新概念。

短视频数据还呈现出独特的静态特征：平台上大量视频包含特效、突破物理规律的创意内容，这些与真实世界的物理规律存在显著差异。虽然传统训练方法难以准确理解这类内容，但它们恰恰是文本生成视频中最具价值的部分。

这些技术挑战最终都指向推理成本的增加。为了处理更长的视频序列，我们需要引入更多帧和思维链，这直接导致推理时间延长。同时，某些场景下小模型完全无法胜任，必须使用大模型并经过专门训练才能达到可用水平。

赵波： 我们课题组目前专注于长视频理解大模型的研究，核心要解决的问题是如何高效提取和压缩视频中的信息。正如高欢老师提到的，视频数据最大的挑战在于其冗余性——长视频会产生海量的 token。我们近期完成的 Video-XL 和 Video-XL-Pro 两项工作，分别从两个维度进行了技术创新：一是充分利用大语言模型自身的 token 压缩能力，二是从源头压缩视觉 tokenizer 产生的 token 数量。

赵波：多模态训练是否缺数据？如何应对？

邵帅： 我们始终面临着数据不足、标注质量欠佳、美学标准不达标以及多样性匮乏等挑战。在策略上，我们采用"先多后精"的技术路线：前期收集海量数据进行预训练模型训练，同时建立完整的数据清洗和标注管线。

我们将数据分为铜标、银标、金标三个等级，形成金字塔式的数据体系。对于精品数据，我们不仅要关注基础质量，还要考量美学价值和具体任务适配性。虽然图文匹配和文生图数据相对容易获取，但编辑类任务的数据却十分稀缺。以草图生图任务为例，构建草图与完整图片的配对数据就极具挑战性。为此，我们广泛采用合成数据和构造方法。例如，让人根据完整图片绘制草图要比反向操作容易得多。

最近我们还面临新的挑战：训练数据中混入了 AI 生成内容，这些数据的鉴别难度很高，一旦混入训练集就可能污染整个训练流程，这比以往的数据问题更加棘手。

高欢： 当前高质量数据和垂直领域数据都存在严重短缺。垂直数据往往依赖现有业务场景的积累，但新业务开发时又恰恰缺乏这些数据，形成了一个典型的"先有鸡还是先有蛋"的困境。为此我们不得不投入大量精力来人工构造训练数据，整个过程相当复杂耗时。

从实践数据来看，当前 LLM 训练规模已达数万亿 token 级别，而多模态模型即便算上主流训练案例，整体 token 量级仍相差一个数量级。换算成样本数量的话，差距就更为明显。目前多模态数据不仅总量不足，还存在严重的分布不均衡问题。开源数据集中的样本往往过于"精致"而缺乏多样性，这导致很多开源模型难以直接应用于工业场景的具体任务。

赵波：在两家的多模态模型中是否已经用了基于用户反馈的强化学习？是否有显著的性能提升？

邵帅： 在用户反馈方面，我们发现评价标准与用户偏好之间存在显著差异。对于明显的 Badcase，比如三腿六指、动作不自然等问题，大家容易达成共识。但在美学偏好等主观评价上，比如人物形象是否好看，往往难以形成统一标准。为此，我们开发了通用美学和人像美学的评估体系，通过建立数据标准和标注算子，在强化学习中引入这些"软性"指标，显著提升了生成内容的美学质量。

在广告等业务场景中，我们尝试直接利用 CTR、CVR 等业务指标作为优化目标。每张投放的生成图片都能获得真实的用户反馈数据，这为我们提供了直接的优化信号。

高欢： 从对话系统的角度来看，用户反馈的应用存在一些特殊考量。特别是在开放域对话场景中，很多时候回答并没有绝对的对错之分。虽然简单回答"不知道"在技术上是准确的，但这会直接终止对话。为了维持更自然的对话体验，我们会分析哪些回复能促使用户继续交流，并以此作为正向反馈信号。这种优化既包括在线实时调整，也包含离线模型迭代。

在快手的具体业务中，强化学习的应用场景非常丰富。特别是在那些"左右都算对"但存在业务偏好的场景，RLHF 发挥着重要作用。而在 caption 生成这类任务上，我们主要采用 DPO 方法，通过 reward model 来优化模型表现。

我们发现视频理解模型常犯两个典型错误：一是事件顺序错乱，二是过度冗长的描述。针对顺序问题，我们主动构造负样本，通过交换事件顺序来训练模型；针对过度描述问题，DPO 能有效控制模型在适当时机停止生成。

赵波：在多模态领域前沿探索方面，目前有哪些研究热点？

赵波： 去年我们重点研究了视频理解大模型，发现现有多模态模型虽然能较好处理图像文本和短视频（通过拆帧方式），但对于小时级长视频的理解能力仍然有限。特别是在算力受限情况下，处理长视频的海量 token 和复杂时序信息更具挑战性。

近期我们转向研究多模态大模型的空间和时间感知能力。我们开发了一个新的 Benchmark：STI-Bench，系统评估了主流开源和闭源模型在三维空间感知及时间理解方面的表现。该评测涵盖封面场景、室内场景和室外场景三种环境，重点考察模型对物体位置、运动轨迹等定量的时空关系的理解能力。

高欢： 从实际应用来看，当前多模态模型在空间方位理解普遍存在不足，这对 AIGC 应用是致命问题——当用户要求"左手动"时若模型错误生成"右手动"，就会直接导致客诉。

长视频理解是我们另一个重点方向，存在两种典型情况：一种是内容简单的长视频，只需简短描述；另一种是信息密集的长视频，需要准确捕捉复杂运动、事件序列、背景元素和美学特征, 目前还没有模型能在不损失时空精度的情况下完全处理这种复杂信息。近期涌现的 VideoChat-R1、Kimi-VL 等工作，以及从选择题评分扩展到 caption 生成的研究方向，都显示出这个领域正在被赋予新的使命。

邵帅： 在强化学习方面，我们重点研究如何更好地对齐人类美学偏好，优化生成内容的质量。同时，我们也在深入探索指令遵循能力的提升，包括利用自回归模型完成各类编辑任务，实现 ID、风格、文本等多维度的可控生成，以及引入姿态、音频等额外控制条件来驱动数字人生成等应用场景。

在视频生成领域，我们发现当前主流模型大多只能生成 4-5 秒的短视频片段，而实际业务往往需要 3 分钟以上的长视频生成能力。此外，推理速度的优化也是关键问题，过长的生成时间不仅影响用户体验，还会显著增加推理成本。这些研究方向既涉及核心算法突破，也直接关系到技术落地的可行性。

行业落地应用

赵波：在提升多模态模型的效率（如降低计算成本、加速推理）方面，两位认为当前最值得关注的技术路径是什么？

高欢： 由于不同业务场景的需求差异很大，快手目前还没有一个统一的多模态模型能够覆盖所有应用场景。现阶段我们主要采用两种技术路线：一是直接训练小模型，二是通过大模型蒸馏小模型，以获得符合特定业务需求的能力。

近期我们重点关注 token 压缩技术，包括 token merge、token fusion 等技术方向。在一些评测中我们发现，即使去除 70-80% 的 token，模型性能仍能保持稳定。在实际业务场景中也验证了这一规律：对于那些不需要精细细节处理的任务，采用激进的 token 压缩方案可以大幅缩短推理窗口。当推理窗口缩减至原来的 1/4 时，推理性能可获得成倍提升。

此外，我们也借鉴了语言模型领域的成功经验，如投机采样等技术。通过小模型来辅助优化推理过程，可以显著降低部署成本。

邵帅： 目前我们主要关注两个技术方向：首先是编解码器的效率优化，通过开发更高效率的编码器，可以在几乎不损失模型效果的前提下实现数倍的效率提升，这本质上类似于一个无损压缩问题。另一个重要方向是模型蒸馏技术，特别是针对 Diffusion 模型步数过长的优化。以标准 100 步的模型为例，如果能成功蒸馏到 10 步，就能获得 10 倍的效率提升。

我们的实践经验表明，先训练一个大模型，再用它来蒸馏小模型或减少推理步数，这种方案比直接训练小模型或低步数模型效果更好，这种"先大后小"的蒸馏策略已经成为我们提升模型效率的重要手段。

赵波：面对定制化的模型需求，我们应该直接训练垂直领域模型，还是应该训练通用模型？实际应用中有什么优劣吗？

高欢： 现阶段来看，定制化的垂直领域模型仍是更优选择。虽然未来或许能通过一个通用模型（all in one）完成这类任务，但这与前述推理成本问题密切相关。目前，我们的业务算法团队已能通过微调或上下文学习结合特定指令 / 小样本等方式，高效构建精致的定制模型。

邵帅： 这两类模型将会共存并各自发挥价值，虽然从纯效果指标来看，通用模型的理论上限更高，但实际业务落地时需要面对诸多现实考量。

首先在数据层面，通用模型要在特定任务达到最佳表现通常需要海量数据支撑，而实际业务中很多长尾场景恰恰缺乏足够数据。这类场景更适合采用小样本学习或上下文学习等技术方案。反观中长尾业务，通用模型凭借其优异的泛化能力往往能取得不错效果。而对于那些数据充足的头部业务场景，针对性地进行模型精调往往能带来显著的效果提升。

另一个关键因素是推理效率。经过专门优化的垂直模型可以压缩到极小规模，其推理速度相较通用模型甚至能有 1-2 个数量级的提升。这种性能优势在实时性要求高的场景尤为重要。

基于这些观察，我们通常采用"先通用后定制"的渐进策略：新业务场景可先尝试通用模型方案，待验证效果并积累足够数据后，再评估是否需要转向定制化方案。这种灵活务实的做法，既能控制初期投入成本，又能为后续优化保留空间。

赵波： 我们实验室此前在垂直领域进行过一些探索性尝试，包括医学 CT 影像大模型以及具身智能方向——虽然严格来说后者不完全属于垂直领域范畴。我们曾尝试将通用大模型通过微调适配到特定领域，比如医疗领域，或在将通用模型继续训练成视觉语言动作模型（VLA）。在这个过程中，我们观察到一个有趣现象：模型经过垂直领域微调后，往往会丧失原有的通用对话能力。

这引出了一个关键的技术难题：如何在提升模型垂直领域专业能力的同时，不损害其通用能力？目前来看，这仍是一个亟待解决的重要技术挑战。

赵波：在技术落地的业务场景中，端侧算力限制是否为落地的关键瓶颈？如何平衡效果与速度？

高欢： 从实际业务落地的角度来看，我们往往需要在模型效果和执行效率之间寻找平衡点。如果单纯为了追求效果而无限制地扩大模型规模，虽然可能获得性能提升，但投入产出比会明显失衡，甚至出现负值。

目前这个矛盾在短期内仍将显著影响我们的技术选型。为此我们正在推进多项优化工作：包括采用更高效的视频编码器、实施 token 压缩技术，以及探索大模型的 INT8 量化方案等。在某些特定场景中，小型模型确实难以满足需求，这就迫使我们必须在现有技术条件下寻找创新性的解决方案。

邵帅： 一旦涉及 trade-off，就意味着这个问题已经不存在完美解决方案。实际决策时，我们不仅需要考虑效果、耗时和用户体验，还必须将训练成本和推理成本纳入考量范围。

面对具体业务场景时，我们首先会评估是否可以采用预生成或异步处理方案。比如利用夜间潮汐资源进行离线计算，次日反馈结果；或者提前生成内容建立检索库。这种方式能巧妙规避多个矛盾：既可以使用大模型获得最佳效果，又因异步处理无需担心耗时问题，同时潮汐资源还能大幅降低成本。

但对于必须实时处理的场景，我们通常会设计折中方案。例如同时部署极速版和高质量版双模型，为用户提供选择权：是立即获取普通效果，还是等待更优结果。也可以采用混合策略，先用快速模型生成初稿，再用大模型优化最终质量。另一个思路是允许用户离开当前页面，待结果就绪后通过推送通知召回。

在耗时优化方面，需要区分量变与质变。大多数技术如模型蒸馏、量化只能带来量变改进（如响应时间从 5 秒缩短到 3 秒）。但在直播等特殊场景，耗时优化必须达到质变级别——任何延迟都不可接受。这种情况下，即便牺牲部分效果也要优先保证实时性，否则整个方案就无法落地应用。这种质变优化往往能解锁全新的业务可能性。

赵波：当模型推理速度达到实时的时候，会产生什么新的应用场景？

邵帅： 传统互联网时代有着严格的速度标准——页面加载超过 1 秒就会影响体验，服务响应超过 3 秒就难以接受。但在当前的大模型应用中，30 秒甚至更长的等待时间变得常见，在高峰时段排队等待 30 分钟的情况也时有发生。有趣的是，用户对这种延迟的容忍度明显提高了，这主要源于大模型带来的前所未有的能力突破。虽然用户勉强接受了这种体验降级，但显然这种交互方式远非理想状态，这也促使行业普遍开始重视"first-token 延迟"的优化工作。

如果我们能够将模型响应速度提升到实时或秒级，整个交互模式将发生根本性变革。以文生图或文生视频场景为例，当前的交互流程是：输入提示词→点击生成→等待结果→评估质量→可能需要重新生成。这种模式效率低下。未来我们完全可以实现更流畅的体验——比如在绘图场景中实现"一笔一生成"的实时渲染，或者在对话式生成中实现语音输入与图像生成的同步进行，真正做到"边说边生成"。

这种革新将彻底消除传统"输入 - 等待 - 输出"的断点式交互，代之以无缝的实时体验。在数字人直播、智能客服、AI 面试官等需要即时反馈的场景中，这种变革尤为重要。我相信，这种交互革命很快就会成为行业标配，而实现这一目标的关键就在于持续优化模型的响应速度。

高欢： 从交互方式和多模态（any to any）的角度来看，如果真能实现实时推理，那么《三体》小说中描绘的许多场景都将成为现实。我们可以轻松地将脑海中的想象即时转化为视觉可见的内容，这将极大地提升我们的预判和决策能力——AI 能实时提供各种信号和依据来辅助我们做出判断。

观众：数据达到多少才有必要定制，以及定制化需要的最小数据集大小应该是什么样？

邵帅： 关键考量因素在于业务价值而非单纯的数据量，只要某个场景具备足够高的业务价值，就有必要考虑定制化方案。至于最低数据要求，当前已有多种轻量化定制技术，比如使用 LoRA 等方法，在图像或视频领域可能仅需几十到一百张样本就能启动训练——当然数据越多效果越好。

我们在实际业务中探索出一种"自增强"方法：初始阶段可能仅用 10 张图片训练一个初始模型，虽然效果有限，但可以用它批量生成新样本。假设生成 1000 张图中仅有 10% 可用，我们就能筛选出 100 张质量合格的图片加入训练集。通过多次这样的迭代循环，最终可以获得数量充足且质量达标的定制数据集。

赵波：模型技术路线方面，做更大、和做更轻量化的模型分别有什么不同？有哪些对应的落地场景？

高欢： 模型规模与能力确实存在直接关联——更大的模型通常表现更优，而轻量级模型则更适合实时业务需求。以 caption 为例，若追求极致精准度，大规模模型无疑是更好的选择；但在需要全量处理的海量数据场景下，轻量化模型才是更实际的选择。

在实际应用中，我们通常会采用分级处理策略：对于包含复杂事件或多重要素的困难样本，调用大模型处理；而对于相对简单的常规视频，则使用轻量模型完成。这种差异化方案能够充分发挥不同规模模型的优势。

赵波：是否有某些特定的场景说它一定大模型更适合一些，然后或者轻量型模型更适合一些？

高欢： 在短视频理解任务中，我们将其划分为几个主要类别：创意类、事实类、相关性判别类等。根据我们的实践经验，轻量级模型在处理相关性判断和创意类任务时表现足够出色，经过适当训练即可满足需求。然而，对于需要深度知识储备和强推理能力的任务——如问答类或判别类场景——大规模模型展现出明显优势。特别是在内容审核这类高风险领域，采用大模型往往至关重要。

邵帅： 在模型选型策略上，我们通常会从两个关键维度进行考量：首先是业务发展阶段。对于尚处探索阶段的新业务，由于技术成熟度不足，我们更倾向于采用性能最优的大模型进行可行性验证。只有当模型能力确实满足场景需求后，才会着手进行模型压缩和成本优化，推动方案进入稳定交付阶段。

其次是用户需求性质。我们将需求划分为"灵感激发"和"生产输出"两类：在灵感场景中，用户往往需要快速生成大量参考样本（如寻找创作灵感或具象化模糊概念），这时轻量快速的模型更为合适；而在确定性生产场景中（如最终成品输出），质量优先于速度，即便需要更长的等待时间或隔日交付，用户也愿意为更优质的结果买单。

观众：现在模型训练过程中是不是已经遇到了很多的 AIGC 图片，这些 AIGC 图片是不是已经产生了一些副作用？我们应如何应对？

高欢： 需要明确的是，AIGC 生成内容并非没有价值——它们特别适合用于补充特定概念或罕见元素组合的数据缺口。实际操作中，我们通过严格的数据预处理流程来确保内容质量：对于达到 100% 拟真度的 AIGC 内容，完全可以视同真实素材使用；而对于存在瑕疵的生成内容，通过识别筛选后，可以调整其在训练集中的配比。

邵帅： 在 AIGC 内容应用上，我们采取风格区分的策略。对于写实类风格（如照片级真实感），需要特别警惕生成内容中的 artifact 问题——包括过度磨皮、纹理缺失、摩尔纹等典型的人工痕迹，这类瑕疵会严重影响模型的训练效果。但在非真实感渲染（NPR）领域，如卡通、动漫、游戏等风格化场景，AIGC 内容经过人工美学把关后，能有效补充传统手绘难以覆盖的新概念和新风格。

赵波：在 AIGC 技术落地过程中，腾讯混元大模型在哪些关键业务场景实现了显著的效率提升？

邵帅： 腾讯混元已在游戏生产环节实现了显著的效率优化，在 2D 概念阶段，该技术已应用于角色、皮肤、特效及场景的高效生产。同时，3D 技术也在部分游戏场景中落地，目前主要用于道具和简单场景的建模。在创新玩法方面，我们重点关注互动影游这一游戏与影视结合的新形式。传统互动影游需要为每个叙事分支拍摄大量素材，特别是大 IP 改编作品时，召回明星补拍的成本极高。而通过 AIGC 技术，可以实现人物对话和场景分支的动态生成，这大大降低了制作难度。

在泛营销场景中，该技术被用于广告素材的智能化生成，包括图片和高转化率的视频内容制作。特别是针对广告视频的关键前三秒，传统方式需要投入高昂成本制作夸张画面来吸引观众，而现在通过 AIGC 技术可以快速生成创新内容，同时有效避免重复或触发消重系统的问题。

赵波：快手在哪些业务场景有明显的效率提升？生产力提升？

高欢：T2V 训练的收敛速度显著加快，这主要得益于数据质量的提升。高质量数据让模型能够更好地区分容易混淆的概念，有效降低了错误理解的干扰。类似的现象在语言模型训练中也很明显，随着数据质量的提高，模型的收敛速度和在各类榜单指标上的表现都有显著提升。

未来趋势

赵波：多模态大模型的下一阶段突破可能来自哪些方向？技术、数据、应用落地分别将会有什么样的突破？

邵帅： 数据层面即将迎来重要突破：通过利用更多模态的数据，即使某些模态存在缺失，也能训练出具有更强指令遵循和泛化能力的模型。此外，当前的数据清洗流程虽然提升了数据平均质量，但也损失了大量潜在信息。未来我们需要探索如何增强模型的抗噪能力，从低质量数据中提取更多信息，或通过修复技术提升数据质量。

第二，个性化将成为关键发展方向。每个用户都有独特的兴趣偏好和需求表达方式，可能是通过文本，也可能是通过交互反馈。如何为不同用户或不同场景提供差异化能力，实现真正的"千人千面"，将是重要的发展方向。

第三，应用层面将迎来显著增长。目前已有相对成熟稳定的技术方案可供实际使用，不再局限于研究探索阶段。同时，技术应用的耗时和成本都大幅降低。用户认知也发生了重要转变：相比一两年前人们更多是抱着尝鲜心态体验新技术，现在用户对模型的能力边界已有清晰认知，越来越多的人开始思考如何利用这些模型解决具体问题，因此 2025 年必将成为 AI 应用大规模落地的一年。

高欢： 就像语言模型从最初的百花齐放发展到后来的大一统，从单纯的语言理解演进到 RAG 和智能体等更复杂的应用，多模态技术也将完整地经历这个过程。未来很可能会出现一个真正实现"any to any"转换的 all in one 统一模型，这已经成为行业共同努力的方向。

展望未来，像 VLA（视觉语言动作）这样的具身智能应用将会更加丰富。从技术发展节奏来看，2023 年第一季度 GPT-3.5 的出现推动了语言模型的快速发展，2024 年则是文本到视频（T2V）技术突飞猛进的一年。而今年 OpenAI 推出的图片编辑工具，已经展现出向"any to any"模型发展的趋势。因此，我们有理由期待 2025 年可能成为"any to any"多模态技术爆发的关键年份。

赵波： 我们近期主要关注的方向是大模型的空间感知能力。当前多模态模型主要聚焦于平面 2D 视觉和语义理解，而我们正在推动其向三维空间感知方向发展，让模型能够更深入地理解和感知物理世界。在多模态生成模型方面，我们正在进行视频生成技术的创新探索，核心突破点在于赋予视频生成模型记忆能力——当模型再次进入同一场景时，能够保持生成场景中物体的连续性。这项技术突破将有效解决现有视频生成中的一致性问题，为内容创作带来新的可能性。

赵波：DeepSeek R1 模型很火，多模态模型中 Reasoning 的重要性如何？这其中的 Reasoning 是语言层面的更重要？还是视觉层面的更重要？以及会产生哪些重要应用？

邵帅： 我有一个不太成熟的观点：Diffusion 模型的推理过程与 COT 思维链推理具有高度相似性，两者都是通过逐步生成的方式，从初始相对粗糙的结果出发，经过层层迭代和优化，最终获得更优质的结果。

基于这个观察，我认为类似 COT 的推理过程不仅适用于纯语言模型，在多模态模型或大一统模型中也同样可行。事实上，如果采用自回归式的建模方法，我们就能充分利用现有语言模型和多模态模型的知识储备与推理能力。目前我们已经在图像和视频生成的前置环节进行实践探索。例如，在生成过程中引入类似语言模型的 planning 机制——先进行布局 layout 或草图生成，再进入具体的生成阶段，这种方法能够有效提升生成内容的逻辑性和连贯性。

创作场景

多模态技术爆发元年，行业应用如何落地？