AI视频技术突破静默，让每一帧画面实现声色同步

大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面的行业回顾和要点分析。现在，让我们回顾过去一周的大模型重大事件吧。

一、重点发现

视频生成模型的发展速度令人瞩目，在人工智能领域的竞争已经达到了白热化阶段。各大厂商之间的激烈角逐不仅推动了技术的快速进步，也为整个行业营造了一个更加公正和开放的竞争环境。尽管如此，从年初令人瞩目的 Sora 到近期的可灵、Luma、Gen-3 Alpha 等模型，它们所生成的视频作品均未能突破声音的局限。然而，Google DeepMind 推出的 V2A 技术，为这一问题提供了解决方案。从技术应用来看，V2A 技术与 Veo 等视频生成模型的结合，将能够创造出既具有戏剧性配乐、逼真音效，又能与视频中的角色、风格完美融合的对话镜头。这一创新标志着 AI 视频即将告别无声时代，迎来一个充满活力、充满创新的有声世界。

二、具体内容

大模型持续更新

6 月 19 日，中国气象局发布人工智能全球中短期预报系统“风清”、人工智能临近预报系统“风雷”和人工智能全球次季节—季节预测系统“风顺”。这三个大模型都是由中国气象局与清华大学联合攻关团队开发的。这三个大模型完成了基于国产全球大气再分析资料 CRA-40、雷达观测资料、风云卫星遥感资料的训练和检验评估，显著降低了当前主流气象预报大模型对国际再分析资料的依赖，提升了自主数据源的应用效率和准确性。
6 月 21 日，Anthropic 发布最新大模型 Claude 3.5 Sonnet，拥有前代模型 2 倍的推理速度和 1/5 的调用成本，在多项评测中超过了 GPT-4o。

多模态领域

6 月 17 日，Runway 公司发布了其最新力作——视频生成基础模型 Gen-3 Alpha，该模型能够生成包含丰富场景变换、多样电影风格以及精细艺术指导的视频作品。
6 月 18 日，松鼠 Ai 全新多模态智适应大模型发布会在上海召开，不仅宣布了教育大模型及系统的全方位升级，还推出了多款全新智适应教育硬件产品。在大模型方面，全新多模态智适应大模型在多模态智能错因分析与追根溯源、多模态智能人机互动、多模态智能测试与评估三大维度进行了全面迭代。在硬件方面，松鼠 Ai 推出了三款全新松鼠 Ai 智能老师——S211 白鹭松鼠 Ai 智能老师、S139 松鼠 Ai 智能老师以及 Z29 松果 Ai 智能老师，能给匹配不同用户需求，并全系搭载松鼠 Ai 最新多模态智适应教育大模型。

开源领域

6 月 15 日，英伟达宣布推出 Nemotron-4 340B，其包含一系列开放模型，可用于生成合成数据，训练大语言模型，以及所有行业的商业应用。
6 月 18 日，潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展，支持无缝产出任意风格的高质量短片，模型权重和训练代码已经全面开源。
6 月 18 日，基于文本生成音效工具，ElevenLabs 开源视频生成音效工具。无需寻找合适的音效，用户可以通过输入文本来生成配音，且大部分音效具有 Shutterstock 的商业授权。
6 月 19 日，B 站开源了轻量级 Index-1.9B 系列模型，包含基座模型、对照组、对话模型、角色扮演模型等多个版本。
6 月 19 日，Hedra Labs 发布视频生成模型 Character-1 的研究预览版，对多平台用户开放使用。Character-1 是一款能够通过文本和图片生成说话和唱歌视频的模型，最长支持 60 秒的免费体验，还是一个全新的创作平台，为用户提供视频创作机会。

科研领域

6 月 16 日，由上海科技大学、影眸科技以及宾夕法尼亚大学联合研发的 DressCode，标志着 3D 服装生成技术的重大突破。作为首个全面支持 CG 操作，并无缝融入工业生产流程的框架，DressCode 通过文本驱动的方式，能够自动生成具备卓越渲染品质、高度可编辑性、可驱动性以及仿真特性的 3D 服装。

应用探索

新产品新应用/功能新动态

6 月 17 日，谷歌 DeepMind 发布了 V2A 技术进展，该技术可以结合视频像素和自然语言文本提示，为无声视频添加逼真的音效，能够实现同步的视听生成。
6 月 19 日，OpenAI 宣布和 Color Health 合作，探索通过 GPT-4o 创建 AI 工具 Cancer Copilot，帮助医生根据患者数据制定筛查和治疗计划，从而能够就癌症筛查和治疗做出更加合理的决策。
6 月 19 日，Meta 发布 AudioSeal，一款音频水印技术，能在音频片段中精准识别 AI 生成的音频内容。
6 月 19 日，月之暗面 Kimi 开放平台将启动 Context Caching 内测，将支持长文本大模型以及上下文缓存机制。
6 月 19 日，前小度 CEO 景鲲和前小度 CTO 朱凯华联合创立的 AI 创新产品公司 MainFunc 推出了旗下首款 AI Agent 搜索产品 GenSpark。该产品是一款 AI Agent 引擎，旨在“利用 AI 提供更好的搜索体验”。
6 月 19 日，Luma AI 对其视频生成模型 Dream Machine 进行了重大更新，推出了 Extend 功能。这项新功能允许用户在保持原有视频风格和人物特征一致性的前提下，将原本生成的 5 秒视频延长至 10 秒以上。
6 月 20 日，百度智能云的曦灵数字人平台即将经历一次重大升级。此次升级不仅优化了 2D 和 3D 数字人的生成过程，实现了成本效益和效率的双重提升，而且还在直播、短视频和对话等多种应用场景中实现了无缝集成。用户仅需提供一段简短的描述，系统便能迅速模仿人类的创意思维，仅需 10 分钟就能自动创造出栩栩如生的 3D 数字人形象。

智能体

6 月 20 日，斯坦福大学研究人员研发了一款仿人机器人 HumanPlus，这款机器人可以模仿人类的行为，并支持模仿动作来进行学习，例如自主叠衣服、搬运物品、弹钢琴等。

报告推荐

Sora 来袭，国内发展文生视频模型的土壤如何？各公司用脚投票开闭源路线的当下，开源在大模型市场进程中的价值正在被重新定义吗？人型机器人重回视野，大模型是否助力其刷新能力上限？Devin 和智能编码助手是同一条赛道上的不同节点？多家企业宣布 All in AI，对市场意味着什么？答案尽在 InfoQ 研究中心发布的《2024 年第 1 季度大模型监测报告》，关注「AI 前线」公众号，回复「季度报告」免费下载，一睹为快吧~

报告预告

金融行业是否找到了 AGI 应用的最佳路径？取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏？金融机构一定要做 AGI 建设吗？如何考量金融 AGI 应用产品的效果？欢迎大家持续关注 InfoQ 研究中心即将发布的《AGI 在金融领域的应用实践洞察》。

活动推荐

InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会，汇聚顶尖企业专家，深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名，6 月 30 日前可以享受 8 折优惠，单张门票节省 960 元（原价 4800 元），详情可联系票务经理 13269078023 咨询。

原文链接：https://aicon.infoq.cn/2024/shanghai/schedule?utm_source=wechat&utm_medium=aiart2-0624

创作场景

AI 视频技术突破静默，让每一帧画面实现声色同步 | 大模型一周大事