AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

AI 视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事

  • 2024-06-26
    北京
  • 本文字数:2649 字

    阅读完需:约 9 分钟

AI视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

视频生成模型的发展速度令人瞩目,在人工智能领域的竞争已经达到了白热化阶段。各大厂商之间的激烈角逐不仅推动了技术的快速进步,也为整个行业营造了一个更加公正和开放的竞争环境。尽管如此,从年初令人瞩目的 Sora 到近期的可灵、Luma、Gen-3 Alpha 等模型,它们所生成的视频作品均未能突破声音的局限。然而,Google DeepMind 推出的 V2A 技术,为这一问题提供了解决方案。从技术应用来看,V2A 技术与 Veo 等视频生成模型的结合,将能够创造出既具有戏剧性配乐、逼真音效,又能与视频中的角色、风格完美融合的对话镜头。这一创新标志着 AI 视频即将告别无声时代,迎来一个充满活力、充满创新的有声世界。

二、具体内容

大模型持续更新

  1. 6 月 19 日,中国气象局发布人工智能全球中短期预报系统“风清”、人工智能临近预报系统“风雷”和人工智能全球次季节—季节预测系统“风顺”。这三个大模型都是由中国气象局与清华大学联合攻关团队开发的。这三个大模型完成了基于国产全球大气再分析资料 CRA-40、雷达观测资料、风云卫星遥感资料的训练和检验评估,显著降低了当前主流气象预报大模型对国际再分析资料的依赖,提升了自主数据源的应用效率和准确性。

  2. 6 月 21 日,Anthropic 发布最新大模型 Claude 3.5 Sonnet,拥有前代模型 2 倍的推理速度和 1/5 的调用成本,在多项评测中超过了 GPT-4o。

多模态领域

  1. 6 月 17 日,Runway 公司发布了其最新力作——视频生成基础模型 Gen-3 Alpha,该模型能够生成包含丰富场景变换、多样电影风格以及精细艺术指导的视频作品。

  2. 6 月 18 日,松鼠 Ai 全新多模态智适应大模型发布会在上海召开,不仅宣布了教育大模型及系统的全方位升级,还推出了多款全新智适应教育硬件产品。在大模型方面,全新多模态智适应大模型在多模态智能错因分析与追根溯源、多模态智能人机互动、多模态智能测试与评估三大维度进行了全面迭代。在硬件方面,松鼠 Ai 推出了三款全新松鼠 Ai 智能老师——S211 白鹭松鼠 Ai 智能老师、S139 松鼠 Ai 智能老师以及 Z29 松果 Ai 智能老师,能给匹配不同用户需求,并全系搭载松鼠 Ai 最新多模态智适应教育大模型。

开源领域

  1. 6 月 15 日,英伟达宣布推出 Nemotron-4 340B,其包含一系列开放模型,可用于生成合成数据,训练大语言模型,以及所有行业的商业应用。

  2. 6 月 18 日,潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展,支持无缝产出任意风格的高质量短片,模型权重和训练代码已经全面开源。

  3. 6 月 18 日,基于文本生成音效工具,ElevenLabs 开源视频生成音效工具。无需寻找合适的音效,用户可以通过输入文本来生成配音,且大部分音效具有 Shutterstock 的商业授权。

  4. 6 月 19 日,B 站开源了轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、角色扮演模型等多个版本。

  5. 6 月 19 日,Hedra Labs 发布视频生成模型 Character-1 的研究预览版,对多平台用户开放使用。Character-1 是一款能够通过文本和图片生成说话和唱歌视频的模型,最长支持 60 秒的免费体验,还是一个全新的创作平台,为用户提供视频创作机会。

科研领域

  1. 6 月 16 日,由上海科技大学、影眸科技以及宾夕法尼亚大学联合研发的 DressCode,标志着 3D 服装生成技术的重大突破。作为首个全面支持 CG 操作,并无缝融入工业生产流程的框架,DressCode 通过文本驱动的方式,能够自动生成具备卓越渲染品质、高度可编辑性、可驱动性以及仿真特性的 3D 服装。

应用探索

新产品新应用/功能新动态

  1. 6 月 17 日,谷歌 DeepMind 发布了 V2A 技术进展,该技术可以结合视频像素和自然语言文本提示,为无声视频添加逼真的音效,能够实现同步的视听生成。

  2. 6 月 19 日,OpenAI 宣布和 Color Health 合作,探索通过 GPT-4o 创建 AI 工具 Cancer Copilot,帮助医生根据患者数据制定筛查和治疗计划,从而能够就癌症筛查和治疗做出更加合理的决策。

  3. 6 月 19 日,Meta 发布 AudioSeal,一款音频水印技术,能在音频片段中精准识别 AI 生成的音频内容。

  4. 6 月 19 日,月之暗面 Kimi 开放平台将启动 Context Caching 内测,将支持长文本大模型以及上下文缓存机制。

  5. 6 月 19 日,前小度 CEO 景鲲和前小度 CTO 朱凯华联合创立的 AI 创新产品公司 MainFunc 推出了旗下首款 AI Agent 搜索产品 GenSpark。该产品是一款 AI Agent 引擎,旨在“利用 AI 提供更好的搜索体验”。

  6. 6 月 19 日,Luma AI 对其视频生成模型 Dream Machine 进行了重大更新,推出了 Extend 功能。这项新功能允许用户在保持原有视频风格和人物特征一致性的前提下,将原本生成的 5 秒视频延长至 10 秒以上。

  7. 6 月 20 日,百度智能云的曦灵数字人平台即将经历一次重大升级。此次升级不仅优化了 2D 和 3D 数字人的生成过程,实现了成本效益和效率的双重提升,而且还在直播、短视频和对话等多种应用场景中实现了无缝集成。用户仅需提供一段简短的描述,系统便能迅速模仿人类的创意思维,仅需 10 分钟就能自动创造出栩栩如生的 3D 数字人形象。

智能体

  1. 6 月 20 日,斯坦福大学研究人员研发了一款仿人机器人 HumanPlus,这款机器人可以模仿人类的行为,并支持模仿动作来进行学习,例如自主叠衣服、搬运物品、弹钢琴等。


报告推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~



报告预告

金融行业是否找到了 AGI 应用的最佳路径?取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏?金融机构一定要做 AGI 建设吗?如何考量金融 AGI 应用产品的效果?欢迎大家持续关注 InfoQ 研究中心即将发布的《AGI 在金融领域的应用实践洞察》



活动推荐

InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名,6 月 30 日前可以享受 8 折优惠,单张门票节省 960 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。



原文链接:https://aicon.infoq.cn/2024/shanghai/schedule?utm_source=wechat&utm_medium=aiart2-0624

2024-06-26 09:444045

评论 2 条评论

发布
用户头像
怎么不更新了
2025-01-03 10:08 · 浙江
回复
没有更多了
发现更多内容

React高级特性之Render Props

夏天的味道123

React

React高级特性之Context

夏天的味道123

React

react进阶用法完全指南

xiaofeng

React

双向绑定

yyds2026

Vue

Webpack构建速度优化

Geek_02d948

webpack

用javascript分类刷leetcode3.动态规划(图文视频讲解)

js2030code

JavaScript LeetCode

记一次漏洞挖掘【网络安全】

网络安全学海

网络安全 安全 信息安全 渗透测试 WEB安全

Vue实战必会的几个技巧

yyds2026

Vue

拆解一下消息队列、任务队列、任务调度系统

Java永远的神

程序员 架构 程序人生 后端 java面试

Webpack最佳实践

Geek_02d948

webpack

js函数式编程讲解

hellocoder2029

JavaScript

软件测试 | 测试开发 | 校招面试真题 | 测试流程大概是什么?

测吧(北京)科技有限公司

测试

顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!

阿里巴巴文娱技术

人工智能 情感计算

react组件深度解读

xiaofeng

React

MASA MAUI iOS如何绑定微信

MASA技术团队

MASA MAUI Xamarin MASA Blazor

为什么说网络安全行业是IT行业最后的红利?

网络安全学海

网络安全 安全 信息安全 渗透测试 WEB安全

Spring面试题(部分)

Andy

华为云数据库-GaussDB for MySQL数据库

爱尚科技

架构实战营作业3

阿姆斯壮

架构实战营 架构实战训练营9期

正版软件授权代理限时无门槛开放!仅限十一月份!

淋雨

软件 销售 代理商

用Js怒刷LeetCode

Geek_07a724

JavaScript LeetCode

太全!不愧是Github爆火的阿里812页高并系统设计核心技术全解

程序员小毕

程序员 架构 程序人生 后端 高并发

、作用域链和它的一些优化

hellocoder2029

JavaScript

软件测试面试真题 | Pytest 的内置 fixture 有哪些?

测试人

面试 软件测试 测试开发 测试流程

「MySQL高级篇」MySQL索引底层原理,设计原则详解

Java全栈架构师

Java MySQL 数据库 程序员 索引

喜讯!麦聪软件获得国际权威机构颁发的CMMI3证书

雨果

麦聪软件 CMMI3

nodejs实现jwt

coder2028

node.js

koa实战

coder2028

node.js

Spring Framework框架简介

Andy

Sanitizers 系列之 Sanitizers 概述

网易云信

运维 服务器

AI视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事_AI&大模型_InfoQ研究中心_InfoQ精选文章