QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

AI 视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事

  • 2024-06-26
    北京
  • 本文字数:2649 字

    阅读完需:约 9 分钟

AI视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

视频生成模型的发展速度令人瞩目,在人工智能领域的竞争已经达到了白热化阶段。各大厂商之间的激烈角逐不仅推动了技术的快速进步,也为整个行业营造了一个更加公正和开放的竞争环境。尽管如此,从年初令人瞩目的 Sora 到近期的可灵、Luma、Gen-3 Alpha 等模型,它们所生成的视频作品均未能突破声音的局限。然而,Google DeepMind 推出的 V2A 技术,为这一问题提供了解决方案。从技术应用来看,V2A 技术与 Veo 等视频生成模型的结合,将能够创造出既具有戏剧性配乐、逼真音效,又能与视频中的角色、风格完美融合的对话镜头。这一创新标志着 AI 视频即将告别无声时代,迎来一个充满活力、充满创新的有声世界。

二、具体内容

大模型持续更新

  1. 6 月 19 日,中国气象局发布人工智能全球中短期预报系统“风清”、人工智能临近预报系统“风雷”和人工智能全球次季节—季节预测系统“风顺”。这三个大模型都是由中国气象局与清华大学联合攻关团队开发的。这三个大模型完成了基于国产全球大气再分析资料 CRA-40、雷达观测资料、风云卫星遥感资料的训练和检验评估,显著降低了当前主流气象预报大模型对国际再分析资料的依赖,提升了自主数据源的应用效率和准确性。

  2. 6 月 21 日,Anthropic 发布最新大模型 Claude 3.5 Sonnet,拥有前代模型 2 倍的推理速度和 1/5 的调用成本,在多项评测中超过了 GPT-4o。

多模态领域

  1. 6 月 17 日,Runway 公司发布了其最新力作——视频生成基础模型 Gen-3 Alpha,该模型能够生成包含丰富场景变换、多样电影风格以及精细艺术指导的视频作品。

  2. 6 月 18 日,松鼠 Ai 全新多模态智适应大模型发布会在上海召开,不仅宣布了教育大模型及系统的全方位升级,还推出了多款全新智适应教育硬件产品。在大模型方面,全新多模态智适应大模型在多模态智能错因分析与追根溯源、多模态智能人机互动、多模态智能测试与评估三大维度进行了全面迭代。在硬件方面,松鼠 Ai 推出了三款全新松鼠 Ai 智能老师——S211 白鹭松鼠 Ai 智能老师、S139 松鼠 Ai 智能老师以及 Z29 松果 Ai 智能老师,能给匹配不同用户需求,并全系搭载松鼠 Ai 最新多模态智适应教育大模型。

开源领域

  1. 6 月 15 日,英伟达宣布推出 Nemotron-4 340B,其包含一系列开放模型,可用于生成合成数据,训练大语言模型,以及所有行业的商业应用。

  2. 6 月 18 日,潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展,支持无缝产出任意风格的高质量短片,模型权重和训练代码已经全面开源。

  3. 6 月 18 日,基于文本生成音效工具,ElevenLabs 开源视频生成音效工具。无需寻找合适的音效,用户可以通过输入文本来生成配音,且大部分音效具有 Shutterstock 的商业授权。

  4. 6 月 19 日,B 站开源了轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、角色扮演模型等多个版本。

  5. 6 月 19 日,Hedra Labs 发布视频生成模型 Character-1 的研究预览版,对多平台用户开放使用。Character-1 是一款能够通过文本和图片生成说话和唱歌视频的模型,最长支持 60 秒的免费体验,还是一个全新的创作平台,为用户提供视频创作机会。

科研领域

  1. 6 月 16 日,由上海科技大学、影眸科技以及宾夕法尼亚大学联合研发的 DressCode,标志着 3D 服装生成技术的重大突破。作为首个全面支持 CG 操作,并无缝融入工业生产流程的框架,DressCode 通过文本驱动的方式,能够自动生成具备卓越渲染品质、高度可编辑性、可驱动性以及仿真特性的 3D 服装。

应用探索

新产品新应用/功能新动态

  1. 6 月 17 日,谷歌 DeepMind 发布了 V2A 技术进展,该技术可以结合视频像素和自然语言文本提示,为无声视频添加逼真的音效,能够实现同步的视听生成。

  2. 6 月 19 日,OpenAI 宣布和 Color Health 合作,探索通过 GPT-4o 创建 AI 工具 Cancer Copilot,帮助医生根据患者数据制定筛查和治疗计划,从而能够就癌症筛查和治疗做出更加合理的决策。

  3. 6 月 19 日,Meta 发布 AudioSeal,一款音频水印技术,能在音频片段中精准识别 AI 生成的音频内容。

  4. 6 月 19 日,月之暗面 Kimi 开放平台将启动 Context Caching 内测,将支持长文本大模型以及上下文缓存机制。

  5. 6 月 19 日,前小度 CEO 景鲲和前小度 CTO 朱凯华联合创立的 AI 创新产品公司 MainFunc 推出了旗下首款 AI Agent 搜索产品 GenSpark。该产品是一款 AI Agent 引擎,旨在“利用 AI 提供更好的搜索体验”。

  6. 6 月 19 日,Luma AI 对其视频生成模型 Dream Machine 进行了重大更新,推出了 Extend 功能。这项新功能允许用户在保持原有视频风格和人物特征一致性的前提下,将原本生成的 5 秒视频延长至 10 秒以上。

  7. 6 月 20 日,百度智能云的曦灵数字人平台即将经历一次重大升级。此次升级不仅优化了 2D 和 3D 数字人的生成过程,实现了成本效益和效率的双重提升,而且还在直播、短视频和对话等多种应用场景中实现了无缝集成。用户仅需提供一段简短的描述,系统便能迅速模仿人类的创意思维,仅需 10 分钟就能自动创造出栩栩如生的 3D 数字人形象。

智能体

  1. 6 月 20 日,斯坦福大学研究人员研发了一款仿人机器人 HumanPlus,这款机器人可以模仿人类的行为,并支持模仿动作来进行学习,例如自主叠衣服、搬运物品、弹钢琴等。


报告推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~



报告预告

金融行业是否找到了 AGI 应用的最佳路径?取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏?金融机构一定要做 AGI 建设吗?如何考量金融 AGI 应用产品的效果?欢迎大家持续关注 InfoQ 研究中心即将发布的《AGI 在金融领域的应用实践洞察》



活动推荐

InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名,6 月 30 日前可以享受 8 折优惠,单张门票节省 960 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。



原文链接:https://aicon.infoq.cn/2024/shanghai/schedule?utm_source=wechat&utm_medium=aiart2-0624

2024-06-26 09:444011

评论 2 条评论

发布
用户头像
怎么不更新了
2025-01-03 10:08 · 浙江
回复
没有更多了
发现更多内容

Navicat Premium:数据库全能管家,管理无忧!

Rose

淘宝商品评论API:获取商品升级迭代后的用户反馈

技术冰糖葫芦

API 接口 API 文档 API 测试 API 性能测试

如何用支付宝实现靠脸吃饭

盐焗代码虾

支付宝 刷脸支付 一脸通行

GreatSQL 在SQL中使用 HINT 语法修改会话变量

GreatSQL

数据库

用户的声音| 出色的表格解析能力!TextIn文档解析助力金融信息化企业数据底座建设

合合技术团队

金融 #科技

在Abaqus中施加恒定载荷应选择静态还是动态分析步?

思茂信息

载荷 abaqus 有限元分析

【质量视角】可观测性背景下的质量保障思路

京东科技开发者

Adobe Creative Cloud 创意应用软件 可解决adobe安装过程中的大部分问题

Rose

2024海南等保测评机构名单汇总

行云管家

等保 等保测评 海南

使用豆包MarsCode 来处理 Excel 的数据吧!

豆包MarsCode

人工智能 程序员 AI

Excelize 开源基础库 2.9.0 版本正式发布

xuri

golang 开源 办公自动化 Excelize 办公软件

大模型时代的数据治理之道|StartDT Talk

奇点云

人工智能 大数据 AI 数据治理 大模型

Microsoft Office 2019永久破解补丁 Mac/win

Rose

强大的局域网远程播放 nPlayer for Mac v1.4.0中文激活版

Rose

RAG vs 长上下文 LLMs:谁主沉浮?

Baihai IDP

程序员 AI LLMs rag Baihai IDP

软件测试学习笔记丨人工智能 | mixtral大模型

测试人

人工智能 软件测试

Sketch快捷键大全 附Sketch最新中文激活安装包

Rose

万亿狂奔背后的券商IT:重度量、做提效、稳扎稳打不要飘

思码逸研发效能

研发效能 金融科技 券商 效能度量 研发效能度量

Final Cut Pro:视频剪辑新纪元,创意无限!

Rose

基于开源IM即时通讯框架MobileIMSDK:RainbowChat v11.7版已发布

JackJiang

MobileIMSDK 即时通讯;IM;网络编程 RainbowChat

火山引擎数智平台VeDI:A/B实验互斥域流量分配体系上线

字节跳动数据平台

ab测试

CNCC | 超强阵容!CCF-网易雷火联合基金研讨会嘉宾率先揭晓

网易伏羲

人工智能 网易伏羲 cncc

哪里有Axure RP 10激活码? Axure RP 10 for mac永久授权码分享

Rose

免费BT资源下载利器 BitComet(比特彗星)

Rose

基于Ascend C的Matmul算子性能优化最佳实践

华为云开发者联盟

人工智能 性能优化 算子 Ascend

AlDente Pro:苹果电脑电池寿命延长工具

Rose

adobe ai 2021功能介绍 及破解安装教程(Mac/win)

Rose

Caffeine学习笔记

京东科技开发者

AI视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事_AI&大模型_InfoQ研究中心_InfoQ精选文章