立即领取|华润集团、宁德核电、东风岚图等 20+ 标杆企业数字化人才培养实践案例 了解详情
写点什么

鲶鱼效应显著!Sora 发布满月,多模态领域成果丰硕 | 大模型一周大事

  • 2024-03-25
    北京
  • 本文字数:5169 字

    阅读完需:约 17 分钟

大小:2.52M时长:14:41
鲶鱼效应显著!Sora发布满月,多模态领域成果丰硕 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周多模态领域迎来多项重要突破。Stability AI 推出的 SV3D 模型显著提升了 3D 视频生成质量,腾讯等团队推出的 Follow-Your-Click 和 Stable Drag 模型分别实现了图生视频和精确图片编辑的功能,而 Seeking AI 等联合提出的 World GPT 框架则实现了图片文本到视频的生成与编辑。此外,华中科技大学与字节跳动合作的 GLEE 模型实现了图像视频目标的全面感知,Freepik 的 Reimagine AI 工具简化了图片处理流程,HyperGAI 的 HPT 模型展示了跨模态理解与生成能力,字节跳动发布的 Animate Diff-Lightning 则大幅提升了文生视频的速度。同时,开源动漫主题的从文本到图像模型 Animagine XL3.1 的发布也丰富了动漫风格的创作可能。这些多模态技术的突破不仅展示了人工智能在处理复杂信息方面的巨大潜力,也预示着未来在内容创作、视觉编辑、虚拟现实等多个领域将出现更多创新和应用。

二、具体内容

大模型持续更新

垂直领域

  1. 3 月 20 号,360 集团宣布 360 安全大模型 3.0 升级发布,系国内首个实现 AI 实战应用的安全行业大模型。据介绍,该模型基于 360 近二十年安全和 AI 领域技术积累总结出的安全大模型核心战法升级而成,可通过智能体框架赋能企业已有的探针、平台,提炼专家知识赋能增强 360 安全云,帮助企业打造数字安全体系。

多模态领域

  1. 3 月 19 号,Stability AI 推出基于 Stable Video Diffusion 的 3D 视频生成大模型「Stable Video 3D」(简称 SV3D),该能够显著提升 3D 生成的质量和多视角一致性,效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。

  2. 腾讯联合清华、港科大在论文《Follow-Your-Click:Open-domain Regional Image Animation Via Short Prompts》中推出全新图生视频大模型 Follow-Your-Click ,把任意一张照片输入模型后点击想选中的区域再加上少量简单的提示词(如:动作、神态等),图片中原本静态的区域就能动起来。

  3. 南京大学、腾讯的几位研究者在《StableDrag: Stable Dragging for Point-based Image Editing》中提出了一个更加稳定和精确的图片拖拽编辑框架(AI 拖拽 P 图)——StableDrag。这一方法中的判别式点跟踪方法能够精确地定位更新的操纵点,提高长程操纵稳定性。而其中基于置信的潜在增强策略能够在所有操纵步骤中,保证优化的潜在变量尽可能地高质量。

  4. 来自 Seeking AI、哈佛大学、斯坦福大学以及北京大学的研究人员在《WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs》中提出了一种创新的基于图片—文本的视频生成编辑统一框架,不仅能够实现由图片和文本直接生成视频的功能,还支持通过简单的文本提示(prompt)对生成视频进行风格迁移、背景替换等一系列视频外观编辑操作。

  5. 华中科技大学与字节跳动的联合研究团队开发了一款名为 GLEE 的视觉目标基础模型,该模型能够一次性处理图像和视频中的几乎所有目标感知任务。其可以根据任意开放词汇表进行目标检测,并根据目标的外观和位置描述进行分割和跟踪。相关的研究成果发表在论文《GLEE: General Object Foundation Model for Images and Videos at Scale》中。

  6. HyperGAI 发布其多模态大语言模型:HPT 具有跨模态理解与生成能力,能处理和生成不同类型数据(如文本、图像、视频等),并能够理解这些不同模态之间的联系和相互作用。

  7. 字节跳动发布文生视频大模型 AnimateDiff-Lightning ,其能够更快地根据文本描述生成视频,比起原来的 AnimateDiff 模型,速度提升十倍以上。除了能够根据文本生成视频之外,AnimateDiff-Lightning 还可以进行视频到视频的生成,比如可以将现有视频转换成不同风格的视频。

  8. 一款全新的开源动漫主题的文本到图像模型 Animagine XL3.1 已经正式发布。该版本在原有的基础上进行了一系列的升级和优化,使其对广泛的动漫作品和风格的理解更加深入,通过整合新的数据集,Animagine XL3.1 扩展了其对动漫作品的理解范围,无论是经典的作品,还是最新发布的动漫,都能被该模型准确地捕捉和理解。

科研领域

  1. 华盛顿大学 David Baker 团队在最新研究《Atomically accurate de novo design of single-domain antibodies》中使用生成式 AI 来帮助他们制造全新的抗体,这意味着研究人员开始将 AI 引导的蛋白质设计引入价值数千亿美元的治疗性抗体市场。

  2. 中国科学院、哈佛大学、斯坦福大学、约翰霍普金斯大学的研究团队在最新的研究《Riboformer: a deep learning framework for predicting context-dependent translation dynamics》中提到了他们开发的一个基于深度学习的框架 Riboformer,主要用于对翻译动态中上下文相关的变化进行建模,并且 Riboformer 能够以密码子分辨率准确预测核糖体密度

  3. 美国麻省总医院、哈佛医学院等组成研究团队迄今为止最大的两个 CPath 基础模型:UNI 和 CONCH。这些基础模型适用于 30 多种临床和诊断需求,包括疾病检测、疾病诊断、器官移植评估和罕见疾病分析。相关研究发布在《Towards a general-purpose foundation model for computational pathology》上。

开源领域

  1. 香港科技大学(广州)的研究团队在论文《LLMLight: Large Language Models as Traffic Signal Control Agents》中提出一个基于 LLMLight 的框架的交通信号控制(TSC)垂类大模型 LightGPT 近期宣布开源。这一模型在信号灯控制这类任务中的决策能力显著优于 GPT-4,即便在济南、杭州、纽约等复杂路网下,也展示出突出的性能。

  2. Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同推进视频创作的新纪元。

  3. 3 月 18 日凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。这也使得 Grok-1 成为当前参数量最大的开源大语言模型。

应用探索

产品新应用/功能

  1. 3 月 17 号,云阙智能在“京师大模型传播应用系统第二期发布暨大模型垂直应用论坛”中正式发布了其创新自主研发的大模型垂直应用——“云阙 AI”。该平台具备多模态、跨媒体、全场景的 AIGC 内容营销能力,旨在赋能企业和超级个体在数字化和智能化转型过程中实现战略升级,并提供综合全面的 AIGC 专业培训、技术工具及营销解决方案。

  2. 月之暗面 Kimi 模型经过升级,目前提供了一个 200 万字的窗口版,用户可以申请使用。在与 Kimi 对话的过程中,新增加了一个“继续”功能按钮,旨在不打断模型的思路,以改善交互体验。

  3. 通义听悟上新了 AI 音视频问答助手“小悟”,在业界首次支持了单记录、跨记录、多语言超长音视频自由提问。对于用户上传的视频文件短时间内便可以一键提取出关键词、全文概要以及自动划分好章节,还有要点回顾等,甚至连 PPT 都可被提取出来。而且,它不仅能够根据音视频记录对用户提出的问题给出答案,还会在最后标出引用出处以及对应时间戳,点击时间戳就能自动跳转到原视频对应位置。

  4. HeyGen 已经发布了其最新的 5.0 版本,这一版本将所有功能进行了整合,为用户提供了更加便捷的体验。为了满足用户对于高效、智能的需求,新版本在用户界面、视频编辑和实时聊天等方面都进行了全面的升级,此次升级无疑将进一步强化 HeyGen 在相关领域的领先地位。

  5. Magnific AI 的照片风格化功能已经正式推出。这个全新的功能可以把你的任何照片转换成你想要的任何风格。无论是想改变任何图像,你都可以轻松控制传输的样式数量和结构完整性,为 3D、视频游戏、室内设计、娱乐等多个领域提供了无限的应用可能。

  6. Pipio 公司推出了一款创新的视频自动 AI 配音工具,该工具能够将视频中的声音翻译成其他语言,并克隆视频原声进行自动配音,同时保持翻译配音后的声音和翻译语言口型一致。

  7. 知名图片资源平台 Freepik 推出了一款名为 Reimagine AI 的革新性工具,该工具以其独特的实时无限滚动生成图像功能,为图片处理领域注入了全新的活力。其能够自动为用户上传的图片生成提示词,无需手动输入文字。这一功能的实现,极大地简化了用户的操作流程,使得图片处理变得更加便捷。

  8. 3 月 20 日,“2024 知乎发现大会”成功在京举办,会上知乎正式发布了全新 AI 功能“发现·AI 搜索”。该功能以社区可信赖内容为来源,给用户带来集新搜索、实时问答和追问功能于一体的全新体验。

  9. 3 月 21 日,百度智能云在北京发布 5 款领先的大模型和 55 个全新工具组件,展现其在人工智能领域的创新实力。这些大模型精度更高、适应性更强,为企业提供了强大的智能支持。同时,新工具组件的上线也丰富了平台功能,为用户提供一站式解决方案,推动人工智能技术的更广泛应用。

智能体

  1. 清华叉院高阳教授机器人研究团队在最新的研究《CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models》中提出的具身智能框架 CoPa 首次实现了多场景、长程任务、复杂 3D 行为的泛化能力。CoPa 不仅可以深入理解用户需求的同时,还可以精确地操作物体,完成例如冲咖啡、插花等任务。

  2. 3 月 16 日,DeepMind 公布了其在人工智能领域的一项重大突破:SIMA。这是一种通用 AI 智能体,能够在多种 3D 虚拟环境中根据自然语言指令执行任务。SIMA 包括一个为精确图像-语言映射而设计的模型,以及一个视频模型。SIMA 仅需要屏幕上的图像和用户提供的简单自然语言指令,就能操控游戏中的角色完成指令。

终端 AI

  1. 3 月 18 日晚的春季旗舰新品发布会上,荣耀公布了其 AI 使能的全场景战略,并推出了多款新产品。其中荣耀还首次发布了 AI PC 产品—荣耀 MagicBook Pro 16。这款笔记本电脑集成了多项 AI 技术,如 AI 智慧搜索、荣耀 OS Turbo 3.0 技术和荣耀 LINK Turbo 技术,以及 AI 文档总结功能,旨在全方位提升用户体验。

  2. 美东时间 3 月 21 日周四,生成式 AI 领军的微软将由 OpenAI 大模型加持 Copilot 功能引入整个产品组合,从 Microsoft 365 到 Microsoft Teams、Edge,现在是 100% 整合进了 Windows 系统本身,可以说只要你有电脑,就能用得上。

基础设施   

芯片

  1. 在年度 GTC 会议上,英伟达首席执行官黄仁勋宣布推出基于 Blackwell 架构的 B200 系列和 GB200 芯片。B200 拥有 2080 亿个晶体管,足以支持包含多达 10 万亿个参数的 AI 模型。值得注意的是,Blackwell B200 并非传统意义上的单一 GPU,而是由两个紧密耦合的芯片组成,以确保其能够作为单个完全一致的芯片正常运行。

  2. 高通已经正式发布了全新的生成式 AI 手机芯片——骁龙 8s Gen 3。这款芯片的定位仅次于最顶级的旗舰产品,但其 AI 性能并未有所减弱。它能够支持在端侧运行拥有 100 亿参数的大型模型,这与骁龙 8 Gen 3 的配置完全相同。此外,它还有能力运行 Baichuan-7B、Google Gemini Nano、Llama2 和 ChatGLM 等多种模型。

算法

  1. 来自北京大学林宙辰教授团队在论文《Hebbian Learning based Orthogonal Projection for Continual Learning of Spiking Neural Networks》中提出了一种新的基于赫布学习的正交投影的连续学习方法,其通过神经网络的横向连接以及赫布与反赫布学习,以神经形态计算的方式提取神经元活动的主子空间并对突触前神经元的活动迹进行投影,实现了连续学习中对旧知识的保护。

  2. Maisa 推出了一种名为 KPU 的新型技术框架,旨在通过分离推理和数据处理来优化和提升大语言模型处理复杂任务的能力。使用 KPU 后,GPT-4、Claude 3 Opus 等模型在多个基准测试和推理任务中的表现得到了显著提升,甚至超越了未使用 KPU 的原模型。

  3. 在 2024 年的游戏开发者大会(GDC)上,腾讯发布了一款自主研发的游戏 AI 引擎,名为 GiiNEX。这款引擎基于生成式 AI 和决策 AI 技术,能够支持游戏从研发到运营的全生命周期需求。具体来说,无论是 AI NPC 的对话生成,还是场景制作中的 3D 城市建造,以及剧情、关卡、音乐等内容生成,GiiNEX 都能覆盖,并且效率非常高。


除了每周的动态更新,InfoQ 研究中心也将以季度为周期,发布《大模型季度监测报告》,跟踪大模型行业的最新动态和相关产品测试。

《2023 年第 4 季度中国大模型季度监测报告》预计将于 2024 年 3 月底正式发布,届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点和中文特色四大维度展开,欢迎大家持续关注。


2024-03-25 14:003125

评论

发布
暂无评论

云原生月报丨阿里云云原生月度动态(202303)

阿里巴巴云原生

阿里云 云原生 月报

音视频处理MCP:视频版权保护

百度开发者中心

音视频 智能视频 视频版权保护

系统天气再现bug 网友:墨迹天气赶紧上!

Geek_2d6073

Flink SQL 在美团实时数仓中的增强与实践

Apache Flink

大数据 flink 实时计算

2023年郑州市等级保护测评机构名单汇总

行云管家

等保 郑州 等保测评机构

音视频处理MCP:视频添加字幕

百度开发者中心

视频 音视频开发 智能视频

国产数字化升级工具强势来袭,瓴羊Quick BI工具免费试用

对不起该用户已成仙‖

远程调试为何要亲历现场,也许也可以这样解决

石臻臻的杂货铺

远程调试

高新技术产业包括哪些?拥有高新企业证书说明什么?

行云管家

高新企业 高新技术 高新

阿里工作10年,我总结出了这份1071页Spring全家桶核心笔记

三十而立

LeetCode题解:136. 只出现一次的数字,哈希表,JavaScript,详细注释

Lee Chen

JavaScript LeetCode

深度学习基础入门篇[二]:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解 1.基础指

汀丶人工智能

人工智能 机器学习 深度学习 算法评价指标

适用于所有 Mac 的温度监控、风扇控制和诊断:TG Pro

Rose

Mac硬件温度检测 TG Pro for mac 苹果软件资源站 macw软件站

火山引擎DataLeap:3小时分享,体系化讲透企业数据治理如何做?

字节跳动数据平台

活动 数据治理 论坛 数据研发 企业号 4 月 PK 榜

ByteHouse技术白皮书正式发布,云数仓核心技术能力首次全面解读(内附下载链接)

字节跳动数据平台

数据仓库 云原生 白皮书 数据存储 企业号 4 月 PK 榜

Serverless冷启动:如何让函数计算更快更强?

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

基于 Flink ML 搭建的智能运维算法服务及应用

Apache Flink

大数据 flink 实时计算

6步带你用Spring Boot开发出商城高并发秒杀系统

华为云开发者联盟

高并发 开发 华为云 华为云开发者联盟 企业号 4 月 PK 榜

“阿里味”GitHub上新软件架构设计与业务架构融合手册

做梦都在改BUG

Java 架构 架构设计

Reactor线程模型的演进和局部无锁化

做梦都在改BUG

硬核!互联网资深大佬手码高并发编程速成笔记(2023版)限时开源

三十而立

Java IT java面试

一文快速了解火山引擎A/B测试平台

字节跳动数据平台

大数据 AB testing实战 A/B 测试 企业号 4 月 PK 榜

生成式AI已形成全球性“AI再造业务”趋势

百度开发者中心

#人工智能 文心一言 文心一格

物联网核心套件IoTCore:设备状态数据存储到时序数据库TSDB

百度开发者中心

物联网

从Spring的AOP看Synchronized锁失效和事务失效的情况

做梦都在改BUG

2023年成都.NET线下技术沙龙来了!大咖分享,报名从速

MASA技术团队

.net dapr MASA

生物计算大模型技术在药物研发领域的应用

百度开发者中心

人工智能 文心 ERNIE 生物医药

新浪顶级架构师保驾护航!国内首本大型分布式架构笔记浴火新生

做梦都在改BUG

Java 架构 分布式

一键快速切换工具:One Switch 1.29中文版

真大的脸盆

Mac Mac 软件 切换工具 一键切换

2023 年金三银四最新版 Java 面试八股文教程,涵盖 25 大专题:Java 基础 +spring 全家桶 + 大数据 + 网络 + 设计模式 + 算法

三十而立

Apache Paimon 在同程旅行的探索实践

Apache Flink

大数据 flink 实时计算

鲶鱼效应显著!Sora发布满月,多模态领域成果丰硕 | 大模型一周大事_生成式 AI_InfoQ研究中心_InfoQ精选文章