写点什么

Stability、Mistral、Databricks、通义、A21 Labs 开源领域五连招,其中三个是 MoE!|大模型一周大事

  • 2024-04-01
    北京
  • 本文字数:3772 字

    阅读完需:约 12 分钟

Stability、Mistral、Databricks、通义、A21 Labs开源领域五连招,其中三个是MoE!|大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周,开源领域五模型先后问世,Stability AI 开源了 Stable Code Instruct-3B,Mistral AI 宣布 Mistral 7B v0.2 Base Model, Databricks 开源了其 MoE 模型 DBRX,通义千问团队发布 MoE 模型:Qwen1.5-MoE-A2.7B,A21 Labs 宣布开源 MoE 大模型 Jamba。其中,DBRX、Qwen1.5-MoE-A2.7B 和 Jamba 都是 MoE 模型(混合专家模型)。

自从去年关于 GPT-4 的爆料和下半年 Mistral AI 开源了其 Mixtal-8×7B-MoE 模型,在广泛的关注下,MoE 成为了大语言模型的一个重要研究方向。MoE 本质是将计算负载分配给专门处理特定任务的专家,术业有专攻,这种方式不仅有利于模型进行更高效的预训练和推理速度,还有助于提升模型处理复杂任务的能力。我们也期待更加高效的模型架构,为 AI 带来更多的可能性。

二、具体内容

大模型持续更新

  1. 距离 Grok-1 的发布仅过去一周,3 月 29 日,马斯克旗下的人工智能公司 xAI 正式推出了 Gork 大模型的最新版本 Grok-1.5。新一代模型实现了长上下文理解和高级推理能力,并优化了数学和代码相关任务中的性能。

多模态领域

  1. 华中科技大学和金山的研究人员在最新的研究《TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document》中提出了一个专注于文本相关任务(包括文档问答和场景文本问答)的多模态大模型 TextMonkey。在多个场景文本和文档的测试中,TextMonkey 处于国际领先地位,在办公自动化、智慧教育、智慧金融等行业有着强大的应用潜力。

  2. Suno 团队近日推出的 V3 模型首次实现了生成广播质量的音乐。它可以根据简单的提示创建从歌词到人声和配器的所有内容,甚至可以引导它准确选择想要的流派,从三角洲蓝调(Delta Blues)到电子寒潮,还可以变换方言。

  3. 来自理海大学、微软研究院的研究者在最新的研究《Mora: Enabling Generalist Video Generation via A Multi-Agent Framework》提出了一种多智能体框架 Mora,该框架整合了几种先进的视觉 AI 智能体,以复制 Sora 所展示的通用视频生成能力。广泛的实验结果表明,Mora 在各种任务中达到了接近 Sora 的性能。然而,当从整体上评估时,Mora 与 Sora 之间存在明显的性能差距。

  4. Picsart AI Resarch 等多个机构联合提出了一种新的文生视频方法:StreamingT2V。这也是一种自回归方法,并配备了长短期记忆模块,进而可以生成具有时间一致性的长视频。据了解,生成的视频帧数可达 1200 帧,时间可达 2 分钟。相关研究成果发布在论文《StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text》中。

  5. 3 月 27 日,创新奇智在北京举办的发布会上发布了更为强大的奇智孔明工业大模型 2.0 版本( AInno-75B )。这款大型模型拥有处理多种信息形态的能力,涵盖了文本、图像和视频等。它甚至能够整合工业场景中特有的数据类型,例如计算机辅助设计(CAD)图纸和脑电图(EEG)信号。其输出同样具有多样性,可以生成包括文本、图像、视频、计算机辅助设计图以及具体操作行为等多种形式的信息。

开源领域

  1. 3 月 25 日,Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。这是一个基于 Stable Code 3B 的指令调整编码语言模型。给出自然语言 prompt,该模型可以处理各种任务,例如代码生成、数学和其他软件工程相关的任务。这款模型不仅增强了代码补全能力,还支持自然语言交互,旨在提高编程和软件开发相关任务的效率和直观性。

  2. 3 月 25 日,Mistral AI 宣布 Mistral 7B v0.2 Base Model 开源,其是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型。此次更新主要包括三个方面:① 将 8K 上下文提到了 32K;② Rope Theta = 1e6;③ 取消滑动窗口。据了解,此次开放基础模型之后,开发者们就可以根据自己的需求进行微调了。

  3. 3 月 28 日, Databricks 开源了通用大模型 DBRX,这是一款拥有 1320 亿参数的混合专家模型(MoE),并支持 32k Tokens 的最长上下文长度,Base  和 Instruct 版本已经在 Github 和 Hugging Face 上发布。

  4. 3 月 28 日,通义千问团队发布了他们的第一个 MoE 模型,Qwen1.5-MoE-A2.7B。模型大小缩小三分之一,性能却并未折损。同时,相比 Qwen1.5-7B,Qwen1.5-MoE-A2.7B 的训练成本降低了 75%,推理速度则提升了 1.74 倍。

  5. 3 月 29 日,A21 Labs 宣布开源 520 亿参数的全新 MOE 大模型 Jamba,支持 256K 的上下文长度。

科研领域

  1. 同济大学和中国科学院的研究团队开发了一种机器学习预测器 PSPIre,它结合了残基级和结构级特征,用于精确预测相分离蛋白质(PSP)。同时,各种数据集的评估表明,该模型在将 noID-PSP 与非 PSP 进行分类方面显著优于当前的预测器。相关研究成果撰写在论文《Machine learning predictor PSPire screens for phase-separating proteins lacking intrinsically disordered regions》中。

  2. 跨维智能、香港中文大学(深圳)及华南理工大学的研究人员在《SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation》中创新性地提出了 SAM-6D 框架,该框架在零样本条件下实现 6D 物体姿态估计。它利用零样本分割技术生成候选对象,并借助独特的物体匹配分数来识别目标物体。此外,SAM-6D 将姿态估计转化为局部到局部的点集匹配问题,通过引入 Background Token 设计和两阶段点集匹配模型,为任意物体的姿态估计提供了有效的解决方案。

应用探索

新产品新应用/功能

  1. 阿里通义千问重磅升级,向所有人免费开放 1000 万字的长文档处理功能,成为全球文档处理容量第一的 AI 应用。所有金融、法律、科研、医疗、教育等领域的专业人士,都可通过通义千问网站和 APP 快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。

  2. 淘宝天猫集团自研大模型“淘宝星辰”官网已经上线,预计布局之后向公众开放。淘宝星辰的训练数据库中有大量电商消费数据,据推测将会为用户提供面向电商和生活服务场景增强的文案生成、多轮会话、知识问答、智能决策等能力。

  3. 百度智能云最近一口气升级了 7 个大模型企业级应用,并且全部推出 SaaS 版本,企业在网页端即可使用,无需进行复杂的部署和配置,真正实现了开箱即用。这一举措将大大降低企业使用大模型的门槛,推动大模型技术在企业中的普及和应用。这 7 个应用分别是百度智能云曦灵数字人平台、百度智能云客悦智能客服平台、内容创作平台“一念”、知识管理平台“甄知”、超级办公入口“超级助理”、生成式 BI 产品“百度 GBI”、代码助手“Baidu Comate”。

智能体

  1. 吉林大学、上海交通大学和伦敦大学学院合作提出了 DS-Agent,这一智能体的角色定位是一名数据科学家,其目标是在自动化数据科学中处理复杂的机器学习建模任务。技术层面上,团队采用基于案例的推理策略,赋予了智能体 “参考” 他山之石的能力,使其能够利用以往解决类似问题的经验来解决新问题。相关成果发表在《DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning》中。

  2. 立志成为 Cognition AI 的 Devin 的竞争性开源替代方案 Devika 已发布。 Devika 拥有高级 AI 规划和推理能力,可以进行针对性的上下文关键词提取、多种编程语言的代码编写和动态代理状态跟踪和可视化,同时也可以无缝进行网络浏览和信息收集。当然,deviika 也可以通过聊天界面进行自然语言交互,并支持 Claude 3、GPT-4、GPT-3.5 和通过 Ollama 支持的本地语言模型。

终端 AI

  1. 3 月 26 日,2024 全新英特尔商用客户端 AI PC 产品发布会在北京举办,基于 ChatGLM 端侧模型打造的「智谱 AI PC 智能助手」也正式发布。该款智能助手是针对英特尔全新的酷睿 Ultra 处理器,在 ChatGLM 端侧模型的基础上训练、适配并部署的最新端侧 AI 模型,拥有高性能、低延迟的特点。在远程管理、安全防护、跨设备 IT 管理和运维等方面可为 PC 用户提供更加轻松、高效的 AI 体验。

  2. 3 月 28 日,阿里云与知名半导体公司 MediaTek 联发科联合宣布,通义千问 18 亿、40 亿参数大模型已成功部署进天玑 9300 移动平台,可离线流畅运行即时且精准的多轮 AI 对话应用,连续推理功耗增量不到 3W,实现了手机 AI 体验的大幅提升。

基础设施

  1. 3 月 28 日,云天励飞举办 AI 大模型产品发布会,正式发布“深目” AI 模盒,实现了算法在线学习、自我迭代。据介绍,该产品能够做到“3 个 90%”——覆盖场景超过 90%、算法精度超过 90%,使用成本降低 90 %。可以说真正地解决大模型在场景落地最后一公里的问题,帮助更多中小企业客户轻松使用大模型。


报告预告

Sora 来袭,国内如何迅速跟上?开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,其能力是否有所提升和刷新?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?InfoQ 研究中心即将发布的《2024 年第 1 季度大模型监测报告》,即将给出答案。



2024-04-01 17:597464

评论

发布
暂无评论
发现更多内容

阿里云移动研发平台EMAS:2月产品动态

移动研发平台EMAS

阿里云 程序员 emas 移动端 研发工具

为什么MySQL主键查询这么快?

蝉沐风

MySQL 索引 主键查询

做开发这么久了,还不会搭建服务器Maven私有仓库?这也太Low了吧

冰河

系统架构 程序开发 程序员进阶 编程基础 Maven仓库

新一代对抗作战框架MITRE Engage V1版本正式发布

青藤云安全

网络安全 青藤 青藤云安全

Web安全渗透测试基本流程

学神来啦

网络安全 Web 渗透测试 WEB安全 kali

墨天轮国产数据库沙龙 | 四维纵横姚延栋 :MatrixDB,All-in-One高性能时序数据库

墨天轮

数据库 时序数据库 国产数据库 MatrixDB

深入跨国互联网业务场景,看华为云数智融合元数据如何打破“数据墙”

华为云开发者联盟

大数据 数据仓库 华为云 元数据 数智融合

推荐算法!基于隐语义模型的协同过滤推荐之商品相似度矩阵

编程江湖

大数据 算法

译文《Java并发编程之CAS》

潘大壮

乐观锁 并发编程 CAS 并发’ Java Concurrency

技术平台&应用开发专题月 | 企业上云利器-YMS(Yon Middleware Service)

用友BIP

用友 用友iuap

技术平台&应用开发专题月 | 业务上云后的调试利器—云机一体

用友BIP

用友 用友iuap

WMS是什么?

源字节1号

开源 后端开发

java编程技术FastDFS 安装和配置

编程江湖

TypeScript 2.0开启空值的严格检查

华为云开发者联盟

typescript js 空指针 ts

坐标PCB公司,想做实时数仓、推生产线看板,和Tapdata Cloud的偶遇来得就是这么凑巧

tapdata

实时数据

详细解读PolarDB HTAP的功能特性和关键技术

阿里云数据库开源

数据库 阿里云 开源 postgre polarDB

Figma禁封中国企业,下一个会是Postman吗?国产软件势在必行

Liam

后端 Postman Apifox API swagger

技术平台&应用开发专题月 | 如何保证业务服务稳定运行—用友云原生技术平台高可用能力介绍

用友BIP

用友 用友iuap

3天掌握Flask开发项目系列博客之二,操作数据库

梦想橡皮擦

3月月更

基于 EventBridge 构建 SaaS 应用集成方案

阿里巴巴云原生

云原生 SaaS

拥抱云原生 2.0 时代,Tapdata 入选阿里云首期云原生加速器!

tapdata

数据库 实时数据服务平台

这是我见过最详细的Nginx 内存池分析

Linux服务器开发

nginx 线程池 Linux服务器开发 Linux后台开发 内存池

在线JSON格式化美化

入门小站

工具

Java有了synchronized,为什么还要提供Lock

华为云开发者联盟

Java synchronized 死锁 lock 同步代码块

由Figma封停大疆,看国产IDE如何应对与突围?

Baihai IDP

人工智能 ide AI 基础软件 国产化

云原生中间件 -- Redis Operator 篇

Daocloud 道客

redis 云原生 中间件 云原生中间件

龙蜥开发者说来了,来看看社区一周动态还有什么? | 3.07-3.11

OpenAnolis小助手

开源 开发者 龙蜥社区 一周动态

阿里IM技术分享(七):闲鱼IM的在线、离线聊天数据同步机制优化实践

JackJiang

即时通讯 IM im开发

iuap助力三花控股集团打造主数据管理平台

用友BIP

用友 用友iuap

Docker Shim 被移除,K8s v1.24 升级该怎么办

Daocloud 道客

Docker Kubernetes CRI-Dockerd

一种小程序弱网离线优化的思路

阿里巴巴终端技术

小程序 弱网 体验优化

Stability、Mistral、Databricks、通义、A21 Labs开源领域五连招,其中三个是MoE!|大模型一周大事_AI&大模型_InfoQ研究中心_InfoQ精选文章