写点什么

“新王登基”— Claude 3 横空出世,最强大模型易主| 大模型一周大事

  • 2024-03-11
    北京
  • 本文字数:3445 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:01
“新王登基”— Claude 3 横空出世,最强大模型易主| 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

Anthropic 公司新发布的 Claude 3 大模型系列,在技术和性能上取得了显著突破。该模型不仅在处理长文本和多模态数据上表现出色,还在多项基准测试中超越了业内领先的 GPT-4/3.5 等模型。这意味着过去一年中遥遥领先的 ChatGPT-4 迎来了强劲的对手。Claude 3 的上下文对话处理能力大幅提升,不仅能更精准地理解用户需求,更能提供智能的回应。这一技术的突破将为用户带来更为流畅、自然的交互体验,尤其在内容创作、代码生成和跨语言交流等领域具有广阔的应用前景。

另外,研究团队在开发这款产品时特别注重模型的可解释性和安全性。例如,在回应生成方面研究团队做了更多考虑以避免产生过于人性化、非理性和不道德的言论。同时,尽力避免让 Claude 3 连接到可能产生偏见或有害信息的公开数据。研发人员希望通过这种方式来减少 AI 偏见和错误决策的风险,同时提高用户对 AI 系统的信任。

二、具体内容

政策动态

  1. 3 月 5 日,国务院总理李强在政府工作报告中指出,要深入推进数字经济创新发展。制定支持数字经济高质量发展政策,积极推进数字产业化、产业数字化,促进数字技术和实体经济深度融合。深化大数据、人工智能等研发应用,开展“人工智能 +”行动,打造具有国际竞争力的数字产业集群。

大模型持续更新

  1. 3 月 3 日,Anthropic 发布了新一代大模型系列 Claude 3,遥遥领先快一年之久的 GPT-4 终于迎来了强劲的对手。根据官方测评结果来看,Claude 3 在推理、数学、编码、多语言理解和视觉方面,全面超越 GPT-4 在内的所有大模型

开源领域

  1. MyShell 公司宣布其多语言、多口音的文本转语音库 MeloTTS 正式开源。MeloTTS 支持的语言包括英语、西班牙语、法语、中文、日语和韩语,为开发人员提供了丰富的选择。

  2. 零一万物宣布开源 Yi-9B 模型,官方称其为 Yi 系列模型中的“理科状元”——Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,实际参数为 8.8B,默认上下文长度为 4K tokens。

多模态领域

  1. 复旦大学邱锡鹏团队联合 Multimodal Art Projection(MAP)、上海人工智能实验室的研究者提出了一种名为 AnyGPT 的多模态语言模型,该模型能够以任意的模态组合来理解和推理各种模态的内容。具体来说,AnyGPT 可以理解文本、语音、图像、音乐等多种模态交织的指令,并能熟练地选择合适的多模态组合进行响应。

  2. Stability AI 继图片生成(Stable Difussion 3 上线)、视频生成(Stable Video 上线)后紧接在 3D 领域发力,3 月 5 日宣布携手华人团队 VAST 开源单图生成 3D 模型 TripoSR。据了解 TripoSR 能够在 0.5s 的时间内由单张图片生成高质量的 3D 模型,甚至无需 GPU 即可运行。

  3. 来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer,该框架允许用户采用自然语言提示来创建静态 2D 图像的动画

科研领域

  1. 清华大学、加州大学、中山大学、苏州大学、深势科技和北京科学智能研究院(AI for Science Institute,Beijing,AISI) 组成的多机构团队,合作提出了 Uni-MOF,一种用于大规模三维 MOF 表示学习的创新框架,专为多用途气体预测而设计。

  2. 牛津大学团队发现,基于密码子训练的大型语言模型在各种任务中表现出色,优于其他先进模型,特别是在物种识别和蛋白质预测中表现突出,即使对比训练参数多 50 倍的模型也有显著优势。这显示了密码子层面训练在提升模型性能方面的潜力。

应用探索

产品新功能/插件

  1. OpenAI 宣布为 ChatGPT 推出了名为 “朗读”(ReadAloud)的新功能。不仅支持 37 种语言,还可以自动检测文本语言并进行朗读。

  2. Midjourney v6 版本的 /describe 新功能已经上线,上传图片后会生成更长更详细的提示词,同时更符合 V6 模型的倾向。这意味着用户现在可以更加轻松地获取关于上传的图片的详细信息,用户可以上传一张图片,然后系统将生成更长更详细的提示词,让用户更好地了解图片的内容和特点。

  3. sd-forge-layerdiffuse 插件正式发布,可以让 Stable Diffusion 生成带透明通道的 PNG 图片(透明图像的生成和编辑)。

  4. 一款名为 DUSt3R 的 AI 新工具在 GitHub 上登上 Github 热榜第二名。DUSt3R 能够在短短 2 秒钟内通过仅有 2 张图片完成 3D 重建。

智能体

  1. 北大最新具身大模型研究成果 ManipLLM 将这一愿景变成了现实:在提示词的引导下,大语言模型在物体图像上直接预测机械臂的操作点和方向。进而,得以操控机械臂直接玩转各项具体的任务(打开抽屉、冰箱,揭锅盖、掀马桶盖)

终端 AI

  1. 清华大学、哈尔滨工业大学提出了将模型参数压缩到 1bit  表示的新方法,以及量化模型参数的初始化方法,并通过量化感知训练(QAT)把高精度预训练模型的能力迁移至 1bit 量化模型。实验表明,这一方法能够在极大幅度压缩模型参数的同时,保证 LLaMA 模型至少 83% 的性能。把大模型放在手机里跑的愿望就快要实现了!

  2. 一名 OpenAI 前员工仿照 Chat with RTX 打造的新框架—— Chat with MLX(MLX 是苹果机器学习框架)上线,让苹果电脑也跑起了本地大模型,而且只要两行代码就能完成部署。其中自带支持的开源大模型多达七种,包括中文在内共有 11 种可用语言。

  3. Adobe 正式将其生成式人工智能(GAI)技术 Firefly 引入移动设备。最新版本的 Adobe Express 测试版在 Android 和 iOS 上都推出了 Firefly GAI 功能,为用户提供了更广泛的图像创建和编辑选项。使用 Firefly,用户只需输入文本提示,就能生成所需图像,并插入、删除或替换人物、物体和背景等元素。

基础设施   

标准/测试集

  1. 近期,IEEE 标准协会关于可解释 AI 体系架构的标准 P2894(Guide for an Architectural Framework for Explainable Artificial Intelligence)正式发布。此次发布的可解释 AI 体系架构标准为行业提供了构建、部署和管理机器学习模型的技术蓝图,同时通过采用各种可解释 AI 方法满足透明和可信赖 AI 的要求。

  2. 来自斯坦福大学佐治亚理工等机构的研究者提出了一个新的基准任务—— Design2Code ,旨在系统评估当前多模态大语言模型在自动将网页设计转换为代码这一任务上的能力。

算法

  1. 美团、浙大等最新提出视觉任务统一架构—— VisionLLaMA  在图像生成、分类、语义分割和目标检测等多个主流视觉任务中性能提升显著,有效减少了视觉和语言之间的架构差异,实现了更好的泛化能力和更快的收敛速度。

  2. 来自浙江大学、微软亚洲研究院和北京大学的研究者提出了一个基于文本描述的视频编辑统一框架 UniEdit,不仅涵盖了风格迁移、背景替换、刚性 / 非刚性物体替换等传统外观编辑场景,更可以有效地编辑视频中对象的动作。这一模型的另一大优势就是无需训练,这大大提升了部署的便捷性和用户使用的方便度。

  3. 为了解决大语言模型后训练量化中的量化参数优化问题,来自上海人工智能实验室、香港大学、香港中文大学的研究者们提出了《OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models》。该算法同时支持大语言模型中的权重与激活值的量化,且覆盖多种量化 bit 位设置。

  4. 来自清华大学胡晓林副教授团队的研究者们提出了 一种全新的视听语音分离模型—— RTFS-Net,这是第一个时频域多模态分离模型优于所有时域模型的方法,其通过压缩 - 重建的方式,在提高分离性能的同时,大幅减少了模型的计算复杂度和参数数量。

  5. 来自浙江大学、字节跳动的研究团队提出了一种基于光栅化(rasterization)的单目动态场景建模 pipeline,首次将变形场(Deformation Field)与 3D 高斯(3D Gaussian Splatting)结合,实现了高质量的重建与新视角渲染。

  6. 来自斯坦福大学的研究者提出了一种「latent transparency(潜在透明度)」方法,使得经过大规模预训练的潜在扩散模型能够生成透明图像以及多个透明图层。


除了每周的动态更新,InfoQ 研究中心也将以季度为周期,发布《大模型季度监测报告》,跟踪大模型行业的最新动态和相关产品测试。


第一期《大模型季度监测报告 23Q4》预计将于 2024 年 3 月底正式发布,届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望 InfoQ 对旗下产品进行测试,或想要参与报告内容共建,欢迎联系微信:Bettycbj1996(添加好友请注明来意)



2024-03-11 14:005446

评论

发布
暂无评论
发现更多内容

《她说》——我们自出版的第一本书

张凯峰

Weblogic11g安装部署-winserver篇

xiezhr

中间件 Windows Server 3月日更 weblogic

助我拿到37KOffer,这份阿里巴巴890页Redis笔记可谓功不可没

Java架构追梦

Java redis 阿里巴巴 架构 面试

阿里P8手把手教你!万字Android技术类校招面试题汇总,附赠课程+题库

欢喜学安卓

android 程序员 面试 移动开发

使用 Flink 前需要知道的 10 个『陷阱』

Apache Flink

flink

对象存储与HashData多云战略

酷克数据HashData

中国石油数字化转型提速 HashData助力梦想云建设

酷克数据HashData

Superset 兼容ADB(AnalyticDB-MySQL)

data_y

Python MySQL Apache Superset

1500道算法面试题:Github上标星86.7K!直接火遍全网

比伯

Java 编程 程序员 架构 面试

阿里P8亲自教你!2021Android大厂面试知识分享,实战篇

欢喜学安卓

android 程序员 面试 移动开发

我用一个小小的开放设计题,干掉了40%的面试候选人

架构精进之路

Web 安全 软件设计 3月日更

PostgreSQL高校数据库课程改革系列活动

PostgreSQLChina

数据库 postgresql 开源 软件 开源社区

首款微控制器级树莓派 Pico,超廉价只需4美元

不脱发的程序猿

树莓派 28天写作 3月日更 树莓派 Pico 微处理器

JVM笔记 -- JVM经历了什么?

秦怀杂货店

Java JVM

百度×TCL丨鸿鹄语音芯片首次在家电行业量产!

百度大脑

百度 语音识别 百度大脑 智能家居 百度智能云

全国大学生智能汽车竞赛-百度线下赛题发布!封狼居胥,等你来战!

百度大脑

人工智能 百度 比赛 飞桨 AI Studio

HashData与HDFS的高效数据交换

酷克数据HashData

Midway Serverless 发布 2.0,一体化让前端研发再次提效

Serverless Devs

Serverless 云原生 大前端

火爆!GitHub 标星 144k 的前后端学习路线

沉默王二

学习 后端

有源晶振和无源晶振的区别

不脱发的程序猿

28天写作 电路设计 3月日更 晶振 元器件

mysql 四种隔离级别

Sakura

28天写作 3月日更

【LeetCode】 基本计算器 II Java题解

Albert

算法 LeetCode 28天写作 3月日更

带你全面认识CMMI V2.0(一)

IPD产品研发管理

项目管理 CMMI

夺命剪刀脚(死锁)

鲁米

方法论 死锁

百度文心多项任务分数刷新GLUE榜单,NLP界的“MVP”再次夺冠

百度大脑

自然语言处理 百度 文心 ERNIE

Python 中级知识之装饰器,滚雪球学 Python

梦想橡皮擦

28天写作 3月日更

什么是VXLAN?为什么需要VXLAN?

华为云开发者联盟

网络 虚拟化 VLAN VXLAN 报文

马特量化交易机器人系统开发网格策略

薇電13242772558

有道 Kubernetes 容器API监控系统设计和实践

有道技术团队

Kubernetes 容器 分布式

makefile:带你了解一种常用于GNU gcc编译的工具语言

华为云开发者联盟

编译器 LiteOS makefile 语言 GNU

一文搞懂步进电机特性、原理及驱动器设计

不脱发的程序猿

硬件产品 28天写作 3月日更 步进电机 驱动电机

“新王登基”— Claude 3 横空出世,最强大模型易主| 大模型一周大事_生成式 AI_InfoQ研究中心_InfoQ精选文章