AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

“新王登基”— Claude 3 横空出世,最强大模型易主| 大模型一周大事

  • 2024-03-11
    北京
  • 本文字数:3445 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:01
“新王登基”— Claude 3 横空出世,最强大模型易主| 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

Anthropic 公司新发布的 Claude 3 大模型系列,在技术和性能上取得了显著突破。该模型不仅在处理长文本和多模态数据上表现出色,还在多项基准测试中超越了业内领先的 GPT-4/3.5 等模型。这意味着过去一年中遥遥领先的 ChatGPT-4 迎来了强劲的对手。Claude 3 的上下文对话处理能力大幅提升,不仅能更精准地理解用户需求,更能提供智能的回应。这一技术的突破将为用户带来更为流畅、自然的交互体验,尤其在内容创作、代码生成和跨语言交流等领域具有广阔的应用前景。

另外,研究团队在开发这款产品时特别注重模型的可解释性和安全性。例如,在回应生成方面研究团队做了更多考虑以避免产生过于人性化、非理性和不道德的言论。同时,尽力避免让 Claude 3 连接到可能产生偏见或有害信息的公开数据。研发人员希望通过这种方式来减少 AI 偏见和错误决策的风险,同时提高用户对 AI 系统的信任。

二、具体内容

政策动态

  1. 3 月 5 日,国务院总理李强在政府工作报告中指出,要深入推进数字经济创新发展。制定支持数字经济高质量发展政策,积极推进数字产业化、产业数字化,促进数字技术和实体经济深度融合。深化大数据、人工智能等研发应用,开展“人工智能 +”行动,打造具有国际竞争力的数字产业集群。

大模型持续更新

  1. 3 月 3 日,Anthropic 发布了新一代大模型系列 Claude 3,遥遥领先快一年之久的 GPT-4 终于迎来了强劲的对手。根据官方测评结果来看,Claude 3 在推理、数学、编码、多语言理解和视觉方面,全面超越 GPT-4 在内的所有大模型

开源领域

  1. MyShell 公司宣布其多语言、多口音的文本转语音库 MeloTTS 正式开源。MeloTTS 支持的语言包括英语、西班牙语、法语、中文、日语和韩语,为开发人员提供了丰富的选择。

  2. 零一万物宣布开源 Yi-9B 模型,官方称其为 Yi 系列模型中的“理科状元”——Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,实际参数为 8.8B,默认上下文长度为 4K tokens。

多模态领域

  1. 复旦大学邱锡鹏团队联合 Multimodal Art Projection(MAP)、上海人工智能实验室的研究者提出了一种名为 AnyGPT 的多模态语言模型,该模型能够以任意的模态组合来理解和推理各种模态的内容。具体来说,AnyGPT 可以理解文本、语音、图像、音乐等多种模态交织的指令,并能熟练地选择合适的多模态组合进行响应。

  2. Stability AI 继图片生成(Stable Difussion 3 上线)、视频生成(Stable Video 上线)后紧接在 3D 领域发力,3 月 5 日宣布携手华人团队 VAST 开源单图生成 3D 模型 TripoSR。据了解 TripoSR 能够在 0.5s 的时间内由单张图片生成高质量的 3D 模型,甚至无需 GPU 即可运行。

  3. 来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer,该框架允许用户采用自然语言提示来创建静态 2D 图像的动画

科研领域

  1. 清华大学、加州大学、中山大学、苏州大学、深势科技和北京科学智能研究院(AI for Science Institute,Beijing,AISI) 组成的多机构团队,合作提出了 Uni-MOF,一种用于大规模三维 MOF 表示学习的创新框架,专为多用途气体预测而设计。

  2. 牛津大学团队发现,基于密码子训练的大型语言模型在各种任务中表现出色,优于其他先进模型,特别是在物种识别和蛋白质预测中表现突出,即使对比训练参数多 50 倍的模型也有显著优势。这显示了密码子层面训练在提升模型性能方面的潜力。

应用探索

产品新功能/插件

  1. OpenAI 宣布为 ChatGPT 推出了名为 “朗读”(ReadAloud)的新功能。不仅支持 37 种语言,还可以自动检测文本语言并进行朗读。

  2. Midjourney v6 版本的 /describe 新功能已经上线,上传图片后会生成更长更详细的提示词,同时更符合 V6 模型的倾向。这意味着用户现在可以更加轻松地获取关于上传的图片的详细信息,用户可以上传一张图片,然后系统将生成更长更详细的提示词,让用户更好地了解图片的内容和特点。

  3. sd-forge-layerdiffuse 插件正式发布,可以让 Stable Diffusion 生成带透明通道的 PNG 图片(透明图像的生成和编辑)。

  4. 一款名为 DUSt3R 的 AI 新工具在 GitHub 上登上 Github 热榜第二名。DUSt3R 能够在短短 2 秒钟内通过仅有 2 张图片完成 3D 重建。

智能体

  1. 北大最新具身大模型研究成果 ManipLLM 将这一愿景变成了现实:在提示词的引导下,大语言模型在物体图像上直接预测机械臂的操作点和方向。进而,得以操控机械臂直接玩转各项具体的任务(打开抽屉、冰箱,揭锅盖、掀马桶盖)

终端 AI

  1. 清华大学、哈尔滨工业大学提出了将模型参数压缩到 1bit  表示的新方法,以及量化模型参数的初始化方法,并通过量化感知训练(QAT)把高精度预训练模型的能力迁移至 1bit 量化模型。实验表明,这一方法能够在极大幅度压缩模型参数的同时,保证 LLaMA 模型至少 83% 的性能。把大模型放在手机里跑的愿望就快要实现了!

  2. 一名 OpenAI 前员工仿照 Chat with RTX 打造的新框架—— Chat with MLX(MLX 是苹果机器学习框架)上线,让苹果电脑也跑起了本地大模型,而且只要两行代码就能完成部署。其中自带支持的开源大模型多达七种,包括中文在内共有 11 种可用语言。

  3. Adobe 正式将其生成式人工智能(GAI)技术 Firefly 引入移动设备。最新版本的 Adobe Express 测试版在 Android 和 iOS 上都推出了 Firefly GAI 功能,为用户提供了更广泛的图像创建和编辑选项。使用 Firefly,用户只需输入文本提示,就能生成所需图像,并插入、删除或替换人物、物体和背景等元素。

基础设施   

标准/测试集

  1. 近期,IEEE 标准协会关于可解释 AI 体系架构的标准 P2894(Guide for an Architectural Framework for Explainable Artificial Intelligence)正式发布。此次发布的可解释 AI 体系架构标准为行业提供了构建、部署和管理机器学习模型的技术蓝图,同时通过采用各种可解释 AI 方法满足透明和可信赖 AI 的要求。

  2. 来自斯坦福大学佐治亚理工等机构的研究者提出了一个新的基准任务—— Design2Code ,旨在系统评估当前多模态大语言模型在自动将网页设计转换为代码这一任务上的能力。

算法

  1. 美团、浙大等最新提出视觉任务统一架构—— VisionLLaMA  在图像生成、分类、语义分割和目标检测等多个主流视觉任务中性能提升显著,有效减少了视觉和语言之间的架构差异,实现了更好的泛化能力和更快的收敛速度。

  2. 来自浙江大学、微软亚洲研究院和北京大学的研究者提出了一个基于文本描述的视频编辑统一框架 UniEdit,不仅涵盖了风格迁移、背景替换、刚性 / 非刚性物体替换等传统外观编辑场景,更可以有效地编辑视频中对象的动作。这一模型的另一大优势就是无需训练,这大大提升了部署的便捷性和用户使用的方便度。

  3. 为了解决大语言模型后训练量化中的量化参数优化问题,来自上海人工智能实验室、香港大学、香港中文大学的研究者们提出了《OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models》。该算法同时支持大语言模型中的权重与激活值的量化,且覆盖多种量化 bit 位设置。

  4. 来自清华大学胡晓林副教授团队的研究者们提出了 一种全新的视听语音分离模型—— RTFS-Net,这是第一个时频域多模态分离模型优于所有时域模型的方法,其通过压缩 - 重建的方式,在提高分离性能的同时,大幅减少了模型的计算复杂度和参数数量。

  5. 来自浙江大学、字节跳动的研究团队提出了一种基于光栅化(rasterization)的单目动态场景建模 pipeline,首次将变形场(Deformation Field)与 3D 高斯(3D Gaussian Splatting)结合,实现了高质量的重建与新视角渲染。

  6. 来自斯坦福大学的研究者提出了一种「latent transparency(潜在透明度)」方法,使得经过大规模预训练的潜在扩散模型能够生成透明图像以及多个透明图层。


除了每周的动态更新,InfoQ 研究中心也将以季度为周期,发布《大模型季度监测报告》,跟踪大模型行业的最新动态和相关产品测试。


第一期《大模型季度监测报告 23Q4》预计将于 2024 年 3 月底正式发布,届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望 InfoQ 对旗下产品进行测试,或想要参与报告内容共建,欢迎联系微信:Bettycbj1996(添加好友请注明来意)



2024-03-11 14:005571

评论

发布
暂无评论
发现更多内容

EMQ 出席 2021 ArchSummit,打造全连接时代的数据基础设施

EMQ映云科技

大数据 物联网 IoT 智能

Go WebSocket开发与测试实践【gorilla/websocket】

FunTester

Java websocket 接口测试 Go 语言 FunTester

终于把性能测试这事儿讲清楚了

博睿数据

看完源码记不住?掌握这套方法,Alibaba不会少你一个工位

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

一次搞懂SpringBoot核心原理:自动配置、事件驱动、Condition

热爱java的分享家

Java 程序人生 Spring Boot 编程语言 经验分享

海康摄像机RTSP地址格式(官方最新版)

音视频牛哥

WebRTC RTMP RTSP 播放器

构建多云战略的注意事项

云计算

通过 for 循环,比较 Python 与 Ruby 编程思想的差别

Python猫

Python

GitHub霸榜月余的24万字Java面试手册,竟是阿里机密

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

提升研发效能的低代码思路

赫杰辉

研发效能 低代码平台 x-series

Python代码阅读(第61篇):延迟调用函数

Felix

Python 编程 Code 阅读代码 Python初学者

在 JavaScript 中如何检查对象为空

编程江湖

JavaScript 大前端

Python Qt GUI设计:QComboBox下拉列表框类(基础篇—14)

不脱发的程序猿

Python qt PyQt GUI设计 QComboBox下拉列表框类

快上车丨直播课“Hello ArkansasUI:初识Slider组件(eTS)”来啦

HarmonyOS开发者

HarmonyOS

华为顶级安全专家分享出来这份‘典藏版’Linux开发实战笔记

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

分布式系统的架构演进过程(一)

卢卡多多

分布式, 11月日更

线程如何实现保持同步

编程江湖

Java 多线程

如何实现在线播放mpeg-ts文件?

Changing Lin

11月日更

远程工作的这几年

程序员铮铮

程序员 代码人生 远程工作

Spring Bean生命周期你除了会背八股文面试,真的会用了吗?

热爱java的分享家

Java spring 程序人生 编程语言 经验分享

Java 项目中使用 Resilience4j 框架实现客户端 API 调用的限速/节流机制

码语者

Java 限速 节流 Resilience4j RateLimit

App 端自动化的最佳方案,完全解放双手!

星安果

Python 自动化 爬虫

拒绝卡顿,揭秘盒马鲜生 APP Android 短视频秒播优化方案

阿里巴巴终端技术

android App 短视频 移动开发 体验优化

钉钉小程序快照技术初窥

阿里巴巴终端技术

小程序 ios android 快照 体验优化

如何判断一个需求是真的用户需求,还是伪需求呢?

石云升

产品思维 需求分析 11月日更

贪心:柠檬水找零、跳跃游戏🍋

空城机

JavaScript 贪心算法 11月日更

一个对标VSCode的IDE---Fleet

IT蜗壳-Tango

11月日更

如何运用Camtasia中的交互性?

淋雨

Camtasia

【AI最前线】精准优质-资讯|分享|热议第41期

百度大脑

人工智能

Spark面试题大全

编程江湖

大数据 Spark面试题

Spring中的Controller和Service是线程安全的吗?我有点懵

热爱java的分享家

Java spring 程序人生 编程语言 经验分享

“新王登基”— Claude 3 横空出世,最强大模型易主| 大模型一周大事_生成式 AI_InfoQ研究中心_InfoQ精选文章