写点什么

智源一次性发布超 100 个大模型评测结果,文本到视频等多模态领域全覆盖

  • 2024-12-20
    北京
  • 本文字数:2777 字

    阅读完需:约 9 分钟

大小:1.51M时长:08:46
智源一次性发布超100个大模型评测结果,文本到视频等多模态领域全覆盖

整理 | 华卫


12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。关键结论如下:


  • 2024 年下半年大模型发展更聚焦综合能力提升与实际应用。

  • 多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。

  • 模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

  • 用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。


相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。


覆盖多种模态的综合榜单

智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。此外,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。


语言模型针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。


语言模型主观评测重点考察模型中文能力,结果显示字节跳动 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022 位列第三、第四,阿里巴巴 Qwen-Max-0919 排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴 Qwen-max-0919、字节跳动 Doubao-pro-32k-preview 位居第三、第四,Meta Llama-3.3-70B-Instruct 排名前五。


视觉语言多模态模型方面,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20 与字节跳动 Doubao-Pro-Vision-32k-241028 先后领先于 Anthropic Claude-3-5-sonnet-20241022,阿里巴巴 Qwen2-VL-72B-Instruct 和 Google Gemini-1.5-Pro 紧随其后。

文生图多模态模型方面,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于 3 的数量关系任务表现有所提升,大于 3 的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯 Hunyuan Image 位列第一,字节跳动 Doubao image v2.1、Ideogram 2.0 分居第二、第三,OpenAI DALL·E 3、快手可图次之。


文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵 1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技 PixVerse V3、MiniMax 海螺 AI、Pika 1.5 位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴 Qwen2-Audio 位居第一,香港中文大学 &微软 WavLLM、清华大学 &字节跳动 Salmon 位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU 均进入前五。

四个专项评测榜单

FlagEval 大模型角斗场,是智源研究院今年 9 月推出的面向用户开放的模型对战评测服务,以反映用户对模型的偏好。目前,FlagEval 覆盖国内外约 50 款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。


此次评测,共有 29 个语言模型、16 个图文问答多模态模型、7 个文生图模型、14 个文生视频模型参评。评测发现,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。

作为模型对战评测服务 FlagEval 大模型角斗场的延展,今年 10 月智源研究院推出了模型辩论平台 FlagEval Debate,对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以甄别语言模型的能力差异。


评测发现,大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;大模型在辩论中依然存在“幻觉问题”,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。FlagEval Debate 评测结果表明,Anthropic Claude-3-5-sonnet-20241022、零一万物 Yi-Lighting、OpenAI o1-preview-2024-09-12 为前三名。

此次评测,智源研究院探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。


评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;头部模型能力已接近初级量化交易员的水平。金融量化交易评测结果显示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。


本次评测,智源研究院还再次联合与海淀区教师进修学校新编了 K12 全学段、多学科试卷,进一步考察大模型与人类学生的能力差异,其中,答案不唯一的主观题依然由海淀教师亲自评卷。得益于多模态能力的带动发展,模型本次 K12 学科测验综合得分相较于半年前提升了 12.86%,但是仍与海淀学生平均水平存在差距;在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分;模型普遍存在“文强理弱”的偏科情况。

据了解,本次评测依托智源研究院自 2023 年 6 月上线的大模型评测平台 FlagEval,经过数次迭代,目前已覆盖全球 800 多个开闭源模型,包含 20 多种任务,90 多个评测数据集,超 200 万条评测题目。


在评测方法与工具上,智源研究院联合全国 10 余家高校和机构合作共建,探索基于 AI 的辅助评测模型 FlagJudge 和灵活全面的多模态评测框架 FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的 HalluDial 幻觉评测集、与北师大共建的 CMMU 多模态评测集、多语言跨模态评测集 MG18、复杂代码评测集 TACO 以及长视频理解评测 MLVU 等,其中与北京大学共建的 HalluDial 是目前全球规模最大的对话场景下的幻觉评测集,有 18000 多个轮次对话,和 14 万多个回答。


为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了 98%的题目,并提升了题目的难度。


2024-12-20 10:137957

评论

发布
暂无评论
发现更多内容

比特币突破4.4万美元!美欧制裁或推动俄罗斯资金转向加密货币

CECBC

从用户输入URL到页面展示,这中间发生了什么?

Tristan

前端 浏览器

开发电脑用 Windows 还是 Mac

HoneyMoose

Mybatis的where标签,竟然还有这么多不知道的!

CRMEB

将本地代码同步到gitee和github中去

布衣骇客

Git Commit #Github

Web 键盘输入法应用开发指南 (4) —— 组合键

天择

JavaScript 键盘 输入法 3月月更

初识工业互联网

劼哥stone

工业互联网

如何打造良好的分享氛围

Hockor

团队管理 技术分享

千万级学生管理系统的考试试卷存储方案

晨亮

「架构实战营」

selenium的实现原理

红毛丹

自动化测试 自动化测试框架 selenium 3月程序媛福利 3月月更

docker、k8s 面试总结

yuexin_tech

Docker k8s

聊聊 Pulsar: Pulsar 分布式集群搭建

老周聊架构

云原生 Apache Pulsar 3月月更

从理想照进现实,浅谈“算力网络”

鲸品堂

东数西算

遵循Promises/A+规范,深入分析Promise实现细节(基础篇)

战场小包

JavaScript 前端 Promise 3月月更

解密数据仓库LLVM技术神奇之处

华为云开发者联盟

数据仓库 LLVM 算子 GaussDB(DWS) 底层虚拟机

今儿直白的用盖房子为例,给你讲讲Java建造者模式

华为云开发者联盟

Java 设计模式 对象 建造者模式 对象构建模式

当TIME_WAIT状态的TCP正常挥手,收到SYN后…

华为云开发者联盟

TCP syn 报文 TIME_WAIT RST报文

DevOps流水线CI 成倍提速方案

八戒技术团队

DevOps

js几种网络请求方式梳理——摆脱回调地狱

有道技术团队

读一篇博客,写一段代码,每天写写Python自然就会了,每日Python第1天

梦想橡皮擦

Python 3月月更

详解用OpenCV绘制各类几何图形

华为云开发者联盟

OpenCV 图像处理 图像 几何图形

一个好的持续交付流水线是怎样的? | 研发效能提升36计

阿里云云效

云计算 阿里云 云原生 持续交付 持续部署

紫光展锐解除楚庆CEO职务,内部员工爆料那些不为人知的内情!

IC男奋斗史

芯片行业思考

如何做好一场技术分享

Hockor

团队管理 个人成长

Go语言实战之数组的内部实现和基础功能

山河已无恙

Go 语言 3月月更

presto实战读书笔记

聚变

NFT商城游戏系统开发技术

薇電13242772558

NFT

关于 CentOS 迁移龙蜥操作系统,这里有一份详细指南,请查收!

OpenAnolis小助手

centos 开源 操作系统 龙蜥

TiDB Online DDL 在 TiCDC 中的应用丨TiDB 工具分享

PingCAP

智源一次性发布超100个大模型评测结果,文本到视频等多模态领域全覆盖_AI&大模型_华卫_InfoQ精选文章