写点什么

智源一次性发布超 100 个大模型评测结果,文本到视频等多模态领域全覆盖

  • 2024-12-20
    北京
  • 本文字数:2777 字

    阅读完需:约 9 分钟

大小:1.51M时长:08:46
智源一次性发布超100个大模型评测结果,文本到视频等多模态领域全覆盖

整理 | 华卫


12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。关键结论如下:


  • 2024 年下半年大模型发展更聚焦综合能力提升与实际应用。

  • 多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。

  • 模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

  • 用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。


相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。


覆盖多种模态的综合榜单

智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。此外,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。


语言模型针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。


语言模型主观评测重点考察模型中文能力,结果显示字节跳动 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022 位列第三、第四,阿里巴巴 Qwen-Max-0919 排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴 Qwen-max-0919、字节跳动 Doubao-pro-32k-preview 位居第三、第四,Meta Llama-3.3-70B-Instruct 排名前五。


视觉语言多模态模型方面,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20 与字节跳动 Doubao-Pro-Vision-32k-241028 先后领先于 Anthropic Claude-3-5-sonnet-20241022,阿里巴巴 Qwen2-VL-72B-Instruct 和 Google Gemini-1.5-Pro 紧随其后。

文生图多模态模型方面,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于 3 的数量关系任务表现有所提升,大于 3 的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯 Hunyuan Image 位列第一,字节跳动 Doubao image v2.1、Ideogram 2.0 分居第二、第三,OpenAI DALL·E 3、快手可图次之。


文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵 1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技 PixVerse V3、MiniMax 海螺 AI、Pika 1.5 位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴 Qwen2-Audio 位居第一,香港中文大学 &微软 WavLLM、清华大学 &字节跳动 Salmon 位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU 均进入前五。

四个专项评测榜单

FlagEval 大模型角斗场,是智源研究院今年 9 月推出的面向用户开放的模型对战评测服务,以反映用户对模型的偏好。目前,FlagEval 覆盖国内外约 50 款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。


此次评测,共有 29 个语言模型、16 个图文问答多模态模型、7 个文生图模型、14 个文生视频模型参评。评测发现,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。

作为模型对战评测服务 FlagEval 大模型角斗场的延展,今年 10 月智源研究院推出了模型辩论平台 FlagEval Debate,对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以甄别语言模型的能力差异。


评测发现,大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;大模型在辩论中依然存在“幻觉问题”,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。FlagEval Debate 评测结果表明,Anthropic Claude-3-5-sonnet-20241022、零一万物 Yi-Lighting、OpenAI o1-preview-2024-09-12 为前三名。

此次评测,智源研究院探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。


评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;头部模型能力已接近初级量化交易员的水平。金融量化交易评测结果显示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。


本次评测,智源研究院还再次联合与海淀区教师进修学校新编了 K12 全学段、多学科试卷,进一步考察大模型与人类学生的能力差异,其中,答案不唯一的主观题依然由海淀教师亲自评卷。得益于多模态能力的带动发展,模型本次 K12 学科测验综合得分相较于半年前提升了 12.86%,但是仍与海淀学生平均水平存在差距;在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分;模型普遍存在“文强理弱”的偏科情况。

据了解,本次评测依托智源研究院自 2023 年 6 月上线的大模型评测平台 FlagEval,经过数次迭代,目前已覆盖全球 800 多个开闭源模型,包含 20 多种任务,90 多个评测数据集,超 200 万条评测题目。


在评测方法与工具上,智源研究院联合全国 10 余家高校和机构合作共建,探索基于 AI 的辅助评测模型 FlagJudge 和灵活全面的多模态评测框架 FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的 HalluDial 幻觉评测集、与北师大共建的 CMMU 多模态评测集、多语言跨模态评测集 MG18、复杂代码评测集 TACO 以及长视频理解评测 MLVU 等,其中与北京大学共建的 HalluDial 是目前全球规模最大的对话场景下的幻觉评测集,有 18000 多个轮次对话,和 14 万多个回答。


为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了 98%的题目,并提升了题目的难度。


2024-12-20 10:1313

评论

发布
暂无评论

PHP/MySQL开发本地服务器 MAMP Pro for Mac

展初云

Mac软件 开发软件 MAMP

Downie 4 for Mac中文完美破解版 支持MacOS14

iMac小白

Downie 4 Mac版 Downie 4下载 Downie 4破解版

文心一言 VS 讯飞星火 VS chatgpt (124)-- 算法导论10.5 5题

福大大架构师每日一题

福大大架构师每日一题

DHorse改用fabric8的SDK与k8s集群交互

tiandizhiguai

2023云栖大会议程&体验攻略

阿里云CloudImagine

云计算 云栖大会

Linux zip命令:压缩文件或目录

芯动大师

Sketch for Mac最新破解版下载 完美兼容M1

iMac小白

sketch Mac Sketch下载 Sketch 98 Sketch破解版

原来低代码开发如此简单

树上有只程序猿

软件开发 低代码 JNPF

问鼎之战 蓄势待发——鲲鹏应用创新大赛2023全国总决赛即将启幕!

Geek_2d6073

OPPO Find N3,解码“新商务场景”

脑极体

OPPO

Dual band WiFi 6 power with IPQ4019 and QCN9024 chips - the wireless future of choice

wifi6-yiyi

IPQ4019

鸿蒙OS应用开发初体验

巫山老妖

鸿蒙开发 鸿蒙系统

项目经理必备:6种有效的项目估算方法

爱吃小舅的鱼

项目经理 项目经理项目估算

第17期 | GPTSecurity周报

云起无垠

Linux tar打包命令

芯动大师

Steinberg Cubase Pro 12 for mac激活版下载

iMac小白

Steinberg Cubase Pro Cubase Pro 12 Cubase Pro 下载 Cubase Pro 破解版

iStat Menus for Mac(系统活动监控器) v6.72 (1226)中文激活版

mac

苹果mac Windows软件 iStat Menus 系统监控工具

商业模式画布的9大模块详细解读,一文弄懂产品经理必备技能!

彭宏豪95

创业 互联网 产品经理 商业模式 在线白板

好用的全局代理客户端 Proxifier for Mac

展初云

Mac 代理 Mac软件 Proxifier

Mac系统的防病毒软件推荐Antivirus Zap - Virus Scanner 最新中文版

胖墩儿不胖y

Mac软件 杀毒软件 mac系统维护软件

编程和数学计算软件MATLAB R2023b for Mac

展初云

Mac matlab Mac软件

开发一个简单的管理系统,前端选择 Vue 还是 React?

互联网工科生

Vue React 管理系统

国外怎么传大文件到国内,这款传输软件跨国企业必备

镭速

国外传输文件 跨国传输软件

DAPP 燃烧质押 TITAN 挖矿系统开发

l8l259l3365

Linux环境变量及作用

芯动大师

两种情况下 不能放弃云计算! | David Hansson

B Impact

ES6新特性(六)

阡陌r

JavaScript import ES6 export 模块化

mac电脑屏幕调节亮度软件 Lunar pro 激活最新版

mac大玩家j

Mac软件 屏幕亮度调整工具 屏幕管理软件

Acrobat Pro DC 2023 for mac中文完美破解版

iMac小白

Acrobat Pro DC 2023 Acrobat Pro DC下载 Acrobat Pro DC破解版 Acrobat Pro DC mac

快手持续落地AIGC新应用场景 开启内测“AI小快”

Geek老T

AI 短视频 AIGC

智源一次性发布超100个大模型评测结果,文本到视频等多模态领域全覆盖_AI&大模型_华卫_InfoQ精选文章