QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

智源一次性发布超 100 个大模型评测结果,文本到视频等多模态领域全覆盖

  • 2024-12-20
    北京
  • 本文字数:2777 字

    阅读完需:约 9 分钟

大小:1.51M时长:08:46
智源一次性发布超100个大模型评测结果,文本到视频等多模态领域全覆盖

整理 | 华卫


12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。关键结论如下:


  • 2024 年下半年大模型发展更聚焦综合能力提升与实际应用。

  • 多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。

  • 模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

  • 用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。


相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。


覆盖多种模态的综合榜单

智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。此外,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。


语言模型针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。


语言模型主观评测重点考察模型中文能力,结果显示字节跳动 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022 位列第三、第四,阿里巴巴 Qwen-Max-0919 排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴 Qwen-max-0919、字节跳动 Doubao-pro-32k-preview 位居第三、第四,Meta Llama-3.3-70B-Instruct 排名前五。


视觉语言多模态模型方面,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20 与字节跳动 Doubao-Pro-Vision-32k-241028 先后领先于 Anthropic Claude-3-5-sonnet-20241022,阿里巴巴 Qwen2-VL-72B-Instruct 和 Google Gemini-1.5-Pro 紧随其后。

文生图多模态模型方面,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于 3 的数量关系任务表现有所提升,大于 3 的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯 Hunyuan Image 位列第一,字节跳动 Doubao image v2.1、Ideogram 2.0 分居第二、第三,OpenAI DALL·E 3、快手可图次之。


文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵 1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技 PixVerse V3、MiniMax 海螺 AI、Pika 1.5 位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴 Qwen2-Audio 位居第一,香港中文大学 &微软 WavLLM、清华大学 &字节跳动 Salmon 位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU 均进入前五。

四个专项评测榜单

FlagEval 大模型角斗场,是智源研究院今年 9 月推出的面向用户开放的模型对战评测服务,以反映用户对模型的偏好。目前,FlagEval 覆盖国内外约 50 款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。


此次评测,共有 29 个语言模型、16 个图文问答多模态模型、7 个文生图模型、14 个文生视频模型参评。评测发现,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。

作为模型对战评测服务 FlagEval 大模型角斗场的延展,今年 10 月智源研究院推出了模型辩论平台 FlagEval Debate,对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以甄别语言模型的能力差异。


评测发现,大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;大模型在辩论中依然存在“幻觉问题”,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。FlagEval Debate 评测结果表明,Anthropic Claude-3-5-sonnet-20241022、零一万物 Yi-Lighting、OpenAI o1-preview-2024-09-12 为前三名。

此次评测,智源研究院探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。


评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;头部模型能力已接近初级量化交易员的水平。金融量化交易评测结果显示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。


本次评测,智源研究院还再次联合与海淀区教师进修学校新编了 K12 全学段、多学科试卷,进一步考察大模型与人类学生的能力差异,其中,答案不唯一的主观题依然由海淀教师亲自评卷。得益于多模态能力的带动发展,模型本次 K12 学科测验综合得分相较于半年前提升了 12.86%,但是仍与海淀学生平均水平存在差距;在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分;模型普遍存在“文强理弱”的偏科情况。

据了解,本次评测依托智源研究院自 2023 年 6 月上线的大模型评测平台 FlagEval,经过数次迭代,目前已覆盖全球 800 多个开闭源模型,包含 20 多种任务,90 多个评测数据集,超 200 万条评测题目。


在评测方法与工具上,智源研究院联合全国 10 余家高校和机构合作共建,探索基于 AI 的辅助评测模型 FlagJudge 和灵活全面的多模态评测框架 FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的 HalluDial 幻觉评测集、与北师大共建的 CMMU 多模态评测集、多语言跨模态评测集 MG18、复杂代码评测集 TACO 以及长视频理解评测 MLVU 等,其中与北京大学共建的 HalluDial 是目前全球规模最大的对话场景下的幻觉评测集,有 18000 多个轮次对话,和 14 万多个回答。


为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了 98%的题目,并提升了题目的难度。


2024-12-20 10:137907

评论

发布
暂无评论
发现更多内容

手撕设计模式

Peision

Java 后端 设计模式 23种设计模式

百万并发「零拷贝」技术系列之初探门径

码农神说

Java 架构 零拷贝

蚂蚁金服上市了,我不想努力了

YourBatman

IPO 财务自由 蚂蚁金服 财富自由

GoF设计模式 | 单例模式

Peision

Java 后端 23种设计模式

前后端统一结果集封装

Peision

Java json 前后端分离 springboot

Neo4j APOC 使用

wkq2786130

neo4j apoc

性能优化-架构师体现技术全面性的时刻

LEAF

玩转混合加密 | 精美配图

阿宝哥

安全 加密解密 数据加密

JVM性能调优监控工具 jps jstat jinfo jmap jhat jstack

wkq2786130

Java JVM

解决 Harbor 启动失败故障

FeiLong

Docker Harbor Docker-compose

C++ 线程安全的单例模式总结

小林coding

c++ 设计模式 单例模式 线程安全

为什么 Flink 无法实时写入 MySQL?

Apache Flink

flink

职业吐槽与反思(一)

石君

职场 吐槽

Cmder 使用 笔记

wkq2786130

cmder tools

GoF设计模式 | 工厂方法模式

Peision

Java 23种设计模式

写在《SRE生存指南》出版之际

冯文辉

DevOps SRE

前后端分离跨域问题解决方案

Peision

Java 前后端分离 springboot

neo4j 批量 导入 数据 的 几种方式

wkq2786130

neo4j

jvm-config

wkq2786130

Java JVM

专访英特尔唐炯:对旗下产品性能及未来路线图充满信心

最新动态

Java的异常处理

Bruce Duan

java异常处理

架构师训练营第七周作业

王铭铭

架构师训练营第七课总结

曾祥斌

创业使人成长系列 (5)-申请国家高新企业

石云升

高新企业

OrientDB etl 工具 导入 rdbms数据

wkq2786130

一张PDF了解JDK11 GC调优秘籍-附PDF下载

程序那些事

Java jdk GC 秘籍 JDK11

elasticsearch-restful-api笔记

wkq2786130

elasticsearch

neo4j load csv 使用

wkq2786130

canal 笔记

wkq2786130

MySQL canal

jqGrid表格封装和使用方法

Seven_xw1213

Java 大前端 封装 jqgrid

vcenter 5.5故障处理

小小文

vcenter

智源一次性发布超100个大模型评测结果,文本到视频等多模态领域全覆盖_AI&大模型_华卫_InfoQ精选文章