写点什么

智源一次性发布超 100 个大模型评测结果,文本到视频等多模态领域全覆盖

  • 2024-12-20
    北京
  • 本文字数:2777 字

    阅读完需:约 9 分钟

大小:1.51M时长:08:46
智源一次性发布超100个大模型评测结果,文本到视频等多模态领域全覆盖

整理 | 华卫


12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。关键结论如下:


  • 2024 年下半年大模型发展更聚焦综合能力提升与实际应用。

  • 多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。

  • 模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

  • 用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。


相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。


覆盖多种模态的综合榜单

智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。此外,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。


语言模型针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。


语言模型主观评测重点考察模型中文能力,结果显示字节跳动 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022 位列第三、第四,阿里巴巴 Qwen-Max-0919 排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴 Qwen-max-0919、字节跳动 Doubao-pro-32k-preview 位居第三、第四,Meta Llama-3.3-70B-Instruct 排名前五。


视觉语言多模态模型方面,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20 与字节跳动 Doubao-Pro-Vision-32k-241028 先后领先于 Anthropic Claude-3-5-sonnet-20241022,阿里巴巴 Qwen2-VL-72B-Instruct 和 Google Gemini-1.5-Pro 紧随其后。

文生图多模态模型方面,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于 3 的数量关系任务表现有所提升,大于 3 的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯 Hunyuan Image 位列第一,字节跳动 Doubao image v2.1、Ideogram 2.0 分居第二、第三,OpenAI DALL·E 3、快手可图次之。


文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵 1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技 PixVerse V3、MiniMax 海螺 AI、Pika 1.5 位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴 Qwen2-Audio 位居第一,香港中文大学 &微软 WavLLM、清华大学 &字节跳动 Salmon 位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU 均进入前五。

四个专项评测榜单

FlagEval 大模型角斗场,是智源研究院今年 9 月推出的面向用户开放的模型对战评测服务,以反映用户对模型的偏好。目前,FlagEval 覆盖国内外约 50 款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。


此次评测,共有 29 个语言模型、16 个图文问答多模态模型、7 个文生图模型、14 个文生视频模型参评。评测发现,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。

作为模型对战评测服务 FlagEval 大模型角斗场的延展,今年 10 月智源研究院推出了模型辩论平台 FlagEval Debate,对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以甄别语言模型的能力差异。


评测发现,大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;大模型在辩论中依然存在“幻觉问题”,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。FlagEval Debate 评测结果表明,Anthropic Claude-3-5-sonnet-20241022、零一万物 Yi-Lighting、OpenAI o1-preview-2024-09-12 为前三名。

此次评测,智源研究院探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。


评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;头部模型能力已接近初级量化交易员的水平。金融量化交易评测结果显示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。


本次评测,智源研究院还再次联合与海淀区教师进修学校新编了 K12 全学段、多学科试卷,进一步考察大模型与人类学生的能力差异,其中,答案不唯一的主观题依然由海淀教师亲自评卷。得益于多模态能力的带动发展,模型本次 K12 学科测验综合得分相较于半年前提升了 12.86%,但是仍与海淀学生平均水平存在差距;在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分;模型普遍存在“文强理弱”的偏科情况。

据了解,本次评测依托智源研究院自 2023 年 6 月上线的大模型评测平台 FlagEval,经过数次迭代,目前已覆盖全球 800 多个开闭源模型,包含 20 多种任务,90 多个评测数据集,超 200 万条评测题目。


在评测方法与工具上,智源研究院联合全国 10 余家高校和机构合作共建,探索基于 AI 的辅助评测模型 FlagJudge 和灵活全面的多模态评测框架 FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的 HalluDial 幻觉评测集、与北师大共建的 CMMU 多模态评测集、多语言跨模态评测集 MG18、复杂代码评测集 TACO 以及长视频理解评测 MLVU 等,其中与北京大学共建的 HalluDial 是目前全球规模最大的对话场景下的幻觉评测集,有 18000 多个轮次对话,和 14 万多个回答。


为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了 98%的题目,并提升了题目的难度。


2024-12-20 10:137353

评论

发布
暂无评论
发现更多内容

ShareSDK第三方平台使用指南——新浪微博

MobTech袤博科技

Java 开发者 产品动态

向量检索服务的基本概念

DashVector

向量检索 #数据库 #人工智能 #大模型

需求缺陷管理:8款最佳系统全面评测

爱吃小舅的鱼

缺陷管理系统 缺陷管理 缺陷管理工具 需求缺陷管理

日程管理多源归一,服务场景一键直达

HarmonyOS SDK

HarmonyOS

巴赫:阿里AI技术将巴黎奥运转播带到新高度

阿里云CloudImagine

云计算 音视频 视频云 奥运会 AI增强技术

8月浙江省公安厅即将举办省网络与信息安全管理员项目职业技能竞赛

行云管家

网络安全 信息安全

支持英文语言的堡垒机是什么?叫做什么名字?

行云管家

软件 堡垒机

滴滴开源 LogicFlow:专注流程可视化的前端框架

源字节1号

开源

超13万律师使用的工具,启信宝推出“司法大数据”功能

合合技术团队

人工智能 大数据 司法

Interconnectivity of Industrial Equipment: IPQ9574 vs. IPQ4019 in Real-World Applications

wallyslilly

揭秘攻击者规避XDR检测的惯用手法及应对建议

我再BUG界嘎嘎乱杀

黑客 网络安全 安全 网安 XDR检测

基于大模型的对话式数据分析产品“腾讯云 ChatBI ”正式上线公测

腾讯云大数据

腾讯云 BI

低代码平台在采购管理中的革新与应用

天津汇柏科技有限公司

低代码 采购管理 软件定制开发

复古传奇,经典归来,清渊传奇详细图文架设教程

echeverra

清渊传奇

推荐5款人事管理系统!免费可用

软件大师兄

草料二维码 人事管理系统 简道云

利用 Python 和 IPIDEA:跨境电商与数据采集的完美解决方案

海拥(haiyong.site)

Python

综合性价比超越硅谷,PPIO派欧云发布下一代推理加速引擎

Geek_2d6073

深入解析 Go 语言 GMP 模型:并发编程的核心机制

王中阳Go

Go 面试 GMP

Bug管理必备:2024年7款最佳工具推荐

爱吃小舅的鱼

缺陷管理 bug管理 bug管理工具 缺陷管理工具

油猴Safari浏览器辅助插件 油猴脚本Tampermonkey mac版下载安装教程

Rose

Tampermonkey插件 油猴脚本使用

数据分析统计Minitab Express for Mac破解补丁 及安装教程 兼容m芯片

Rose

数据统计 Mac 软件 数据分析软件 Minitab Express下载 Minitab Express破解版

AlDente Pro :苹果电脑电池管理工具 延长电池寿命

Rose

苹果电脑 电池管理 AlDente Pro破解版 电池寿命

第61期|GPTSecurity周报

云起无垠

两个爆点,引爆在线教育平台数智化

字节跳动数据平台

在线教育 可视化 云服务 数智化

可观测性建设路线图

FunTester

GPT4o-mini是什么?有什么特点?

蓉蓉

GPT-4o mini

硅纪元视角 | 苹果AI训练数据大曝光,坚持用户隐私第一

硅纪元

ETL数据集成丨将DB2数据同步至Postgres数仓实践

RestCloud

数据库 postgresql 数据同步 ETL 数据集成工具

向量检索服务应用场景

DashVector

数据库 向量检索 大模型

如何将文本转换为向量(DashScope)

DashVector

数据库 向量检索 大模型

走在市场前沿:用Lazada商品列表数据接口追踪竞争对手

tbapi

lazada商品API接口 lazada商品列表数据接口 lazada lazada商品数据采集接口

智源一次性发布超100个大模型评测结果,文本到视频等多模态领域全覆盖_AI&大模型_华卫_InfoQ精选文章