写点什么

智源研究院 FlagEval 大模型评测平台更新 8 月榜单:新增通义千问、Llama2 等多个模型评测,评测基座模型代码生成能力

  • 2023-08-16
    北京
  • 本文字数:1277 字

    阅读完需:约 4 分钟

智源研究院FlagEval大模型评测平台更新8月榜单:新增通义千问、Llama2等多个模型评测,评测基座模型代码生成能力

为推动大模型在产业落地和技术创新,今年 6 月智源研究院发布了“开源商用许可语言大模型系列+开放评测平台” 两大重磅成果,打造“大模型进化流水线”。

 

FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。

 

FlagEval 大语言模型评测体系当前包含 6 大评测任务,20+评测数据集,80k+评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval 等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。

 

自 6 月 9 日上线以来,FlagEval 在短短一个月内就已收到 200+模型评测申请,并更新了首期 SFT 模型排行榜和大模型 2023 高考排行榜。在 FlagEval 8 月榜单最新榜单中,新增了通义千问、Llama2 等多个模型评测,也新增了基座模型代码生成能力评测。

 

新增多个明星开源模型评测:Llama2 / Qwen / InternLM / MPT / Falcon

 

基座模型(Base Model)榜单:

 

Qwen-7B、InternLM-7B 超越 Llama2,分列第一、第二名。

 


有监督微调模型(SFT Model)榜单:

 

InternLM-chat-7B 夺魁,刷新中英客观评测记录,悟道·天鹰 AquilaChat 排名第二;

 

Qwen-chat-7B 中英文客观评测结果欠佳,远低于其基座模型的客观评测表现;但在中文主观评测上,Qwen-chat-7B 以 75.4% 准确率排名第一,与第二名 ChatGLM2-6B(62.1%)拉开较大差距。

 

备受关注的 Llama2 基座模型 7B、13B 综合评测结果相比于第一代提升了 10%、25%;Llama2-Chat 7B、13B 英文能力突出,中文存在明显短板,中文主观评测准确率仅为 18.3%、22%,在 SFT 模型榜单上排名第三,仅次于 InternLM 和悟道·天鹰 Aquila。

 

新增针对基座模型 HumanEval 代码生成能力评测

 

近期,“代码生成能力”新晋成为大语言模型领域的热门话题,开源基座模型如 Llama2 的技术报告特别强调了“代码生成能力”作为其关键特性。 

 

基座模型强大的代码生成能力为后续的代码语料微调提供了坚实基础。因此,本期榜单引入了针对基座模型的 HumanEval 评测:

 

Pass@1 的评测结果显示,国产大模型 Qwen、InternLM 超越 Llama2-13B,分列第一、第二名。

 

Pass@100 结果显示,悟道·天鹰 Aquila-7B 的表现接近 Llama-13B,但与第二代 Llama2-13B 相比仍有一定差距。

 

HumanEval 是由 OpenAI 编写发布的代码生成评测数据集,包含 164 道人工编写的 Python 编程问题,模型针对每个单元测试问题生成 k(k=1,10,100)个代码样本,如果有任何样本通过单元测试,则认为问题已解决,并报告问题解决的总比例,即 Pass@k 得分。

 


Falcon-7b HumanEval 评测结果出自 Meta Llama2 官方论文 :

 

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

 

评测说明:

在评测时,FlagEval 根据数据集的不同规模进行了自动化采样。

更多评测结果请登录官网查看:https://flageval.baai.ac.cn/

2023-08-16 18:375271
用户头像
李冬梅 加V:busulishang4668

发布了 985 篇内容, 共 590.8 次阅读, 收获喜欢 1148 次。

关注

评论

发布
暂无评论
发现更多内容

深入理解PHP反射API的工作原理

技术冰糖葫芦

API Explorer API 接口 API 文档 pinduoduo API

SD-WAN技术怎样提升网络可靠性?

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

探索智慧服务新高度,2024 OPPO服务生态开发者沙龙在京举行

科技热闻

win版 ExtraMAME(MAME模拟器) v24.5 注册版

iMac小白

ExtraMAME下载 ExtraMAME注册版

一文搞懂RESTful开发

不在线第一只蜗牛

RESTful Rest

CyberScheduler架构引擎

数新网络官方账号

Windows System Control Center(WSCC) v7.0.9.2注册版

iMac小白

win版Aiseesoft Video Converter Ultimate(万能视频转换器)激活版

iMac小白

inBuilder低代码平台新特性推荐-第十九期

inBuilder低代码平台

开源 低代码

阿里巴巴中国站关键字搜索API返回值应用指南:电商营销新策略

技术冰糖葫芦

API boy API 接口 API 文档 pinduoduo API

2班-马千里-学习笔记

一马行千里

精选:2024年市场上10个最好的一体化协同办公平台

爱吃小舅的鱼

协同办公 协同办公系统

云时代下的呼叫中心:SD-WAN的推动作用

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商 异地组网 SDWAN

一文读懂3D实时云渲染!原理、优势、行业应用详解

点量实时云渲染

渲染 实时渲染 实时云渲染 3ds Max云渲染 3D实时云渲染

win版Danil Pristupov Fork(Git客户端)v1.97.0 激活版

iMac小白

Fork 下载 Fork 激活版

win版TablePlus(数据库管理工具) v6.0 破解版

iMac小白

TablePlus激活版 TablePlus下载 TablePlus破解版

前端开发拥抱Vue3,优势何在?

珲少

ITBOOK 多得

win版Mountain Duck(FTP服务器管理工具)激活版

iMac小白

Mountain Duck下载 Mountain Duck激活

win版4K Video Downloader(高清视频下载软件)特别版

iMac小白

【前沿探索】|大模型在二进制安全领域中的应用

云起无垠

函数计算助力领健信息为“看牙”注入 AI 活力

阿里巴巴云原生

阿里云 云原生 函数计算

客户案例 I 中国头部智能电动车企利用流程智能平台健全和完善IPD体系

望繁信科技

数据挖掘 流程挖掘 汽车行业 流程智能 数字北极星

低代码与数字经济的大腾飞:构建未来的新引擎

快乐非自愿限量之名

低代码 数字经济

任务管理用什么工具?这款一站式软件助力敏捷团队精益化!

彭宏豪95

项目管理 职场 任务管理 在线白板 任务管理软件

Kubernetes 事件日志采集与分析最佳实践

观测云

k8s

NBA赛事在线直播观看平台开发有哪些方法?开发多少钱?

软件开发-梦幻运营部

Apache Doris 2.0.10 版本正式发布

SelectDB

数据库 大数据 数据仓库 数据分析 Doris

Java面试题:Spring中的循环依赖,给程序员带来的心理阴影

快乐非自愿限量之名

Java spring

低代码:引领数字化革命的新浪潮

EquatorCoco

低代码 数字化

低代码与数据分析可视化:构建数字化未来的双引擎

不在线第一只蜗牛

数据挖掘 数据分析 低代码

智源研究院FlagEval大模型评测平台更新8月榜单:新增通义千问、Llama2等多个模型评测,评测基座模型代码生成能力_AI 工程化_李冬梅_InfoQ精选文章