写点什么

智源研究院 FlagEval 大模型评测平台更新 8 月榜单:新增通义千问、Llama2 等多个模型评测,评测基座模型代码生成能力

  • 2023-08-16
    北京
  • 本文字数:1277 字

    阅读完需:约 4 分钟

智源研究院FlagEval大模型评测平台更新8月榜单:新增通义千问、Llama2等多个模型评测,评测基座模型代码生成能力

为推动大模型在产业落地和技术创新,今年 6 月智源研究院发布了“开源商用许可语言大模型系列+开放评测平台” 两大重磅成果,打造“大模型进化流水线”。

 

FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。

 

FlagEval 大语言模型评测体系当前包含 6 大评测任务,20+评测数据集,80k+评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval 等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。

 

自 6 月 9 日上线以来,FlagEval 在短短一个月内就已收到 200+模型评测申请,并更新了首期 SFT 模型排行榜和大模型 2023 高考排行榜。在 FlagEval 8 月榜单最新榜单中,新增了通义千问、Llama2 等多个模型评测,也新增了基座模型代码生成能力评测。

 

新增多个明星开源模型评测:Llama2 / Qwen / InternLM / MPT / Falcon

 

基座模型(Base Model)榜单:

 

Qwen-7B、InternLM-7B 超越 Llama2,分列第一、第二名。

 


有监督微调模型(SFT Model)榜单:

 

InternLM-chat-7B 夺魁,刷新中英客观评测记录,悟道·天鹰 AquilaChat 排名第二;

 

Qwen-chat-7B 中英文客观评测结果欠佳,远低于其基座模型的客观评测表现;但在中文主观评测上,Qwen-chat-7B 以 75.4% 准确率排名第一,与第二名 ChatGLM2-6B(62.1%)拉开较大差距。

 

备受关注的 Llama2 基座模型 7B、13B 综合评测结果相比于第一代提升了 10%、25%;Llama2-Chat 7B、13B 英文能力突出,中文存在明显短板,中文主观评测准确率仅为 18.3%、22%,在 SFT 模型榜单上排名第三,仅次于 InternLM 和悟道·天鹰 Aquila。

 

新增针对基座模型 HumanEval 代码生成能力评测

 

近期,“代码生成能力”新晋成为大语言模型领域的热门话题,开源基座模型如 Llama2 的技术报告特别强调了“代码生成能力”作为其关键特性。 

 

基座模型强大的代码生成能力为后续的代码语料微调提供了坚实基础。因此,本期榜单引入了针对基座模型的 HumanEval 评测:

 

Pass@1 的评测结果显示,国产大模型 Qwen、InternLM 超越 Llama2-13B,分列第一、第二名。

 

Pass@100 结果显示,悟道·天鹰 Aquila-7B 的表现接近 Llama-13B,但与第二代 Llama2-13B 相比仍有一定差距。

 

HumanEval 是由 OpenAI 编写发布的代码生成评测数据集,包含 164 道人工编写的 Python 编程问题,模型针对每个单元测试问题生成 k(k=1,10,100)个代码样本,如果有任何样本通过单元测试,则认为问题已解决,并报告问题解决的总比例,即 Pass@k 得分。

 


Falcon-7b HumanEval 评测结果出自 Meta Llama2 官方论文 :

 

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

 

评测说明:

在评测时,FlagEval 根据数据集的不同规模进行了自动化采样。

更多评测结果请登录官网查看:https://flageval.baai.ac.cn/

2023-08-16 18:375312
用户头像
李冬梅 加V:busulishang4668

发布了 1002 篇内容, 共 613.9 次阅读, 收获喜欢 1177 次。

关注

评论

发布
暂无评论
发现更多内容

全球首例银行“大型机”下移背后

数据君

我们,让9300万人办事少跑一趟

数据君

28天瞎写的第二百三十二天:转角遇到蚵仔煎

树上

28天写作

【得物技术】无侵入式mock平台在得物的实践

得物技术

测试 数据 得物技术 Mock hulk

如何为多元化的产品场景选择完美的色彩组合?

百度Geek说

产品 设计

在世界球场一球成名:HMS 生态为游戏开发者送出的助攻

脑极体

使用nodejs构建Docker image最佳实践

程序那些事

Docker nodejs 程序那些事 docker image nodejs和docker

webpack | plugin机制详解

梁龙先森

大前端 webpack 28天写作

还在为计算机网络协议烦恼?了解这一篇就够了

Java架构师迁哥

加速AI边云协同创新!KubeEdge社区建立Sedna子项目

华为云原生团队

人工智能 开源 边缘计算 边缘技术

滴滴Logi-KafkaManager开源之路:一站式Kafka集群指标监控与运维管控平台

滴滴云

kafka 运维 监控 滴滴Logi

产品训练营--第三期作业(1)

曦语

产品训练营

程序员面试时一定要注意这五个陷阱!你记住了吗?

Java架构师迁哥

企业项目迁移go-zero全攻略(二)

万俊峰Kevin

微服务 microservice Go 语言

《王者荣耀》背后的数据秘密

数据君

Cisco路由器调试命令大全,看完就全部学会!

开发质量提升系列:系统建起来就能解决项目的困难?

罗小龙

最佳实践 方法论 28天写作

驶向数字智能的瀚海,“懂行人”助力石油人乘风破浪

脑极体

JS 防抖与节流

旗袍码农

架构师训练营第 2 期 第 6 周 作业一:CAP原理.md

老腊肉

架构师训练营第2期

2021首次分享面试阿里P6心得:1000字超全面试题答案解析

比伯

Java 编程 程序员 架构 面试

Elasticsearch Bulk API 批量增删改查

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

《程序员修炼之道》- 务实的方法(4)

石云升

程序员 28天写作

姐夫深夜不睡觉就在看spring+mybatis这两份源码资料,吸引力就这么强大吗?

荒芜

Java spring 源码 mybatis spring Boot Starter

Git操作文档

Paul

就这?Object类一点不难理解

后台技术汇

28天写作

Spark底层原理详细解析(深度好文,建议收藏)

五分钟学大数据

大数据 spark

CSS(八)——CSS盒模型

程序员的时光

程序员 大前端 七日更 28天写作

快速了解云原生架构

阿里巴巴云原生

架构 容器 微服务 云原生 k8s

线程有哪些状态,彼此之间如何切换

武哥聊编程

Java 多线程 28天写作

交易系统架构演进之路:服务治理

比伯

Java 编程 程序员 架构 技术宅

智源研究院FlagEval大模型评测平台更新8月榜单:新增通义千问、Llama2等多个模型评测,评测基座模型代码生成能力_AI 工程化_李冬梅_InfoQ精选文章