大语言模型综合能力测评报告2024

大语言模型综合能力测评报告2024

发布于:2024-01-17 16:48
InfoQ 研究中心本研究围绕语义理解、文学创作、知识问答、逻辑推理、编程、上下文理解、语境感知、多语言处理及多模态交互等十大核心领域,对包括 ChatGPT-4、文心一言专业版、通义千问 V2.1.1、Bard2.0、讯飞星火 V3.0、Kimi Chat 网页版、百川大模型 V1.0、智谱清言网页版、360 智脑 4.0 和豆包在内的十款热门模型进行了全面评估,测试题目数量超过 3000 道。
查看更多
下载此书

研究背景

InfoQ 研究中心近期专注于大型语言模型产品的市场动态和性能特点,深入分析了这些模型在多个关键维度上的表现。本研究围绕语义理解、文学创作、知识问答、逻辑推理、编程、上下文理解、语境感知、多语言处理及多模态交互等十大核心领域,对包括 ChatGPT-4、文心一言专业版、通义千问 V2.1.1、Bard2.0、讯飞星火 V3.0、Kimi Chat 网页版、百川大模型 V1.0、智谱清言网页版、360 智脑 4.0 和豆包在内的十款热门模型进行了全面评估,测试题目数量超过 3000 道。


在本次研究中,我们特别增加了对逻辑推理、商业写作及多模态能力这三个关键领域的测试权重和比例,以更准确地评估各模型在这些重要方面的实际表现。InfoQ 研究中心希望通过这次评估,帮助技术领域的同仁更深入地了解国内外大型模型产品的性能、稳定性和准确性,从而为大模型的持续进步和应用实施提供参考和助力。

中国大模型及产品图谱


进入 2023 年下半年,国内的大型模型已经进入了一个显著的成长阶段。不仅模型的数量呈现出爆炸式的增长趋势,而且模型的质量也在持续提升。随着首批国产大型模型完成备案并向公众开放,这些模型正在越来越多地进入用户的视野和认知中。


据最新统计数据显示,在目前的市场上,GPT 系列大型模型和百度文心大型模型已经稳居第一梯队,受到了广泛的关注和应用。近半数的受访开发者表示,他们了解或使用过这两款模型,这充分证明了它们在行业内的领先地位和影响力。


而阿里通义大型模型、LLaMA 2、讯飞星火大型模型、华为盘古大型模型以及智谱 Chat GLM 3 大型模型则构成了第二梯队。这些模型也受到了不少开发者的关注和使用,超过五分之一的受访者表示了解或使用过它们。


此外,还有一批新兴的大型模型正在崭露头角,它们包括百川大型模型、Stable Video、Diffusion、昆仑万维天工大模型、360 智脑大型模型、MOSS 大型模型、智源悟道大型模型以及商汤科技的商量 Sense Chat 等,这些模型共同构成了第三梯队。



上图数据来源:2023 年 12 月 InfoQ 发起的用户调研,N=1217

测评结果

相较于 2023 年 5 月的测试结果,本次测试的整体得分率平均提升了 23.39%,各项性能均取得了明显的进步。反映大模型基础能力的认知和学习能力稳步提升,历史、地理、商业、医学、科学等领域,大模型依旧保持高水平。值得一提的是,反映大模型进阶能力的题目得分率平均提升了 35.77%;文生图、文生语音的多模态题目得分率相较于以往提高了近 20 倍,文心一言专业版、讯飞星火、ChatGPT-4 等多项产品开始展现出强大的多模态能力,为大模型的发展开辟了更广阔的前景。

测评领域整体得分情况

与 2023 年 5 月的测评结果对比

各大语言模型测评结果

根据测试结果显示,ChatGPT-4 的综合能力位居第一,文心一言专业版以 82.90%的综合得分位列榜单第二名。令人惊喜的是,文心一言的得分与 ChatGPT 得分非常接近,仅仅落后 0.42%。



评论 (1 条评论)

发布
用户头像
官方的评测报告我下载看了一下,在编程能力评估这方面和我本人的测试结果相差甚远。 至少目前国内这些大模型还没有一个能和GPT-4相比的。不知道你们是怎么测试这些大模型的编程能力的? 测试了哪些编程语言? 交互了多少次后模型可以给出可以直接运行的程序?

国内大模型的主要缺陷体现在以下几方面:

1) 不会结合上下文来修复错误: 例如用户提出编程需求,模型给出程序,用户检查后指出具体的错误(例如 第几行 或者什么函数/方法实现有问题),模型不会结合用户给出的上下文去修复错误,而是一错再错,结果就是一个非常简单的编程需求被弄得越来越复杂,错误越来越多,最后用户只好放弃;国产的大语言模型基本都存在这个问题,而ChatGPT在这方面做的比较好;


2) 自我编造能力: 这点ChatGPT表现的很”突出”, 特别是JAVA编程交互时,它会自动编造一些看上去很像的程度片段,例如包名,类名,方法名等等。用户在实际测试时发现这个包/类/方法压根就不存在,需要继续和模型进行交互; 国产大模型的编造能力不如GPT, 不过经常出现变量和函数/方法定义上的各种低级错误,让用户最终放弃。


3) 缺乏联网搜索能力:在最新发布的ChatGPT-4 中,已经提供了联网搜索的能力,这样会大大提高解决问题的效率。其他国产大语言模型尚未评测此项能力。


4) 综合评价: 国产大语言模型的编程能力欠缺主要跟预训练的质量有关系,缺乏足够的预训练数据,数据质量比较低导致训练效果不佳。

展开
2024-02-20 15:25 · 北京
回复
没有更多评论了