写点什么

机器中文语言能力评测基准“智源指数”发布, AI 大模型有了评测新基准

  • 2022-01-10
  • 本文字数:4078 字

    阅读完需:约 13 分钟

机器中文语言能力评测基准“智源指数”发布, AI大模型有了评测新基准

近日,北京智源人工智能研究院(以下简称“智源研究院”)在自然语言处理重大研究方向前沿技术开放日活动上发布了大模型评测的“命题”新方案 —— 智源指数(CUGE)。


“如果说自然语言处理是人工智能皇冠上的一颗明珠,建立科学的评价标准就需要寻找这颗明珠的本身,如果方向错了, 走的越远,偏离越多,很有可能就找不到。近十年里,自然语言处理突飞猛进,特别是超大规模预训练语言模型等技术的突破,英文语言能力评价基准发挥了至关重要的指引作用”,中国工程院院士、中国人工智能学会理事长、清华大学教授戴琼海院士表示,“如今,智源 NLP 学者共同建立机器中文语言能力评测基准智源指数,对于中文信息处理乃至我国人工智能发展都具有重要的里程碑意义”。

智源指数 CUGE:大模型评测“命题”新方案

清华大学计算机系副教授刘知远详细介绍了智源指数构建背后的思考和具体设计方案。

为什么推出智源指数 CUGE?

自然语言处理是通过图灵测试实现人工智能的关键,如何评判一台计算机的语言能力,需要有科学的评价体系。如今自然语言处理的任务众多,如何从这些任务中筛选出、建立起科学有效的评价体系非常重要。


特别是最近这三年,预训练模型能够通过自监督学习的方式,习得通用的语言能力,意味着人工智能和自然语言处理有了新的发展范式。面向具有通用语言能力的预训练模型,如何全面准确的对它进行评价,也需要有科学有效的评价体系。


基于这样的考虑,智源研究院自然语言处理(NLP)重大研究方向的学者团队推出了智源指数 CUGE(Chinese Language Enderstanding and Generation Evaluation)

两大特色

人工智能大模型时代,评测基准成为大模型发展的风向标。从扁平到全面系统,从简化到多重维度,智源指数 CUGE 旨在尝试为大模型评测设计一张全面评估综合能力的“新考卷”。


刘知远教授介绍,智源指数有两个特色,一是建立了全面、系统的评测体系;二是在这个体系的基础上建立了多层次、多维度的评测方案。


在基准框架上,不同于传统将常用数据集扁平组织的方式,智源指数根据人类语言考试大纲和当前 NLP 研究现状,以语言能力-任务-数据集的分层框架来选择和组织数据集,涵盖 7 种重要的语言能力、17 个主流 NLP 任务和 19 个代表性数据集,通过不同的能力、不同的任务以及不同的数据集,希望能全面均衡地对机器中文语言能力做评测。


在评分策略上,智源指数能更好展现模型不同维度的模型语言智能差异,依托层次性基准框架,提供不同层次的模型性能评分,包括在数据集、任务和语言能力等,系统性大大加强。


智源指数所覆盖的数据集达到了近 20 个,任务体系庞大。为了更好的让更多单位、机构在智源平台开展相关评测,智源 NLP 学者团队选择了各语言能力下更具有代表性的任务和数据集,构建了一个智源指数的精简榜,这样可以更方便、快捷的评估模型的能力。参与者既可以用综合榜也也可以用精简榜。


本次活动还同时发布了在线评测平台和公开排行榜,支持多种展示模式,包含综合榜、精简榜和单数据集榜,方便用户快速多角度了解模型和数据集特性及最新动态。

与 GLUE 等评估基准的区别

GLUE 是业内公认的最具权威的语言理解评测基准之一。2018 年以来,伴随着预训练大模型的爆发,GLUE、SuperGLUE 等成为现在语言大模型评测的主要基准。


刘知远教授表示,现在在中文的世界,面向中文的自然语言处理,缺少一个比较科学有效、全面的评测基准。国内很多公司关注 CUGE,但 CUGE 里包含的数据集,它所覆盖的能力以及数据集的质量,还有待于商榷。


智源 NLP 学者团队认为,需要从学术界的视角更科学有效的构建出一个评测体系,通过这种方式更好的指引中文预训练模型包括大模型发展的方向。


“我们希望把机器要掌握的语言能力,包括的纬度,从这个角度划分,确定每个能力对应的任务以及对应的数据集。这样在选择上更均衡一些,更有效的反映大模型在不同语言能力上的表现,以及进一步努力的方向”,刘知远教授说。


与其他评估基准相比,CUGE 的另一个特点是更加开放,希望并支持全国乃至全世界做中文自然语言数据的机构智源指数的平台上发布数据集,且能为其提供单数据集评测的支持,包括组织比赛等。希望结合行业的力量,共建智源指数。


在智源指数评测方案上,智源 NLP 学者团队参考了现有评测方案的优点和缺点,构建出了一个多层次的评测方案。即依托于智源指数,从能力-任务-数据集层次性的体系,向上逐层汇总模型相应得分,反映模型或者是机器语言能力在不同方面的效果。此外,在这个过程中会以一些代表性的基线模型的得分作为基准,去规划不同任务下评测指标的特点,确保不同的能力互相之间在加合时是均衡的,有助于建立起机器语言能力在不同维度的效果评估。


智源指数还会提供一个参与者模型的性能排行榜。这个排行榜在设计时,也在充分吸收了国内外相关评测基准的特点的基础上,构建出了以下特色设计:


首先,排行榜会基于能力、任务和数据集的体系给每一个数据集所对应的标签。例如,某个数据集隶属于哪一个语言能力,哪一个任务... 未来还会标注出难度、效果和信度等相关标签,从而方便参与者筛选出感兴趣的能力或角度去进行相应的评测。


第二,基于标签体系,支持参与者通过标签筛选的方式定制排行榜。同时,官方也会提供若干代表推荐套餐,如精简榜等,方便让参与者开展有针对性的能力评测。


第三,根据所研制的 7 种能力进行能力呈现的雷达图。这个雷达图能较直观的让参与者认识到不同的模型在不同能力上提升的效果,以及未来努力的方向。


第四,平台同时会支持单数据集的排行榜和评测,能更加有利于参与者追踪数据集研究的进展和动态。也就是说,任何一个单个数据集,也可以看到相关评测效果的榜单。


刘知远教授表示,基于单数据集的榜单能力,未来智源指数将定期吸纳最新优秀数据集。

强调诚信,控制刷榜问题

现在很多榜单被各大玩家不断“刷分”。但刷分、刷榜往往容易带来一些问题。例如谷歌近期在一篇文章中指出,现有的 Benchmark 不能做到对模型的公平性评估,更多的是在某些特定的任务上刷分数。


对此,刘知远教授认为,应当辩证地看待这个问题,面对过去,Benchmark 发挥了重要的作用,它指引这些模型发展到现在的状态,但再往下发展,Benchmark 里面包含的数据集,如果长时间一成不变,的确指引的作用会越来越小。因为越到发展后期,“内卷”往往越严重,例如,CLUE,现在已经刷到比人的水平还高出很多,这并不意味着机器比一定比人强,只是在有限的几个采样上,机器表达能力很强而已。


为缓解“刷分”问题,智源指数作了一些特别设计。


刘知远教授表示,CUGE 特别强调“未来持续改进性”。“CUGE 会不断更新,每年会更新新的数据集,避免大家把精力都放在某几个数据集上,把时间用偏在别的地方。这就跟大学里考试一样,虽说很多学生会为了期末考试做针对性复习,但平时的学习也很重要,主要精力应该放在对学业本身的掌握和改进上,这是智源指数想要做到的状态”。


此外,智源指数还特别强调评测过程中的诚信,要求所有的提交者必须填写 Honor Code 并展示,鼓励用户诚信,不人工干预数据预训练和测试过程,让模型真正反映学习算法和数据体现出来的威力。


刘知远教授表示,未来还将依托智源研究院、智源社区的力量,建立用户面向数据集和评测结果的反馈、讨论机制,通过交互交流构建起中文高质量数据集社区,推动中文自然语言处理的发展。

成立智源指数委员会

为了更好地支持智源指数未来的发展,在智源研究院的支持下,搭起了依托于现有的自然语言处理学者团队,还构建了一个智源指数工作委员会。


据悉,委员单位目前已经吸纳了国内在自然语言处理方面 10 余家优势单位,接近 20 个相关优势研究组,针对智源指数不断进行改进。


智源指数工作委员会未来的职责主要包括智源指数研发、构建、发布、吸引新的数据集、评测网站的维护和更新工作等。


智源委员会明年将持续完善智源指数。刘知远教授透露,预计会在明年的智源大会上发布新版智源指数平台。

智源 NLP 研究方向 10 余项成果落地

自然语言处理(NLP)是智源重大学术研究方向之一,由清华大学孙茂松教授任该方向首席科学家,北京语言大学杨尔弘教授任项目经理,学者包括李涓子、穗志方、刘洋、万小军、何晓冬,青年科学家包括刘知远教授、韩先培、孙栩、严睿、张家俊、赵鑫、杨植麟、李纪为等。


除“智源指数”外,本次开放日活动还进行了“自然语言处理评测中的问题与对策”“迈向通用连续型知识库”“文本复述生成”等研究成果的阶段性汇报,内容涵盖预训练模型、知识计算、人机对话、文本生成等 10 余项重点 NLP 科研问题。


落地应用方面,清华大学李涓子教授团队构建的“多模态北京旅游知识图谱”可以为路径规划和景点信息查询等功能提供数据支持,为游客进行旅游行程的规划。


京东集团副总裁、智源研究员何晓冬博士团队针对大规模与训练语言模型在长文本理解任务上的不足,通过从局部视角到全局视角的重复阅读方法(Read-over-Read,RoR),提出了一种基于多视角的机器阅读理解模型,显著地提高了针对长文本的阅读理解能力。


预训练大模型方面,为突破预训练语言模型(Pretrained Language Model, PLM)的高计算成本、高设备需求、难应用适配等瓶颈问题,清华大学副教授、智源青年科学家刘知远教授等提出了面向 PLM 的全流程高效计算框架,并基于此框架构建了以中文为核心的超大规模预训练语言模型 CPM-2,具有 1980 亿参数,覆盖多语言、兼顾语言理解和语言生成的功能,并研制了 BMInf、OpenPrompt 等配套开源工具。


多样性文本复述方面,北京大学王选计算机研究所研究员、智源研究员万小军团队的科研成果包括,构建了业界首个面向学术文献领域的文本复述数据集 ParaSCI,提出了多样化语句复述模型 DivGAN,并提出业界首个篇章复述模型-CoRPG。该系列研究分别为文本复述领域提供了基础数据资源、方法模型以及新的思路,从而推动文本复述技术的应用落地。


此外,赵鑫、韩先培、张家俊等 7 位青年科学家,也发布了关于预训练模型、多模态语言等方面的最新成果分享。


孙茂松教授在接受 InfoQ 等少数采访时表示,现在人工智能技术为下一代自然语言处理更好的应用打下了基础,例如语音识别、机器翻译、同传等技术,跟十年前相比已经不可同日而语。此外,NLP 对其他领域应用有很大的促进作用,如财经、金融、法律等等。


2022-01-10 14:444571
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 544.1 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

3分钟教你最大化利用APP消息推送(Push)在运营中的优势

MobTech袤博科技

都2024年了,你还不知道一键登录怎么选吗?

MobTech袤博科技

秒验:让APP验证和登录远不只是便捷

MobTech袤博科技

开创加密资产新纪元:深度解析ERC-314协议

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

QAnything-1.3.0,支持纯python笔记本运行,支持混合检索

有道技术团队

10年产品经理教你快速提升消息推送的点击率

MobTech袤博科技

秒验资深玩家熬夜整理的15个常见问题,拿走不谢!

MobTech袤博科技

海外云手机助力出海电商引流获客

Ogcloud

云手机 海外云手机 云手机海外版 电商云手机 跨境云手机

高维解码|Redis 收紧许可证!开源软件公司如何在云时代生存?

Zilliz

redis 开源 许可证 Zilliz 开源公司

20余年运维实践经验总结!一本书掌握数字化运维方法

嘉为蓝鲸

运维 数字化转型 运维管理 IT 运维

2024年本机一键验证登录最强指南已出,请查收!

MobTech袤博科技

软件测试学习笔记丨自动化测试策略

测试人

软件测试 自动化测试 测试开发

阿里巴巴API接口助力,快速搜索“智能手表”新品,精准获取商品ID

技术冰糖葫芦

API Explorer api 货币化 API 文档

流量见顶了以后,APP为何仍然要使用推送通知?

MobTech袤博科技

内部人士揭秘:千万不要关闭手机一键登录验证

MobTech袤博科技

数仓调优实战:GUC参数调优

快乐非自愿限量之名

数仓 数仓架构

如何选择高防服务器?稳定性与安全性兼备

一只扑棱蛾子

高防服务器

如何搭建企业级MQ消息集成平台

RestCloud

ipaas MQ消息

K8s技术全景:架构、应用与优化

不在线第一只蜗牛

架构 Kubernetes 容器

10分钟说清楚,秒验一键认证除了快,还有哪些优点?

MobTech袤博科技

iOS 开发中上传 IPA 文件的方法(无需 Mac 电脑)

为什么 80% 的码农都做不了架构师?

秃头小帅oi

聚道云连接器打通红圈CRM和金蝶云星辰,赋能环境科技公司数字化转型

聚道云软件连接器

案例分享

MobTech积极参与鸿蒙生态建设,HarmonyOS NEXT鸿蒙星河版产品即将发布

MobTech袤博科技

上传应用程序到苹果应用商店的工具和要求

雪奈椰子

抖音、小红书都在用的秒验一键登录验证方式,到底好在哪?

MobTech袤博科技

哪个好人,2024年还在做push攻略科普啊!

MobTech袤博科技

10年大厂运营大咖告诉你,如何有效应对消息推送厂商配额

MobTech袤博科技

海外云手机:跨境电商引流的利器

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 跨境云手机

一文快速读懂消息推送的到达率、转化率和卸载率

MobTech袤博科技

机器中文语言能力评测基准“智源指数”发布, AI大模型有了评测新基准_AI&大模型_刘燕_InfoQ精选文章