写点什么

如何构建高质量数据集与进行公正模型评测,AICon 带你一探究竟

  • 2024-07-08
    北京
  • 本文字数:1724 字

    阅读完需:约 6 分钟

如何构建高质量数据集与进行公正模型评测,AICon 带你一探究竟

高质量的数据集对于大模型的性能至关重要。获取这样的数据集需要经过精心的数据收集、清洗、标注、增强和平衡处理。同时,数据安全和隐私保护也是不可忽视的环节。大模型的评测同样重要,它包括准确性、鲁棒性、泛化能力、效率、可解释性以及伦理和偏见的考量。


AICon 全球人工智能开发与应用大会针对这些关键议题,策划了【数据集构建以及评测】论坛。这个论坛将聚焦于数据集的构建策略、模型的评测方法,以及如何确保模型的公平性和透明度。目前已经有几个精彩的议题

精彩推荐议题一:


如果有一个分享,可以带你了解全栈式行业数据处理和模型训练的方法,那你应该听听!


近年来,闭源大语言模型(LLMs)和开源社区在通用领域取得了显著进展,甚至在某些方面超越了人类。然而,在医学、政务等专业领域,语言模型的表现仍然不足。面对决这些挑战,智源研究院通过行业合作伙伴联合实验室机制,基于行业数据集构造和示范模型训练实践,提出了数据集构建技术体系,以及包含持续预训练、监督微调(SFT)以及强化学习(RLHF)技术的完整行业模型训练范式,获得了良好的模型性能效果。


我们非常荣幸邀请到北京智源人工智能研究院大模型行业应用总监周华老师,在本次演讲中,他将首先介绍人工智能大模型在行业落地的发展趋势,并分析当前面临的主要问题。随后,他会分享智源研究院在推动大模型行业落地方面的工作思路和研究方向。接着,他将详细讲解行业数据集构建的范式,以及行业模型训练的有效方法。在演讲的实践案例部分,周华将依次分享两个案例:首先是 Aquila-Med 示范模型的数据集构建和模型训练经验,其次是 Aquila-SQL 模型的训练过程及其在实际应用中的表现。


通过他的分享,你可以了解到企业内部大模型构建的方法、行业大模型训练的技术经验以及数据处理的方法和技术体系。

精彩推荐议题二:


如过有一个演讲,能带你了解了解多模态评测相关进展,那不能错过,尤其还是北京大学二级教授张铭的分享。


现有的数据集主要集中在检验模型解决专家级别难题的能力上,难以反映模型在基础知识方面的掌握情况。由于缺乏和人类表现相关的数据,因此科学家也不可能获取到更具实际意义的模型表现参考。为了攻克这些局限性,张铭团队构建了首个多模态 STEM 数据集,并且在此基础上实现对大语言模型与多模态基础模型的评测。评测的结果发现,即使是目前最先进的人工智能模型,其 STEM 基础水平也存在较大的提升空间,尚不具备解决更有难度的现实问题的能力。


此外,张铭团队还提出了一个新的社会学科数据集 Social,包含较大规模的文本评估数据,可用来评测大语言模型的社会学科基础能力;团队还设计了一种多智能体交互的方法,能够增强大语言模型在 Social 数据集上的表现。


我们非常有幸邀请到北京大学二级教授张铭,为我们分享《全方位评测神经网络模型的基础能力》话题,通过她的分享你可以了解到多模态评测相关进展探索以及大语言模型通用智能体方法进展探索。


精彩推荐议题三:


如果有一个演讲能够带你了解掌握幻觉评估的新方法、探索出模型幻觉原因与解决方案,那错过智源的分享就太可惜了。


大型语言模型 (LLMs) 在各种任务中取得了卓越的性能, 并在现实世界中得到了广泛应用。然而,LLMs 容易出现幻觉, 生成与已知知识相冲突或不忠实于原始信息来源的内容,影响了 LLMs 在很过高厉害场景上的应用。


现有的幻觉基准主要关注句子或段落层面的幻觉检测, 忽略了对话层面的评估、幻觉定位和原因解析。为了缓解现有幻觉评估的局限性, 智源提出了 HalluDial, 第一个全面的大规模自动对话级幻觉评估基准。


利用 HalluDial, 智源对 LLMs 在信息搜索对话中的幻觉评估能力进行了全面的元评估, 并引入了一个专门的判断语言模型 HalluJudge。HalluDial 的高数据质量使 HalluJudge 在幻觉评估中取得了优异或有竞争力的性能, 有助于自动评估 LLMs 中的对话级幻觉。


我们非常也有幸邀请到智源研究院智能评测组负责人杨熙 她将分享《大语言模型的幻觉检测》话题,为你提供不一样的幻觉解决思路。



活动推荐:


InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名,详情可联系票务经理 13269078023 咨询。



2024-07-08 19:145929

评论

发布
暂无评论
发现更多内容

ehviewer苹果下载版本2023最新版本

ehviewer

EhViewer

原生Mac视频下载器Downie4许可证下载v4.6.17

Rose

Mac 视频下载工具 Downie 4 下载 Downie4许可证 Downie 4 Mac版 Downie 4中文版

Mac平台上的条形码生成工具分享~

真大的脸盆

Mac Mac 软件 条形码生成工具 条形码软件

PoseiSwap以2500万美元估值,再获新一轮融资

西柚子

单例模式:确保一个类只有一个实例,提高程序的可维护性和可扩展性

Jack

JVM调优神器,运用 Arthas 释放 Java应用性能的全部潜力

做梦都在改BUG

Java JVM 性能调优 Arthas

弯道超车!阿里高工新产Java面试速成指南,面试骚操作都在里面了

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

神界原罪2游戏下载|DLC终极版|Mac游戏专区

Rose

神界:原罪2 神界原罪 Mac游戏 神界原罪 破解版下载

JDK源码怎么学?看这篇文章就够了!

Java永远的神

Java 程序员 多线程 jdk源码 架构师

卷起来了!阿里最新出品“微服务全阶笔记”,涵盖微服务全部操作

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

Exposure X7 Bundle下载|专业的照片处理插件套装

Rose

滤镜插件 Exposure X7 Bundle下载 Exposure X7中文版

2023最新最全的Java面试八股文小抄开源!带你摸熟 20+ 互联网公司面试考点

采菊东篱下

Java 面试

从源码分析可重入锁(ReentrantLock)

做梦都在改BUG

Java 源码 多线程 ReentrantLock

华东手机银行用户经营洞察2023

易观分析

金融 手机银行

阿里P8整理的《百亿级并发系统设计》实战手册,实在是太香了

程序知音

Java 高并发 java架构 Java进阶 后端技术

小白白也能学会的 PyQt 教程 —— 图像类及图像相关基础类介绍

繁依Fanyi

Python PyQt

OKX和UniSat联手革新比特币区块链上的BRC-20

币离海

2023最新版互联网Java高级工程师面试八股文出炉!面面俱到,太全了

架构师之道

编程 java面试

真香!阿里最新出品Java面试核心讲(终极版),Github已星标50K

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

5个编写高效Makefile文件的最佳实践

小万哥

c++ Linux 程序员 面试 后端

Mac强大音频采样器Kontakt 7 激活版

Rose

mac音频采样器 Kontakt 7激活版 Native Instruments Kontakt 7 mac下载

2024深圳电子信息展

AIOTE智博会

内部消息!阿里首次10亿级并发系统设计文档,Github都为之低头?

Java你猿哥

架构 ssm 高并发 并发系统设计 并发系统

HashMap 底层是如何实现的?

做梦都在改BUG

Java hashmap

肝完阿里最新Java并发编程全优笔记,我成功晋升公司架构组

做梦都在改BUG

Java 并发编程

Java 创建一个大文件

HoneyMoose

魔兽争霸3冰封王座中文下载_冰封王座 mac下载_解除8M地图限制

Rose

魔兽争霸3 冰封王座 Warcraft III Mac游戏下载

太爆了!阿里最新出品2023版JDK源码学习指南,Github三天已万赞

Java你猿哥

Java 源码 jdk 多线程 jdk源码

PoseiSwap以2500万美元估值,再获新一轮融资

股市老人

如何构建高质量数据集与进行公正模型评测,AICon 带你一探究竟_AI&大模型_李忠良_InfoQ精选文章