写点什么

国内首份!清华大学、中关村实验室等机构联合发布《大模型安全实践(2024)》白皮书

  • 2024-07-06
    北京
  • 本文字数:1835 字

    阅读完需:约 6 分钟

大小:925.53K时长:05:15
国内首份!清华大学、中关村实验室等机构联合发布《大模型安全实践(2024)》白皮书

7 月 5 日下午,清华大学、中关村实验室、蚂蚁集团等机构联合撰写的《大模型安全实践(2024)》白皮书(以下简称“白皮书”)在 2024 世界人工智能大会上正式发布。这也是国内首份“大模型安全实践”研究报告,为行业打造高价值参考体系。白皮书首次系统化提出安全实践总体框架,从安全性、可靠性、可控性等维度给到了技术实施方案,同时提供了金融、医疗、政务等领域的大模型安全应用案例,以及“五维一体”协同共治的治理框架。

 


 (图:《大模型安全实践(2024)》白皮书发布现场)

 

大模型技术正成为推动社会进步和创新的关键力量。然而随着大模型能力的不断增强,其安全性、可靠性、可控性受到前所未有的挑战,如研发过程中引发信息泄露、价值对齐、机器幻觉等问题,以及落地过程中面临的数据、模型、算法及其运行的软硬件环境安全风险。

 

面对以上挑战,白皮书提出了大模型安全实践总体框架。该白皮书确立了“以人为本,AI 向善”为大模型安全建设的核心,确保技术进步服务于人类福祉;以“安全、可靠、可控”三个核心维度的大模型安全技术体系,并涵盖了大模型安全测评与防御的综合技术方案;以及“端、边、云”为大模型安全技术的主要承载实体。

 

作为报告核心,大模型安全技术体系里,安全性意味着确保模型在所有阶段都受到保护,涉及数据安全、模型安全、系统安全、内容安全、认知安全和伦理安全等;可靠性要求大模型在各种情境下都能持续提供准确、一致、真实的结果;可控性关乎模型在提供结果和决策时能否让人类了解和介入,可根据人类需要进行调适和操作。通过这三个维度,可提升大模型的鲁棒性、可解释性、公平性、真实性、价值对齐、隐私保护等方向的能力。

 

白皮书指出安全评测技术和安全防御技术也是保障大模型安全的有效手段,但目前大模型的安全评测绝大多数是针对内容类场景,随着大模型技术快速发展和广泛应用,对 Agent 这类复杂大模型应用架构和未来通用 AGI 的评估是当下面临的挑战。制定标准建立面向未来的大模型可信测评体系将会变得越来越重要,这需要政府、高校等机构,联合有相关经验的企业共同合作。


 

(图:大模型安全实践总体框架)

 

白皮书以蚂蚁集团自研的大模型安全一体化解决方案“蚁天鉴”为例,介绍了国内机构和企业在探索大模型安全应用的优秀实践。

 

蚁天鉴是一款兼具大模型安全测评和防御的产品,目前已开放给 20 余家外部机构和企业,在金融、政务、医疗等重要领域得到采用,为行业大模型数据、训练、部署、应用等环节提供安全保障。

 

例如,在金融场景,蚂蚁 AI 金融助理“支小宝”,通过“蚁天鉴”从大模型训练与推理风险管控、大模型风险点全方位评测、大模型用户交互风险管控三个方面保障大模型应用安全;针对金融业务,通过内嵌一致性检验和金融价值对齐,确保数据的准确性和金融逻辑的严格性。在医疗场景,上海市第一人民医院通过引入“蚁天鉴”平台,在其首创安全前置护栏技术保障下,可精准杜绝医院最关注的风险的出现,保障医疗大模型生成的内容更符合医疗垂类的安全和专业,有效应对大模型应用中的信息安全与隐私保护、双向内容风险防控等问题。在政务领域,“赣服通”政务 AI 助理在端侧实施的安全措施具有借鉴意义,其结合“蚁天鉴”通过千万政务预料训练来实现精准意图识别、智能追问反问和高频事项即问即办等功能;针对政务行业大模型应用中生成不可控、安全覆盖面广、内容对抗强、时效要求高等挑战,构建安全护栏和安全防御两大核心能力,覆盖数百项大模型内容生成风险,可应对单次 50 万量级的饱和攻击。

 

清华大学长聘副教授、博士生导师李琦指出,大模型安全应用是一个新兴领域,研究和应用尚处于起步阶段。不少企业是在原有的传统数据安全、信息安全、系统安全等经验基础上,进行能力迁移,应用于大模型安全。随着新的大模型安全实践的不断深入,技术也会持续升级,为大模型安全构建实践范式,打造高价值参考体系。

 


(图:蚂蚁集团安全实验室首席科学家王维强主题演讲)

 

蚂蚁集团安全实验室首席科学家王维强在会上做了《大模型应用安全可信实践探索》的主题演讲。王维强认为,随着大模型的深度应用,在原有可信人工智能治理体系框架基础上,提升大模型的安全、可靠、可控建设,确保技术进步服务于人类福祉,是未来人工智能可持续发展的重要保障。

 

白皮书最后还提出了构建集大模型安全政府监管、大模型安全生态培育、大模型安全企业自律、大模型安全人才培养、大模型安全测试验证“五维一体”多元参与、协同共治的治理框架。这对于大模型安全生态形成、大模型可持续发展具有非常重要和积极的意义。

2024-07-06 14:047670
用户头像
李冬梅 加V:busulishang4668

发布了 1002 篇内容, 共 616.8 次阅读, 收获喜欢 1178 次。

关注

评论

发布
暂无评论
发现更多内容

Js 异步处理演进,Callback=>Promise=>Observer

CRMEB

完美!华为爆出Redis宝典,原来Redis性能可压榨到极致

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

InfoQ 写作平台优质创作者签约计划第二季,我们来了!

InfoQ写作社区官方

签约计划第二季 热门活动

中科柏诚加入信创生态实验室,助力金融领域关键核心技术攻关

联营汇聚

IMS究竟有什么用?

鸿天hente

淘特 Flutter 流式场景的深度优化

阿里巴巴终端技术

flutter ios android 移动应用 客户端开发

工具 | pg_recovery 设计原理与源码解读

RadonDB

数据库 postgresql 源码 RadonDB

莫慌!阿里人用五个模块讲明白了SpringCloud,可下载

热爱java的分享家

Java 架构 面试 编程语言 经验分享

AI 收藏夹 Vol.002

Zilliz

Python代码阅读(第64篇):角度与弧度互转

Felix

Python 编程 Code 阅读代码 Python初学者

首次公布Java10W字面经,Github访问量破百万

热爱java的分享家

Java 架构 面试 程序人生 经验分享

硬核!阿里自爆虐心万字面试手册,Github上获赞89.7K

热爱java的分享家

Java 架构 面试 编程语言 经验分享

参赛必读!! 签约计划第二季考核要求

InfoQ写作社区官方

签约计划第二季 热门活动

从落地效果看,转转选择TDengine的三个理由

TDengine

tdengine 后端 时序数据库

直播带货软件原生开发直播带货小程序平台搭建

风行无疆

ExoPlayer播放在线TS文件无声音问题分析

Changing Lin

11月日更

单元测试再出发

FunTester

Java 单元测试 测试框架 spock Groovy

盲盒app源码开发盲盒小程序原生开发搭建

风行无疆

汽车之家 x StarRocks:极速实时数据分析实践

StarRocks

大数据 数据分析 StarRocks OLAP数据库

双非渣硕,在传统公司磨炼四年后成功拿到阿里offer!(附面经分享)

Geek_1df311

Java 程序员 架构 面试

为什么工业巨头们偏爱自建5G私有专网!

鸿天hente

百度ERNIE新突破!登顶中文医疗信息处理权威榜单CBLUE冠军

科技热闻

这样准备面试定能轻松斩获offer!(内附精选java面试题与答案)

Geek_1df311

Java 程序员 架构 面试

限量!腾讯高工用4部分讲清楚了Spring全家桶+微服务

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

智能客服"下半场":数据、技术与服务

百度大脑

人工智能

花了30天才肝出来,史上最全面Java设计模式总结,看完再也不会忘

Tom弹架构

Java 架构 设计模式

联想智慧服务获金耳唛奖总冠军暨业务交流会在京举行

科技大数据

研发效能团队如何拥抱开源社区?一些前沿理念与朴素认知

Zilliz

掘金新大陆——最后一个十亿蓝海

WorkPlus协同办公系统的优势有哪些?

BeeWorks

PingCode Wiki 协同编辑技术揭秘

PingCode研发中心

wiki PingCode

国内首份!清华大学、中关村实验室等机构联合发布《大模型安全实践(2024)》白皮书_生成式 AI_李冬梅_InfoQ精选文章