AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

国内首份!清华大学、中关村实验室等机构联合发布《大模型安全实践(2024)》白皮书

  • 2024-07-06
    北京
  • 本文字数:1835 字

    阅读完需:约 6 分钟

大小:925.53K时长:05:15
国内首份!清华大学、中关村实验室等机构联合发布《大模型安全实践(2024)》白皮书

7 月 5 日下午,清华大学、中关村实验室、蚂蚁集团等机构联合撰写的《大模型安全实践(2024)》白皮书(以下简称“白皮书”)在 2024 世界人工智能大会上正式发布。这也是国内首份“大模型安全实践”研究报告,为行业打造高价值参考体系。白皮书首次系统化提出安全实践总体框架,从安全性、可靠性、可控性等维度给到了技术实施方案,同时提供了金融、医疗、政务等领域的大模型安全应用案例,以及“五维一体”协同共治的治理框架。

 


 (图:《大模型安全实践(2024)》白皮书发布现场)

 

大模型技术正成为推动社会进步和创新的关键力量。然而随着大模型能力的不断增强,其安全性、可靠性、可控性受到前所未有的挑战,如研发过程中引发信息泄露、价值对齐、机器幻觉等问题,以及落地过程中面临的数据、模型、算法及其运行的软硬件环境安全风险。

 

面对以上挑战,白皮书提出了大模型安全实践总体框架。该白皮书确立了“以人为本,AI 向善”为大模型安全建设的核心,确保技术进步服务于人类福祉;以“安全、可靠、可控”三个核心维度的大模型安全技术体系,并涵盖了大模型安全测评与防御的综合技术方案;以及“端、边、云”为大模型安全技术的主要承载实体。

 

作为报告核心,大模型安全技术体系里,安全性意味着确保模型在所有阶段都受到保护,涉及数据安全、模型安全、系统安全、内容安全、认知安全和伦理安全等;可靠性要求大模型在各种情境下都能持续提供准确、一致、真实的结果;可控性关乎模型在提供结果和决策时能否让人类了解和介入,可根据人类需要进行调适和操作。通过这三个维度,可提升大模型的鲁棒性、可解释性、公平性、真实性、价值对齐、隐私保护等方向的能力。

 

白皮书指出安全评测技术和安全防御技术也是保障大模型安全的有效手段,但目前大模型的安全评测绝大多数是针对内容类场景,随着大模型技术快速发展和广泛应用,对 Agent 这类复杂大模型应用架构和未来通用 AGI 的评估是当下面临的挑战。制定标准建立面向未来的大模型可信测评体系将会变得越来越重要,这需要政府、高校等机构,联合有相关经验的企业共同合作。


 

(图:大模型安全实践总体框架)

 

白皮书以蚂蚁集团自研的大模型安全一体化解决方案“蚁天鉴”为例,介绍了国内机构和企业在探索大模型安全应用的优秀实践。

 

蚁天鉴是一款兼具大模型安全测评和防御的产品,目前已开放给 20 余家外部机构和企业,在金融、政务、医疗等重要领域得到采用,为行业大模型数据、训练、部署、应用等环节提供安全保障。

 

例如,在金融场景,蚂蚁 AI 金融助理“支小宝”,通过“蚁天鉴”从大模型训练与推理风险管控、大模型风险点全方位评测、大模型用户交互风险管控三个方面保障大模型应用安全;针对金融业务,通过内嵌一致性检验和金融价值对齐,确保数据的准确性和金融逻辑的严格性。在医疗场景,上海市第一人民医院通过引入“蚁天鉴”平台,在其首创安全前置护栏技术保障下,可精准杜绝医院最关注的风险的出现,保障医疗大模型生成的内容更符合医疗垂类的安全和专业,有效应对大模型应用中的信息安全与隐私保护、双向内容风险防控等问题。在政务领域,“赣服通”政务 AI 助理在端侧实施的安全措施具有借鉴意义,其结合“蚁天鉴”通过千万政务预料训练来实现精准意图识别、智能追问反问和高频事项即问即办等功能;针对政务行业大模型应用中生成不可控、安全覆盖面广、内容对抗强、时效要求高等挑战,构建安全护栏和安全防御两大核心能力,覆盖数百项大模型内容生成风险,可应对单次 50 万量级的饱和攻击。

 

清华大学长聘副教授、博士生导师李琦指出,大模型安全应用是一个新兴领域,研究和应用尚处于起步阶段。不少企业是在原有的传统数据安全、信息安全、系统安全等经验基础上,进行能力迁移,应用于大模型安全。随着新的大模型安全实践的不断深入,技术也会持续升级,为大模型安全构建实践范式,打造高价值参考体系。

 


(图:蚂蚁集团安全实验室首席科学家王维强主题演讲)

 

蚂蚁集团安全实验室首席科学家王维强在会上做了《大模型应用安全可信实践探索》的主题演讲。王维强认为,随着大模型的深度应用,在原有可信人工智能治理体系框架基础上,提升大模型的安全、可靠、可控建设,确保技术进步服务于人类福祉,是未来人工智能可持续发展的重要保障。

 

白皮书最后还提出了构建集大模型安全政府监管、大模型安全生态培育、大模型安全企业自律、大模型安全人才培养、大模型安全测试验证“五维一体”多元参与、协同共治的治理框架。这对于大模型安全生态形成、大模型可持续发展具有非常重要和积极的意义。

2024-07-06 14:047407
用户头像
李冬梅 加V:busulishang4668

发布了 957 篇内容, 共 554.4 次阅读, 收获喜欢 1118 次。

关注

评论

发布
暂无评论

京东小程序接入ARVR的技术方案和性能调优 | 京东云技术团队

京东科技开发者

小程序 人脸识别 京东云 企业号 4 月 PK 榜 ARVR

算法题每日一练:全排列

知心宝贝

数据结构 算法 前端 后端 三周年连更

【Linux】iptables之防火墙的应用及案例、策略、备份与还原(2)

A-刘晨阳

Linux iptables 防火墙规则 三周年连更

太强了,全面解析缓存应用经典问题

架构精进之路

缓存 后端 Redis 核心技术与实战 三周年连更

eBPF的发展演进---从石器时代到成为神(一)

统信软件

Linux 内核 Linux内核

“烧钱”的大模型:初探成本拆解与推理优化方法

Baihai IDP

人工智能 深度学习 大模型 LLM 企业号 4 月 PK 榜

一文讲透产品经理如何用好ChatGPT

京东科技开发者

人工智能 产品经理 GPT-4 企业号 4 月 PK 榜

华为云GaussDB支撑华为MetaERP系统全面替换

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

使用MASA全家桶从零开始搭建IoT平台(一)环境准备

MASA技术团队

.net IoT MASA

CDP实操篇03:自检清单,您的企业适合实施CDP吗?

游读分享

为什么说得帆的CRM是低代码PaaS赛道最好的CRM?

得帆信息

低代码 CRM 低代码平台

Spring中事务嵌套使用一定得警惕这个问题了!

Java你猿哥

spring SSM框架 spring cloud

长连接Netty服务内存泄漏,看我如何一步步捉“虫”解决 | 京东云技术团队

京东科技开发者

内存泄露 京东云 netty 企业号 4 月 PK 榜

Node工程的依赖包管理方式 | 京东云技术团队

京东科技开发者

JavaScript node.js 前端 京东云 企业号 4 月 PK 榜

Vue 实现图片监听鼠标滑轮滚动实现图片缩小放大功能

肥晨

js 特效 三周年连更

不同编程语言的程序,能够被 ChatGPT 自动生成的可能性的一些思考

汪子熙

人工智能 神经网络 机器学习 深度学习 三周年连更

Image Search-这是你的图像搜索

六月的雨在InfoQ

OSS 图像搜索 三周年连更 Image Search

Spring中事务嵌套使用一定得警惕这个问题了

做梦都在改BUG

Java spring 事务

SpringBoot之如何实现热部署|超级详细,建议收藏

bug菌

Spring Boot 热部署 三周年连更

财联社专访 | 澜舟科技周明:大模型的落地场景是关键,B端市场是应用富矿

澜舟孟子开源社区

大模型 认知智能 AIGC 澜舟科技

多线程如何实现事务回滚?一招帮你搞定!

Java你猿哥

Java 多线程 子线程

一篇文章学透ApplicationContext

小小怪下士

Java spring 程序员

人机识别技术再升级,AIGC为验证码带来万亿种变化

Geek_2d6073

App复杂动画实现——Rive保姆级教程 | 京东云技术团队

京东科技开发者

京东云 企业号 4 月 PK 榜 rive

使用 buildx 构建跨平台镜像

江湖十年

Docker docker build Docker 镜像

MySQL 移动数据目录后启动失败

GreatSQL

ShareSDK第三方平台注册指南

MobTech袤博科技

全栈开发实战|​电子商务平台的设计与实现(Spring Boot + MyBatis + Thymeleaf)

TiAmo

Spring Boot mybatis thymeleaf 全栈开发 三周年连更

开放原子全球开源峰会,全面升级再出发!

开放原子开源基金会

开源 软件 创新 峰会 全球

视频剪辑调色:达芬奇DaVinci Resolve Studio 18 Mac版

真大的脸盆

Mac 视频剪辑 Mac 软件 视频调色 视频剪辑调色软件

连续仨月霸占牛客榜首!京东T8呕心巨作:700页JVM虚拟机实战手册

Java你猿哥

Java JVM ssm 虚拟机 SSM框架

国内首份!清华大学、中关村实验室等机构联合发布《大模型安全实践(2024)》白皮书_生成式 AI_李冬梅_InfoQ精选文章