写点什么

新型威胁:探索 LLM 攻击对网络安全的冲击

  • 2023-10-03
    北京
  • 本文字数:1430 字

    阅读完需:约 5 分钟

大小:798.58K时长:04:32
新型威胁:探索LLM攻击对网络安全的冲击

来自卡内基梅隆大学(CMU)的研究人员发布了LLM Attacks,这是一种可以针对各种大型语言模型(LLM)构建对抗性攻击的算法,包括ChatGPTClaudeBard。这些自动生成的攻击,在 GPT-3.5 和 GPT-4 上的成功率为 84%,在PaLM-2上的成功率为 66%。

 

与大多数“越狱”攻击通过试错手工构建不同,CMU 的团队设计了一个三步流程来自动生成提示后缀,它们可以绕过 LLM 的安全机制,导致有害的响应。而且,这些提示还是可转移(transferrable)的,也就是说,一个给定的后缀通常可以用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准测试;在此基准测试上进行评估时,LLM 攻击对 Vicuna 的成功率为 88%,而基线对抗算法的成功率为 25%。根据 CMU 团队的说法:


最令人担忧的也许是,目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里,在计算机视觉领域,类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此,我们认为,在增加对此类人工智能模型的使用和依赖时,应该考虑到这些因素。

 

随着 ChatGPT 和 GPT-4 的发布,出现了许多破解这些模型的技术,其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际输入的提示,要求进行有害的响应。

 

接下来,该算法会查找可能导致 LLM 输出目标序列的令牌序列,基于贪婪坐标梯度(GCG)算法为提示生成一个对抗性后缀。虽然这确实需要访问 LLM 的神经网络,但研究团队发现,在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中。

 

CMU发布的一条介绍其研究成果的新闻中,论文合著者 Matt Fredrikson 表示:


令人担忧的是,这些模型将在没有人类监督的自主系统中发挥更大的作用。随着自主系统越来越真实,我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持,这将非常重要……现在,我们根本没有一个令人信服的方法来防止这种事情的发生,所以下一步,我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步。

 

论文第一作者、CMU博士生Andy Zou在推特上谈到了这项研究。他写道:


尽管存在风险,但我们认为还是应该把它们全部披露出来。这里介绍的攻击很容易实现,以前也出现过形式类似的攻击,并且最终也会被致力于滥用 LLM 的团队所发现。

 

剑桥大学助理教授David Krueger回复了Zou的帖子,他说:


在图像模型中,10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法,考虑到这一点,我们有充分的理由相信,LLM 同样会如此。

 

在 Hacker News 上关于这项工作的讨论中,有一位用户指出


别忘了,本研究的重点是,这些攻击不需要使用目标系统来开发。作者谈到,攻击是“通用的”,他们的意思是说,他们可以在自己的计算机上完全使用本地模型来生成这些攻击,然后将它们复制并粘贴到 GPT-3.5 中,并看到了有意义的成功率。速率限制并不能帮你避免这种情况,因为攻击是在本地生成的,而不是用你的服务器生成的。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现,在某些情况下,即使是对 GPT-4,成功率也在 50%左右。

 

GitHub 上提供了代码,你可以在 AdvBench 数据上重现LLM Attacks实验。项目网站上还提供了几个对抗性攻击的演示

 

原文链接:

https://www.infoq.com/news/2023/08/llm-attack/

2023-10-03 08:006144

评论

发布
暂无评论
发现更多内容

大一学生课设c——服装管理系统

工程师日月

6月月更

NodeJS 防止xss攻击

德育处主任

Node 6月月更

使用Mycat进行MySQL单库分表

迷彩

架构 运维 mycat 分布式数据库中间件 6月月更

【云舟说直播间】-数字安全专场明天下午正式上线

云计算

不止于观测|阿里云可观测套件正式发布

阿里巴巴云原生

阿里云 云原生 可观测 套件

直播带货app源码搭建中,直播CDN的原理是什么?

开源直播系统源码

软件开发 直播带货 直播系统 app源码

开发增效利器—2022年VsCode插件分享

中原银行

ide vscode 插件 中原银行 降本增效

Kafka ETL 之后,我们将如何定义新一代实时数据集成解决方案?

tapdata

kafka ETL 数据集成 实时数据 DaaS

实战监听Eureka client的缓存更新

程序员欣宸

Java SpringCloud 6月月更

坚持五件事,带你走出迷茫困境!

博文视点Broadview

消息队列的丢失、重复与积压问题

Damon

6月月更

5 个关于 NFT 的技术漏洞

devpoint

区块链 以太坊 NFT 6月月更

java程序员培训 | Java设计模式之桥接模式

@零度

设计模式 JAVA开发

Rancher 2.6 全新 Monitoring 快速入门

Rancher

Kubernetes k8s rancher

【愚公系列】2022年06月 Java教学课程 01-Java语言背景介绍

愚公搬代码

6月月更

《Java编程思想》作者Bruce Eckel新作,到底做了哪些升级?

图灵教育

Java

Linux开发_摄像头编程(实现拍照、网页监控功能)

DS小龙哥

6月月更

quarkus+saas多租户动态数据源切换实现简单完美

weir威尔

SaaS 多租户 Quarkus 动态数据源

成熟的知识管理,应具备哪些条件?

小炮

运行时应用自我保护(RASP):应用安全的自我修养

SEAL安全

RASP

攻防演练合集 | 3个阶段,4大要点,蓝队防守全流程纲要解读

青藤云安全

网络安全 网络攻防 安全服务 攻防演练

高效的远程办公经验 | 社区征文

远程办公 6月月更 初夏征文

redis 精讲系列介绍八 - 淘汰策略

Nick

Redis 核心技术与实战 6月月更 redis 底层原理 redis 淘汰策略 redis 精讲

K8S学习笔记--安装Docker环境

IT蜗壳-Tango

IT蜗壳 6月月更

电商如何借助小程序发力

Geek_99967b

小程序 电商

APM 工具 SkyWalking 是什么

耳东@Erdong

监控 Skywalking 6月月更

JSON入门教程

倔强的牛角

json Fastjson 6月月更

DevEco Device Tool 助力OpenHarmony设备开发

OpenHarmony开发者

OpenHarmony

mysql存储引擎之Myisam和Innodb的区别

乌龟哥哥

6月月更

Angular 服务器端渲染应用一个常见的内存泄漏问题

汪子熙

typescript 前端开发 angular Spartacus 6月月更

如何使用 Django Forms 创建表单?

海拥(haiyong.site)

Python django 6月月更

新型威胁:探索LLM攻击对网络安全的冲击_AI 工程化_Anthony Alford_InfoQ精选文章