新型威胁：探索LLM攻击对网络安全的冲击_AI 工程化_Anthony Alford_InfoQ精选文章

大模型“四虎”出山，亮相 4 月 QCon 北京。了解详情 



 写点什么

登录/注册



大小：798.58K时长：04:32

新型威胁：探索LLM攻击对网络安全的冲击

来自卡内基梅隆大学（CMU）的研究人员发布了LLM Attacks，这是一种可以针对各种大型语言模型（LLM）构建对抗性攻击的算法，包括ChatGPT、Claude和Bard。这些自动生成的攻击，在 GPT-3.5 和 GPT-4 上的成功率为 84%，在PaLM-2上的成功率为 66%。

与大多数“越狱”攻击通过试错手工构建不同，CMU 的团队设计了一个三步流程来自动生成提示后缀，它们可以绕过 LLM 的安全机制，导致有害的响应。而且，这些提示还是可转移（transferrable）的，也就是说，一个给定的后缀通常可以用于许多不同的 LLM，甚至是闭源模型。为了衡量算法的有效性，研究人员创建了一个名为 AdvBench 的基准测试；在此基准测试上进行评估时，LLM 攻击对 Vicuna 的成功率为 88%，而基线对抗算法的成功率为 25%。根据 CMU 团队的说法：

最令人担忧的也许是，目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里，在计算机视觉领域，类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此，我们认为，在增加对此类人工智能模型的使用和依赖时，应该考虑到这些因素。

随着 ChatGPT 和 GPT-4 的发布，出现了许多破解这些模型的技术，其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的，但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列：“Sure, here is (content of query)”，其中“content of query”是用户实际输入的提示，要求进行有害的响应。

接下来，该算法会查找可能导致 LLM 输出目标序列的令牌序列，基于贪婪坐标梯度（GCG）算法为提示生成一个对抗性后缀。虽然这确实需要访问 LLM 的神经网络，但研究团队发现，在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中。

在CMU发布的一条介绍其研究成果的新闻中，论文合著者 Matt Fredrikson 表示：

令人担忧的是，这些模型将在没有人类监督的自主系统中发挥更大的作用。随着自主系统越来越真实，我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持，这将非常重要……现在，我们根本没有一个令人信服的方法来防止这种事情的发生，所以下一步，我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步。

论文第一作者、CMU博士生Andy Zou在推特上谈到了这项研究。他写道：

尽管存在风险，但我们认为还是应该把它们全部披露出来。这里介绍的攻击很容易实现，以前也出现过形式类似的攻击，并且最终也会被致力于滥用 LLM 的团队所发现。

剑桥大学助理教授David Krueger回复了Zou的帖子，他说：

在图像模型中，10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法，考虑到这一点，我们有充分的理由相信，LLM 同样会如此。

在 Hacker News 上关于这项工作的讨论中，有一位用户指出：

别忘了，本研究的重点是，这些攻击不需要使用目标系统来开发。作者谈到，攻击是“通用的”，他们的意思是说，他们可以在自己的计算机上完全使用本地模型来生成这些攻击，然后将它们复制并粘贴到 GPT-3.5 中，并看到了有意义的成功率。速率限制并不能帮你避免这种情况，因为攻击是在本地生成的，而不是用你的服务器生成的。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现，在某些情况下，即使是对 GPT-4，成功率也在 50%左右。

GitHub 上提供了代码，你可以在 AdvBench 数据上重现LLM Attacks实验。项目网站上还提供了几个对抗性攻击的演示。

原文链接：

https://www.infoq.com/news/2023/08/llm-attack/

评论

发布

暂无评论

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

Java 程序员架构面试

面向WEB开发人员的Docker（六）：使用nginx部署静态网站

扫盲篇-什么是分布式任务调度

敏捷调度TASKCTL

大数据分布式分布式锁分布式任务调度 zookeeper分布式锁

国家工业信息安全发展研究中心与华为联合发布《数据安全白皮书》

C++ 协程的近况、设计与实现中的细节和决策

Linux服务器开发

c++ 线程后端协程 Linux服务器开发

备战 60 天，成功上岸滴滴后，我特地把金三银四备战资源库整理出来了

Java 程序员架构面试

助力秋招第三弹：Java集合框架体系详细梳理

Java 面试框架秋招

Dubbo 服务治理简介

阿里P7简历上都有哪些可以拿得出手的项目？

Java架构师迁哥

CompletableFuture 简单与链式的区别？

人生算法：做好自己这家公司的CEO

读书笔记思维模型 5月日更

五一假期旅游完突然收到（余额宝）面试，四面成功拿下offer

Java架构师迁哥

一场“测谎”人机对战背后的故事：度小满的技术进击之路

发布引发的curator报错：instance must be started before calling this method

dubbo zk 优雅停机

智慧党建平台搭建,党建干部管理系统,智慧组工平台解决方案

微服务注册中心：Consul——服务注册

程序员架构进阶

微服务 Consul API网关 28天写作 5月日更

中国数字人民币官方宣传片来袭！DCEP：开启“无现金新时代”！

探秘区块链技术在计算机取证过程中的机制与应用

GitHub上标星75k+超牛的《Java面试突击版》，分享PDF离线版

Java 程序员架构面试

爱了! Alibaba技术官甩出的“阿里内部Java成长笔记”，技术人成长的标杆！

Java架构之路

Java 程序员架构面试编程语言

一周信创舆情观察(5.17~5.23)

高德地图只显示一个省的地图

孤独的西北疯

区块链如何赋能企业数字化转型？

5分钟速读之Rust权威指南（十一）

week5作业

架构实战营

Alibaba面试官：“这该死的程序员，技术竟如此深厚！”

Java架构之路

Java 程序员架构面试编程语言

一个月吃透这份阿里高级专家的《Java500道面试手册》成功拿下了腾讯offer！

Java架构之路

Java 程序员架构面试编程语言

阿里人是如何设计系统抵挡亿级流量冲击的？（全彩版小册开源）

Java架构师迁哥

外包CRUD3年，被导师一句话点醒，直接涨薪9K（Java岗）

Java架构师迁哥

关于echarts使用geo制作地图tooltip不显示问题

孤独的西北疯

Spring Boot Devtools Restarter 原理