写点什么

新型威胁:探索 LLM 攻击对网络安全的冲击

  • 2023-10-03
    北京
  • 本文字数:1430 字

    阅读完需:约 5 分钟

大小:798.58K时长:04:32
新型威胁:探索LLM攻击对网络安全的冲击

来自卡内基梅隆大学(CMU)的研究人员发布了LLM Attacks,这是一种可以针对各种大型语言模型(LLM)构建对抗性攻击的算法,包括ChatGPTClaudeBard。这些自动生成的攻击,在 GPT-3.5 和 GPT-4 上的成功率为 84%,在PaLM-2上的成功率为 66%。

 

与大多数“越狱”攻击通过试错手工构建不同,CMU 的团队设计了一个三步流程来自动生成提示后缀,它们可以绕过 LLM 的安全机制,导致有害的响应。而且,这些提示还是可转移(transferrable)的,也就是说,一个给定的后缀通常可以用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准测试;在此基准测试上进行评估时,LLM 攻击对 Vicuna 的成功率为 88%,而基线对抗算法的成功率为 25%。根据 CMU 团队的说法:


最令人担忧的也许是,目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里,在计算机视觉领域,类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此,我们认为,在增加对此类人工智能模型的使用和依赖时,应该考虑到这些因素。

 

随着 ChatGPT 和 GPT-4 的发布,出现了许多破解这些模型的技术,其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际输入的提示,要求进行有害的响应。

 

接下来,该算法会查找可能导致 LLM 输出目标序列的令牌序列,基于贪婪坐标梯度(GCG)算法为提示生成一个对抗性后缀。虽然这确实需要访问 LLM 的神经网络,但研究团队发现,在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中。

 

CMU发布的一条介绍其研究成果的新闻中,论文合著者 Matt Fredrikson 表示:


令人担忧的是,这些模型将在没有人类监督的自主系统中发挥更大的作用。随着自主系统越来越真实,我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持,这将非常重要……现在,我们根本没有一个令人信服的方法来防止这种事情的发生,所以下一步,我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步。

 

论文第一作者、CMU博士生Andy Zou在推特上谈到了这项研究。他写道:


尽管存在风险,但我们认为还是应该把它们全部披露出来。这里介绍的攻击很容易实现,以前也出现过形式类似的攻击,并且最终也会被致力于滥用 LLM 的团队所发现。

 

剑桥大学助理教授David Krueger回复了Zou的帖子,他说:


在图像模型中,10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法,考虑到这一点,我们有充分的理由相信,LLM 同样会如此。

 

在 Hacker News 上关于这项工作的讨论中,有一位用户指出


别忘了,本研究的重点是,这些攻击不需要使用目标系统来开发。作者谈到,攻击是“通用的”,他们的意思是说,他们可以在自己的计算机上完全使用本地模型来生成这些攻击,然后将它们复制并粘贴到 GPT-3.5 中,并看到了有意义的成功率。速率限制并不能帮你避免这种情况,因为攻击是在本地生成的,而不是用你的服务器生成的。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现,在某些情况下,即使是对 GPT-4,成功率也在 50%左右。

 

GitHub 上提供了代码,你可以在 AdvBench 数据上重现LLM Attacks实验。项目网站上还提供了几个对抗性攻击的演示

 

原文链接:

https://www.infoq.com/news/2023/08/llm-attack/

2023-10-03 08:006081

评论

发布
暂无评论
发现更多内容

智能制造之路—从0开始打造一套轻量级MOM平台

EquatorCoco

数字化 智能制造

混战源起ChatGPT,中国的AI产业怎么样了? | 社区征文

向阳花

人工智能 AI 马斯克 前沿技术 年中技术盘点

软件测试/测试开发丨Python 面向对象编程思想

测试人

Python 编程 面向对象 软件测试

柏睿数据作为湖仓一体数据平台代表厂商入选IDC报告

新消费日报

4种大文件传输的方式?适用设计类企业的文件传输方法

镭速

大文件传输

【参考设计】100 W USB PD 3.0电源

元器件秋姐

设计 电路 方案 usb 电源

五种高级 NodeJS 技术

互联网工科生

node.js nodejs

【网易云信】直播场景播放侧常见问题分析与实践经验

网易智企

直播 实时音视频 直播推流 音视频技术

软件测试/测试开发丨Linux 三剑客与管道使用

测试人

Linux 程序员 软件测试

MQTT 订阅选项的使用

EMQ映云科技

mqtt 订阅选项

EDS从小白到专家丨打造你的专属“数据物流”系统

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

DevSecOps:软件安全捍卫者

DevOps和数字孪生

DevSecOps

成都站|阿里云 Serverless 技术实战营邀你来玩!

Serverless Devs

云计算 负载均衡 Serverless 云原生 弹性计算

语音聊天app源码中,技术性和功能性并存,技术和功能层面的细节考虑有哪些?

山东布谷科技胡月

语音聊天APP源码 语音直播app开发 国际多语言设计app开发 语音社交平台搭建

如何成为网络安全大牛(黑客)?

网络安全学海

黑客 网络安全 信息安全 计算机 渗透测试

构建网站利器!体验高速稳定的香港云主机服务!

一只扑棱蛾子

云主机 香港云主机

携手生态共筑数智底座,加速企业数智化转型

用友BIP

数智底座

简化办公,云上助力!

知者如C

什么是低代码开发平台?浅谈它的价值

高端章鱼哥

低代码 aPaaS JNPF

使用 Postman 批量发送请求实用教程

Liam

Java 后端 开发 Postman API

点云标注在自动驾驶中有着广泛的应用案例

来自四九城儿

汽车软件的模糊测试

DevOps和数字孪生

软件定义汽车

得物 Android 包体积资源优化实践

得物技术

前端 用户体验 SEO

Python案例实现|爬取租房网站信息

TiAmo

Python 数据分析

模块八 消息队列mysql存储表结构设计

家有两宝

#架构训练营

打造工业互联网平台,强化“腰部”支撑,助力实现国产替代

用友BIP

国产替代

java面试题-多线程

程序员小张

【网易云信】直播场景播放侧常见问题分析与实践经验

网易云信

直播 实时音视频 音视频开发 直播推流

如何使用 NFTScan SDK 工具构建 NFT Explorer Dapp

NFT Research

NFT\ SDK 教程

揭秘|来看看袋鼠云数栈内部的资产血缘方案设计与实现

袋鼠云数栈

数据资产 数据血缘

新型威胁:探索LLM攻击对网络安全的冲击_AI 工程化_Anthony Alford_InfoQ精选文章