写点什么

研究人员利用 80 年代的技巧来攻击 LLM

  • 2024-04-22
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:477.82K时长:02:43
研究人员利用 80 年代的技巧来攻击 LLM

据美国安全研究人员称,只要对 20 世纪 80 年代的科幻类电影(比如《战争游戏》)中出现的 ASCII 编码艺术稍有了解,就可能骗过大模型,让它们违反自己的安全规则。

 

ASCII 编码艺术指的是由 1963 年 ASCII 标准定义的 95 个可打印字符(总共 128 个)拼凑而成的各种图片。1983 年的电影《战争游戏》或《创》中就用这种艺术绘制了一些图像,显示在剧情中出现的电脑屏幕上。用这种方法发起的越狱攻击使用了字符绘制的图像来“掩护”提示词,这样这些提示就不会被大模型的安全性微调方法标记出来了。

 

来自美国四所大学的研究人员开发了名为“ArtPrompt”的越狱手段,主要针对那些特定提示中可能被大模型的安全系统拒绝的单词。它使用 ASCII 编码艺术把安全系统识别出来的单词绘制成图形,这样就做成了隐形的提示词。这些隐藏提示可以诱导被攻击的大模型做出一些不安全的行为。

 

研究人员在五个业内领先的大模型(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)中测试了这种越狱手段,结果表明它们都很难识别伪装成 ASCII 图形的提示。

 

这种越狱方法只需要对大模型进行黑盒访问即可,并且可以让接受测试的五个大模型都“有效且高效地被诱导出不良行为”。研究人员表示这是一个漏洞,因为现在大模型内的安全防御机制是基于语义的。

 

与此同时,来自 Meta、伦敦大学学院和牛津大学的一组研究人员介绍了一种通过“彩虹团队”加强大模型内部安全保护能力的方法,该方法侧重于语义端本身的稳健性。

 

他们的论文将对抗性提示生成方法视为一种质量多样性问题。相应地,它使用开放式搜索来生成提示,可以发现模型在安全、问答和网络安全等众多领域的漏洞。

 

https://youtu.be/IrkCIBoqZgE

 

该方法采用称为“质量多样性”的进化搜索框架,以生成可以通过大模型安全保障措施的对抗性提示。

 

根据该论文,实现彩虹团队方法需要三个基本构建块:1)一组指定多样性维度的特征描述符(例如“风险类别”或“攻击风格”); 2) 一个变异算子,用于演化对抗性提示;3) 一个偏好模型,根据对抗性提示的有效性对其进行排名。

 

研究人员表示,彩虹团队框架目前仅在 Llama-2 Chat 模型上做了测试,在各个规模的模型上的攻击成功率为 90%。

 

这两篇研究论文都重点关注生成式人工智能模型的安全保障措施的稳健性,以及大模型越狱可用的形式。随着模型规模和范围的扩大,针对对抗性提示的预防措施显然也需要加强。

 

原文链接:https://www.thestack.technology/the-80s-come-for-llms-with-ascii-art/

2024-04-22 18:433504

评论

发布
暂无评论
发现更多内容

华为吴辉:强健“伙伴+华为”体系,让数智世界一触即达

新消费日报

了解 x-www-form-urlencoded 及实践

Liam

程序员 前端 Web HTTP x-www-form-urlencoded

三种方式使用纯 CSS 实现星级评分

快乐非自愿限量之名

CSS 前端开发 前端框架

新经济时代企业财务管理系统的新需求解读

智达方通

业财融合 财务管理 企业财务预算管理

SD-WAN怎样提高网络管理的效率?

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

利用阿里巴巴中国站1688商品详情API:电商开发者的必备指南

技术冰糖葫芦

API 接口 API 测试

结合微帧编码引擎,从视频编解码角度对Sora浅析

微帧Visionular

5G与SD-WAN的结合为企业网络注入新活力

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

解锁区块链游戏数据解决方案

Footprint Analytics

链游

电商场景下 ES 搜索引擎的稳定性治理实践

字节跳动云原生计算

搜索引擎 云原生 云搜索

流量见顶下的“电竞游戏直播平台”,依然蕴含着巨大商机

软件开发-梦幻运营部

在专业iPaaS厂商与大型软件企业间如何选择

RestCloud

解决方案 数据集成 ipaas

多模态 + 大模型会带来哪些 “化学反应”?

京东科技开发者

项目性能优化—性能优化的指标、目标

EquatorCoco

性能优化 项目性能

IPQ9574 and IPQ9554 chips integrate Qualcomm’s AI engine-advanced QoS technology

wifi6-yiyi

ipq9554 ipq9574

SD-WAN解决企业在工业互联网时代的新困境

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

2024 年 2 月公链行业研报

Footprint Analytics

比特币 公链 defi Layer 2

京东ES支持ZSTD压缩算法上线了:高性能,低成本

京东科技开发者

站群云服务器租用攻略,让你的网站运行更稳定更快速

一只扑棱蛾子

站群服务器 站群云服务器租用 站群云服务器

2款办公必备的ai制作ppt软件,一键生成专业精致PPT!

彭宏豪95

PPT 在线白板 办公软件 AIGC AI生成PPT

全栈开发与自动化测试高薪私教班,带你从0到1拿到高薪Offer

霍格沃兹测试开发学社

为什么投递的简历无响应?

王磊

Java 面试

知识图谱中的数据服务是什么?

悦数图数据库

知识图谱

【AAAI 2024】解锁深度表格学习(Deep Tabular Learning)的关键:算术特征交互

阿里云大数据AI技术

人工智能 机器学习 架构 算法

2024Java笔试真题,java虚拟机面试题

阿里、莫言

Java java面试 金三银四 Java 面试题

Sora Opera:天图万境联合华为云共筑AI生成式视频音效新高度

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 视频配音 AI生成式视频音效

全栈开发与自动化测试高薪私教班,带你从0到1拿到高薪Offer

测试人

软件测试

PlayBook 详解

不在线第一只蜗牛

Linux 网络 服务器

低代码与数智制造:引领软件开发的革新之旅

EquatorCoco

低代码 制造 数智化

研究人员利用 80 年代的技巧来攻击 LLM_生成式 AI_AZANIA IMTIAZ PATEL_InfoQ精选文章