写点什么

人工智能的致命弱点也能成为保护隐私的武器

  • 2019-11-01
  • 本文字数:2843 字

    阅读完需:约 9 分钟

人工智能的致命弱点也能成为保护隐私的武器


研究人员在所谓的对抗案例中发现了利用它来保护敏感数据不被窥探的一线希望。机器学习应用程序目前存在种固有的缺陷,被称为“对抗性例子“的错误分类长期以来一直被视为机器学习模型中挥之不去的弱点。只需对图像进行一些小的调整或向数据库添加一些假数据,就可以欺骗系统得出完全错误的结论。现在,有研究人员正在探索将这个致命弱点变成保护用户隐私和信息安全的武器。


机器学习虽然有探测癌症和制造防撞自动驾驶汽车的巨大潜力,但它也有可能颠覆我们对可见和隐藏事物的认知。例如,它可以通过像素化实现高度精确的面部识别,甚至——正如 Facebook 的剑桥分析(Cambridge Analytica)丑闻所显示的——利用公共社交媒体数据来预测更敏感的信息特征,比如某人的政治倾向。


然而,这些机器学习应用程序也存在人类不存在的一种奇怪的盲点——一种固有的缺陷,它会让图像分类器把来福枪误认为直升机,或者让自动驾驶汽车冲过停车标志。这些被称为对抗性例子的错误分类长期以来一直被视为机器学习模型中挥之不去的弱点。只需对图像进行一些小的调整或向数据库添加一些假数据,就可以欺骗系统得出完全错误的结论。


如今,包括罗切斯特理工学院(Rochester Institute of Technology)和杜克大学(Duke University)在内的一些以隐私为研究重点的研究人员,正在探索利用这个致命弱点是否也能保护我们的信息。“攻击者越来越多地使用机器学习来侵犯用户隐私“,杜克大学计算机科学教授 Neil Gong 说,“攻击者知道怎么运用机器学习的力量的同时也知道它的弱点,我们可以把这种弱点,这种对抗性的例子,变成保护我们隐私的武器。”

一些虚假的“赞”

Gong 指出 Facebook 的剑桥分析事件正是他希望避免的侵犯隐私事件: 这家数据科学公司向数千名 Facebook 用户支付每人几美元的费用,让他们回答政治和个人问题,然后将这些答案与他们在Facebook上的公开数据联系起来,形成一套“训练数据”。当该公司利用该数据集训练一个机器学习引擎时得到的模型,据称能基于 Facebook 的公共数据预测私人政治信仰。


Gong 和他在杜克大学的同事贾金元(音译)想知道对抗的例子是否可以防止这种侵犯隐私的行为。如果在一张照片上只改变几个像素就能让机器学习训练出来的图像识别引擎把兔子和乌龟搞混,那么在某人的个人资料中添加或减去几个 Facebook 上的“赞”,也能得到扭曲的结果么?


“我们总能找到击败他们的反面例子。”

NEIL GONG,杜克大学


为了验证这一假设,杜克大学的研究人员使用了一个类似的数据集:谷歌游戏商店中的评论。为了真实模拟剑桥分析公司,他们在谷歌的应用商店中收集了成千上万的评分,这些评分是由用户提交的,这些用户还在谷歌 Plus 的个人资料中透露了他们的地域。然后,他们用这些数据训练了一个机器学习引擎,试图仅根据用户的 app 评分来预测他们的家乡所在的城市。他们发现,仅根据谷歌游戏喜好,一些机器学习技术就可以在第一次尝试时猜测出用户所在的城市,准确率高达 44%。


他们建立了他们的机器学习引擎,研究人员试图用对抗性的例子来打破它。在用几种不同的方法调整数据后,他们发现,只要添加三个假的应用程序评级,选择一个统计上不正确的城市,或者去掉暴露的评级,那么少量的噪音就会降低引擎预测的准确性,使预测结果与随机猜测一样。他们称由此产生的系统为“摩擦保护”,以保护数据的私有属性免受机器学习的窥探。Gong 说:“只需稍加修改,我们就可以扰乱用户的资料,从而使攻击者的准确率降低到基线水平。”


Gong 承认,预测和保护私人用户数据的猫鼠游戏并没有就此结束。 如果机器学习的“攻击者”意识到对抗的例子可能会保护数据集不被分析,他或她可以使用所谓的“对抗训练”模型” 生成自己的对抗性示例以包含在训练数据集中,这样生成的机器学习引擎就很难被欺骗了。但防御者可以通过添加更多的对抗性例子来应对,以挫败更强大的机器学习引擎,从而导致无休止的针锋相对。“即使攻击者使用所谓的鲁棒的机器学习,我们仍然可以调整对抗性例子来避开这些方法,”Gong 说。“我们总能找到击败他们的反面例子。”

窃听 Mockingbird 实验

另一个研究小组尝试了一种对抗性示例数据保护的形式,旨在打破猫捉老鼠的游戏。罗切斯特理工学院(Rochester Institute of Technology)和德克萨斯大学阿灵顿分校(University of Texas at Arlington)的研究人员研究了对抗性的例子如何防止 VPNs 和匿名软件 Tor 等工具中潜在的隐私泄露。Tor 旨在隐藏网络流量的来源和目的地。攻击者可以在传输过程中访问加密的 web 浏览数据,在某些情况下,他们可以使用机器学习来发现混乱的流量中的模式,从而使监视者能够预测用户访问的是哪个网站,甚至是哪个特定的页面。在他们的测试中,研究人员发现,这种被称为网络指纹的技术,可以从 95 种可能性中识别出一个网站,准确率高达98%


研究人员猜想,他们可以在加密的网络流量中加入对抗性的“噪音”,以阻止网络指纹识别。 但他们走得更远,试图通过对抗性训练来绕过对手的保护。 为此,他们对 Tor web 会话生成了复杂的对抗性示例调整组合,这是一种流量变化的集合,其目的不仅是欺骗指纹引擎,使其错误地检测出一个站点的流量与另一个站点的流量相同,而且还混合了来自大量诱饵站点流量的相反示例变化。

了解更多

这个系统研究人员称之为“Mockingbird”,以指代它的混合模仿策略,它会增加大量的开销——大约比正常 Tor 流量多 56%的带宽。但这使得指纹识别更加困难:他们的机器学习模型预测用户访问哪个网站的准确率下降到 27%到 57%之间。RIT 的一位研究人员马修·赖特(Matthew Wright)说,由于他们采用随机调整数据的方式,这种保护措施很难通过对抗性训练来克服。“因为我们以这种随机的方式跳来跳去,攻击者很难想出所有不同的可能性以及足够多的包含所有可能性的对抗例子,”Wright 说。


纽约大学坦顿工程学院(Tandon School of Engineering)专注于机器学习和安全的计算机科学家布伦丹•杜兰-加维特(Brendan Dolan-Gavitt)表示,从隐私的角度来看,这些早期实验将对抗性例子用作一种保护机制,而非漏洞,前景非常好。但他警告称,他们正在与机器学习研究的主流方向背离:绝大多数研究机器学习的学者将对抗性的例子视为一个需要解决的问题,而不是一种可以利用的机制。


Dolan-Gavitt 说,他们迟早会解决这个问题,并在这个过程中删除作为隐私特征的敌对例子。“考虑到我们目前所知的情况,就目前的技术水平而言,这肯定是可行的,”多兰·加维特(Dolan Gavitt)说。“ 我认为,我主要关心的是如何防止对抗性的例子和训练机器学习模型,使它们不会受到它们的攻击,这是目前机器学习中最热门的话题之一"。作者认为,这是一个无法克服的根本性问题。我不知道这样赌对不对。”


最后,Dolan-Gavitt 指出,机器学习在检测肿瘤或自动驾驶方面发挥的作用是值得肯定的。 但随着机器学习的每一次进步,它的预测能力也越来越强,想要躲避它也变得越来越难。


英文原文:


https://www.wired.com/story/adversarial-examples-machine-learning-privacy-social-media/


2019-11-01 08:002934
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 545.6 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

太为难我了,阿里面试了7轮(5年经验,拿下P7岗offer)

Java 程序员 面试 后端

团灭LeetCode!Alibaba技术官甩出的大师级算法宝典真的太香了!

Java 程序员 后端

史上最全499道Java面试题:JVM+分布式,Kafka的精髓全写这本“限量笔记”里了

Java 程序员 后端

史上最全Java8日期时间工具类(1),mongodb索引原理

Java 程序员 后端

史上最全SpringBoot教程,从零开始带你深入♂学习(十五

Java 后端

吊打面试官!Java基础(面向对象,java入门自学书籍推荐

Java 程序员 后端

哇塞!这是我见过的最牛逼的性能监控系统,集强大功能于一身

Java 程序员 后端

史上最全Java8日期时间工具类,史上超级详细

Java 程序员 后端

史上最全Spring教程,从零开始带你深入♂学习(二,java快速排序原理

Java 程序员 后端

听音乐不过瘾?自制一个音乐播放器!,java程序设计基础知识点第七章

Java 程序员 后端

四面美团开发岗,成功斩获offer,这份面经总结终结篇看完就是血赚

Java 程序员 后端

史上最全Redis数据库入门教程,从零开始带你深入♂学习(一

Java 程序员 后端

史上最全SpringBoot教程,从零开始带你深入♂学习(九,大厂Java面试真题精选

Java 程序员 后端

同事临走时,给了我这份多线程and高并发(面试题,小米java面试几轮

Java 程序员 后端

听我讲完redo log、binlog原理,面试官老脸一红,rabbitmq集群同步原理

Java 程序员 后端

上线直接霸榜!阿里内网流传P8大牛的“满级”分布式架构笔记

Java 编程 程序员 架构

吹爆!阿里高工甩出内部强推Redis全栈笔记,Github已获赞78

Java 程序员 后端

同事问我MySQL怎么递归查询,我懵逼了,java面试简历百度云

Java 程序员 后端

同样是程序员,本科学历凭什么就比专科学历更吃香?,mybatis常见面试题

Java 程序员 后端

三面阿里被挂,竟获内推名额,历经5面拿下口碑offer(Java后台)

Java 编程 程序员 架构 面试

史上最全Spring教程,从零开始带你深入♂学习(二(1),深入实践springbootpdf百度云

Java 程序员 后端

同事问我MySQL怎么递归查询,我懵逼了(1),阿里java技术专家评级

Java 程序员 后端

五面阿里、三面美团、四面字节跳动,最终拿offer入职字节!

程序员 数据结构 面试 算法

哟,我发现 Dubbo 这波优化好像不够彻底啊?,深入java虚拟机第四版百度网盘

Java 程序员 后端

和程序员谈恋爱的7种体验,linux多线程面试题

Java 程序员 后端

嘘,助你一臂之力,快来瞧瞧这份-Spring-面试小抄,百度语音识别接口java

Java 程序员 后端

四年的开发经验只去面试了蚂蚁金服,无忧一次过,自学linux视频教程推荐

Java 程序员 后端

史上最全Mybatis框架入门教程,从零开始带你深入♂学习(三

Java 程序员 后端

吃透阿里大佬整理的Java面试要点手册,成功五面进阿里(二本学历

Java 程序员 后端

同程旅行基于 RocketMQ 高可用架构实践,mysql破解版百度云

Java 程序员 后端

听说Lombok的@Builder不好使?快来试试这个,rocketmq原理面试题

Java 程序员 后端

人工智能的致命弱点也能成为保护隐私的武器_AI&大模型_Andy Greenberg_InfoQ精选文章