写点什么

苹果研究人员提出集成反演技术,可从不同机器学习模型中重建训练数据

  • 2021-12-07
  • 本文字数:1473 字

    阅读完需:约 5 分钟

苹果研究人员提出集成反演技术,可从不同机器学习模型中重建训练数据

MI 攻击


近几年,模型反演(Model inversion, MI)攻击备受关注。MI 攻击是指滥用经过训练的机器学习(ML)模型,并借此推断模型原始训练数据中的敏感信息。遭受攻击的模型经常会在反演期间被冻结,从而被攻击者用于引导训练生成对抗网络之类的生成器,最终重建模型原始训练数据的分布。


因此,审查 MI 技术对正确建立模型保护机制至关重要。


借助单一模型高质量地重建训练数据的过程非常复杂,然而,现有的 MI 相关文献并没有考虑到多个模型同时被攻击的可能性,这类情况中攻击者可以找到额外的信息和切入点。


如果攻击成功,原始训练样本泄露,而其训练数据中如果包含个人的身份信息,那么数据集中的数据本体的隐私将会受到威胁。

集成反演技术


苹果的研究人员提出了一种集成反演的技术,借助生成器来估计模型原始训练数据的分布,而该生成器则被限制在一系列共享对象或实体的训练模型之中。


对比使用单一机器学习模型的 MI,使用该技术生成的样本质量得到了显著的提升,并具备了区分数据集实体间属性的能力。这证明了如果借助与预期训练结果相类似的辅助数据集,可以在不使用任何数据集的情况下依旧可以得到高质量结果,改善反演的结果。通过深入研究集成中模型多样性对结果的影响,并添加多重限制以激励重建样本获得高精确度和高激活度,训练图片的重建准确程度得到了提升。


对比针对单一模型的 MI 攻击,该研究所提出的模型在重建性能上展现了明显的提升。该研究不仅利用最远模型采样法(FMS)进行集成中模型多样性的优化,还创建了一个模型间等级对应关系明确的反演集成,模型的输出向量中的增强信息也被用来生成更优的限制条件,以更好地确定目标质量的高低。


通过随机训练的形式,小批量随机梯度下降(SGD)这类的主流动态卷积神经网络(DCNN),可以使用任意的大型数据集进行训练。DCNN 模型对训练数据集中最初的随机权重和统计上的噪音非常敏感,而由于学习算法的随机性,同一训练集可能会生成侧重特征不同的模型。因此,为减少差异性,研究者一般会使用集成学习,一种简单的技巧来提升 DCNN 辨别式训练的性能。



虽然这篇论文是以集成学习为基础进行的研究,但论文对“集成”一词却有不同的定义。


若想成功对模型进行反演,攻击者不能假定目标模型一定是通过集成学习进行训练的,但他们却可以通过搜集有关联的模型搭建一个攻击模型的集成。换句话来说,在“集成反演攻击”这个语境下,“集成”不是要求模型一定要经过集成训练,而是指攻击者从各种来源所收集到相关模型的集合。


举例来说,研究者可以通过不断收集新的训练数据,对当前模型进行训练并更新结果,而攻击者则可以将这些模型收集为一个集合并加以利用。


借助该策略,无数据的 MNIST 手写数字的反演准确率提升了 70.9%,而基于辅助数据的试验准确率则提高了 17.9%;对比基准实验,人脸反演的准确率提升了 21.1%。论文的目标是,以更系统的方式对现有模型反演策略进行评估。在未来的研究中,需以针对这类集成的模型反演攻击开发相应的保护机制为重点。

结论


论文中提出的集合反演技术,可以利用机器学习模型集合中的多样性特质提升模型反演的性能表现;通过结合 one-hot 损失和最大化输出激活损失函数,让样本质量得到了更进一层的提升。除此之外,过滤掉攻击模型中含有较小最大化激活的生成样本也可以让反演表现更加突出。同时,为确定目标模型的多样性对集合反演性能的影响,研究者深入探索研究了各种差异下目标模型的表现情况。


论文原文:利用集成反演从各类机器学习模型中重建训练数据


英文原文Apple Researchers Propose A Method For Reconstructing Training Data From Diverse Machine Learning Models By Ensemble Inversion

2021-12-07 10:262029

评论

发布
暂无评论
发现更多内容

小程序容器与物联网结合的方式

Geek_99967b

小程序 物联网

7 月 2 日邀你来TD Hero 线上发布会

TDengine

数据库 tdengine

你的城市还没有自助洗车?赶紧开个

共享电单车厂家

自助洗车加盟 开自助洗车店

“阿里爸爸”最新Java面试指南,基础+框架+数据库+系统设计+算法

Java全栈架构师

Java spring 程序员 面试 架构设计

云流化技术在汽车行业中的应用

3DCAT实时渲染

XR 云流化

实时渲染和预渲染有什么区别

3DCAT实时渲染

渲染 实时渲染

日均 6000+ 实例,TB 级数据流量,Apache DolphinScheduler 如何做联通医疗大数据平台的“顶梁柱”?

白鲸开源

Apache 大数据 开源 Apache DolphinScheduler

墨天轮沙龙 | 清华乔嘉林:Apache IoTDB,源于清华,建设开源生态之路

墨天轮

数据库 国产数据库 apache 社区 Apache IoTDB

ABAP-发布Restful服务

桥下本有油菜花

abap

智能自助洗车机洗车都有哪些优势

共享电单车厂家

自助洗车加盟 智能自助洗车机

做自助洗车合伙人要投入多少

共享电单车厂家

自助洗车加盟 自助洗车合伙人

“低代码”在企业数字化转型中扮演着什么角色?

优秀

低代码 数字化

1 分钟 Serverless 搭建你的首个个人网站(完成就送猫超卡)

阿里巴巴云原生

阿里云 Serverless 云原生 网站

NFT挖矿游GameFi链游系统开发搭建

薇電13242772558

智能合约 NFT

云化XR,如何助力产业升级

3DCAT实时渲染

XR

流批一体在京东的探索与实践

Apache Flink

大数据 flink 编程 流计算 实时计算

NFT铸造交易平台开发详情

开发微hkkf5566

24小时自助洗车让洗车更自由

共享电单车厂家

自助洗车加盟 24小时自助洗车

如何成为一名共享自助洗车合伙人

共享电单车厂家

共享自助洗车 自助洗车加盟 自助洗车合伙人

先写API文档还是先写代码?

Liam

Java 前端 Postman 后端开发 后端技术

更多龙蜥自研特性!生产可用的 Anolis OS 8.6 正式发布

OpenAnolis小助手

开源 操作系统 龙蜥社区 Anolis OS 8.6 版本发布

CloudXR如何推动XR的未来发展

3DCAT实时渲染

CLOUDXR

知名互联网房屋租赁服务公司物联网关键业务迁移上云实践

EMQ映云科技

物联网 IoT 云服务 emqx 6月月更

腾讯云的一场硬仗

ToB行业头条

wallys/WiFi 6 (802.11ax) 4×4 MU-MIMO 5GHz QCN9074 Single Band Wireless Module

wallys-wifi6

观测云与 TDengine 达成深度合作,优化企业上云体验

TDengine

tdengine 物联网 观测云

为了使远程工作不受影响,我写了一个内部的聊天室 | 社区征文

云小梦

微信小程序 wepy 初夏征文

Hologres共享集群助力淘宝订阅极致精细化运营

阿里云大数据AI技术

sql 大数据 分布式计算 存储 数据可视化

大学生研究生毕业找工作,该选择哪个方向?

C++后台开发

后端开发 应届生 C++后台开发 研究生 C++开发

什么是XR扩展现实,XR云串流平台有哪些

3DCAT实时渲染

XR 云XR

边缘计算平台如何助力物联网发展

3DCAT实时渲染

边缘计算

苹果研究人员提出集成反演技术,可从不同机器学习模型中重建训练数据_文化 & 方法_Nitish Kumar_InfoQ精选文章