QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

新机器学习库 TensorFlow Privacy 问世:旨在保护敏感数据

  • 2019-04-03
  • 本文字数:1252 字

    阅读完需:约 4 分钟

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据

在最近的一篇博文中,TensorFlow 宣布推出TensorFlow Privacy。这是一个开源库,它允许研究人员和开发人员构建具有强大隐私保护功能的机器学习模型。基于强大的数学确定性(mathematical guarantees),使用本库可以确保用户数据无法通过训练过程被记住。


机器学习在如今的在线产品和服务中非常普遍。谷歌认为,为了保护用户隐私,把强大的隐私保护功能嵌入 TensorFlow 是非常重要的。为什么那么重要呢?谷歌大脑(Google Brain)的产品经理Carey Radebaugh对此进行了解释:


现代机器学习正越来越多地用于创造令人惊叹的新技术和用户体验,其中很多需要让训练机器负责地从敏感数据(例如个人照片或电邮)中学习。理想情况下,受过训练的机器学习模型的参数应该编码一般模式,而不是关于特定训练示例的事实。


TensorFlow Privacy 的引入符合谷歌去年发布的负责的AI实践承诺(Responsible AI Practices commitment),旨在“在这些[AI]系统中建立公平性、可解释性、隐私和安全性”。谷歌除了遵循负责的 AI 实践外,他们还希望让外部开发人员在其构建的应用程序和产品中应用同样的实践。


TensorFlow Privacy 的技术实现建立在差异化隐私理论(differentail privacy theory)之上,该理论通过提供一个衡量隐私保障的框架,以确保模型不会学习或记住用户的详细信息。


为了证明 TensorFlow Privacy 的有效性,谷歌提供了一个训练两个模型的例子,其中一个模型具有基于 TensorFlow Privacy 库的差异化隐私功能,而另一个没有。这两个模型是在标准 Penn Treebank 训练数据集上训练的。这两个模型在对英语建模中都表现良好。如对于以下的财经新闻句子,二者都能够获得好分数。


There was little turnover and nothing to stimulate the market

South korea and japan continue to be profitable

Merchant banks were stronger across the board


但是,在某些领域,这两个模型的得分天差地别。例如,使用传统的训练方法,以下这三个句子的得分都很高,也就是“在标准训练过程中,有效地记住了内容”。相反,差异性隐私模型在这些句子上的得分很低,并被拒绝了。


Aer banknote berlitz calloway … ssangyong swapo wachter

The naczelnik stands too

My god and i know i am correct and innocent


在财经新闻的语境中,这三个句子似乎不常见。因此,这三个罕见的句子可以用来识别或揭示个人信息,因而使用敏感数据训练就被拒绝了。Radebaugh 进行了额外的解释:


这两个模型的差异在于,有隐私保护的模型不能记住异常的罕见序列。我们可以利用我们先前在神经网络中测量无意识记忆的工作来量化这种影响。我们故意在训练数据中插入独特的、随机的罕见句子,并评估罕见句子对训练模型的影响。在这种情况下,单个随机罕见句子的插入就足够让无隐私保护模型完全记住它了。


TensorFlow Privacy 库和示例可以在它们的GitHub存储库中找到。此外,TensorFlow技术白皮书已经更新,包含了这些新隐私机制的详细信息。


阅读英文原文:Introducing TensorFlow Privacy, a New Machine Learning Library for Protecting Sensitive Data


2019-04-03 08:002342
用户头像

发布了 199 篇内容, 共 86.5 次阅读, 收获喜欢 295 次。

关注

评论

发布
暂无评论
发现更多内容

兆骑科创科创赛事平台,创业赛事活动路演,线上直播路演

兆骑科创凤阁

80篇国产数据库实操文档汇总(含TiDB、达梦、openGauss等)

墨天轮

数据库 opengauss TiDB 国产数据库 南大通用

暑气渐敛,8月让我们开源一夏!

InfoQ写作社区官方

开源 热门活动 8月月更

LeaRun.net快速开发动态表单

力软低代码开发平台

2.8K 120Hz触控双屏加持 灵耀X 双屏Pro 2022让办公无惧想象

科技热闻

java培训学习怎么样?

小谷哥

未来小间距竞争的着力点在哪里

Dylan

LED显示屏 led显示屏厂家

开源一夏 | 五分钟带你上手ShardingJDBC实现MySQL分库分表

知识浅谈

开源 8月月更

Git 不要只会 pull 和 push,学学这 5 条提高效率的命令(下)

CRMEB

BPM是什么意思?BPM的优势及好处有哪些?

优秀

BPM

今年最火爆的词:商业分析,看这一篇就够了!

博文视点Broadview

百图生科卓越开发者计划全面升级暨《计算免疫问题白皮书》发布

硬科技星球

设计专业第一台笔记本 华硕灵耀Pro16 2022 新品首发超值入手

科技热闻

Rancher 部署 DataKit 最佳实践

观测云

OneFlow源码解析:Op、Kernel与解释器

OneFlow

深度学习 源码解析

TiFlash 存储层概览

TiDB 社区干货传送门

数据库 分布式数据库 TiDB

浅谈大数据背景下数据库安全保障体系

阿炜小菜鸡

数据库

基于BiGRU和GAN的数据生成方法

行者AI

人工智能

选择合适的 DevOps 工具,从理解 DevOps 开始

SoFlu-JavaAI开发助手

30分钟成为Contributor|如何多方位参与OpenHarmony开源贡献?

OpenHarmony开发者

Open Harmony

AntDB数据库亮相24届高速展,助力智慧高速创新应用

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

面对营销难,有米云指出一条破局之路

ToB行业头条

分布式一致性如何实现?- Raft 算法

晓双

分布式 微服务架构 raft 一致性算法 一致性

DBPack SQL Tracing 功能及数据加密功能详解

峨嵋闲散人

分布式事务 分库分表 读写分离 dbmesh Database Mesh

实战模拟│微信 JSSDK 实现自定义分享、手机选图拍照、图片音频处理、地理位置、摇一摇等功能

经验分享 微信开发 签约计划第三季 8月月更 jssdk

研发团队数字化转型实践

思码逸研发效能

研发效能 数字化

“查找附近的商铺”|Geohash+MySQL实现地理位置筛选

领创集团Advance Intelligence Group

MySQL sql geohash

直播app开发,是优化直播体验不得不关注的两大指标

开源直播系统源码

软件开发 直播系统源码 语音直播系统源码 直播app

分析Flask WSGI经过Nginx代理出现两次302问题

西北望高楼

flask Python.

官网应用开发文档及学习资源7月上新汇总

HarmonyOS开发者

HarmonyOS

浅谈游戏音效测试点

行者AI

游戏测试

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据_AI&大模型_Kent Weare_InfoQ精选文章