写点什么

腾讯安全推出大模型隐私保护脱敏技术

  • 2023-12-05
    北京
  • 本文字数:1085 字

    阅读完需:约 4 分钟

大小:584.76K时长:03:19
腾讯安全推出大模型隐私保护脱敏技术

大模型已经被广泛应用在各类场景,帮助人们进行报告摘要、文本翻译、数据分析、业务风控等各项工作,极大地提升了工作效率,但同时公众对于大模型带来的数据泄露的隐忧也从未停止。

 

近日,腾讯安全玄武实验室披露了一项关于大模型隐私保护的安全脱敏与还原(Hide and Seek, HaS)技术,有望帮助大模型产品使用者从本地终端侧防范隐私数据泄露。

 

HaS 为业内首个支持信息还原的自由文本脱敏技术,通过对用户上传给大模型的 prompt(提示词)进行隐私信息脱敏,并在大模型返回计算结果后进行恢复,该方案兼顾了隐私安全和计算资源消耗:脱敏与还原算法经过 4bit 量化后权重文件仅 500MB,可在手机、 PC 等终端上部署。

 

这是业内首个公开发布的、能被大模型用户部署于终端侧的隐私保护脱敏技术。借助这一技术,用户可以从“源头”免除使用云端大模型带来的数据泄露方面的担忧。

 

据悉,这个模型主要适用于典型的 NLP 任务场景,例如机器翻译、文本摘要,文本润色、阅读理解、文本分类、情感分析等,其主要的技术难点在于如何解决实体识别与替换、实体指代消解、多义词识别、自纠错鲁棒性还原、实体翻译等。此前,不少大模型提供方以及专业安全厂商均在积极进行相关的尝试,但目前尚未有理想的解决方案。

 

“在大模型应用中提示词是一种自由文本,而针对自由文本的隐私保护问题,一种全密态的解决方案是通过安全多方计算(Multi-Party Computation, MPC)协议实现安全推理。然而,MPC 协议在计算成本和通信量上的高需求严重限制了其在大模型应用中的落地。”腾讯安全玄武实验室高级安全工程师陈昱表示,“实际上,多数场景下用户并不需要保护整句的信息不泄漏,而仅需要保护其中的隐私实体不泄漏。”玄武实验室经过正则匹配、近义词向量、BERT NER+CR 等方法的不断探索试错后,最终提出了这项技术。

 

实验表明,HaS 的数据脱敏处理并不会对任务造成影响。在使用模型进行隐私保护与直接调用大模型相比“分类任务”与“翻译任务”两个场景的性能对比,在使用 560M 生成式方案下,文本分类任务的性能不仅没有下降,反而增加了 0.14%;在 1.7B 标签式方案下,机器翻译任务性能仅下降了 0.85%。

 

腾讯安全玄武实验室将上述研究发现以论文形式发布,更多技术细节可参考玄武官方博客(https://xlab.tencent.com/cn/2023/12/05/hide_and_seek/)。

 

“一些企业或者个人用户开发者通过部署本地大模型来规避隐私数据泄露,但这要求一定的技术门槛,对于重度隐私需求的用户来说,通过本地安全模型/算法来实现数据保护,可能是更可行的办法。”玄武实验室正在逐步丰富这一模型的应用覆盖面,并完善其部署和交付方式,以供企业用户和个人用户在未来能够便捷使用。

 

2023-12-05 18:495908

评论

发布
暂无评论
发现更多内容

.NET使用分布式网络爬虫框架DotnetSpider快速开发爬虫功能

不在线第一只蜗牛

.net 分布式 爬虫

大模型营销助手“打辅助”,加速保险展业

中关村科金

每日一题:LeetCode-151. 反转字符串中的单词

Geek_4z9ami

Go 面试 算法 LeetCode 字符串

3DCAT+上汽奥迪:打造新零售汽车配置器实时云渲染解决方案

3DCAT实时渲染

实时云渲染 实时渲染云 汽车虚拟仿真 汽车3D可视化

从概念到实践,带你掌握层次递归查询

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

大模型训练引领AI新时代

百度开发者中心

人工智能 大模型 LLM

我还是无法忘记那个午夜,当oncall的告警响起

Java 工程师蔡姬

#on-call 21 天技术人写作行动营 #线上问题 #性能问题

如何教会小白使用淘宝API接口获取商品数据

Noah

软件测试/人工智能|一文告诉你Python字典知识

霍格沃兹测试开发学社

机器学习与低代码开发:创新驱动的双剑合璧

EquatorCoco

机器学习 软件开发 低代码

IPQ4019 IPQ4029 Platform DR40x9 Provide 23-30KM Long Range Transfer AP Controller Support Openwrt Openwifi|802.11AC Solution

wallyslilly

IPQ4019 ipq4029

春晚回应吉祥物“龙辰辰”被质疑 AI 合成;周星驰 Web3 团队下月上线独立 App 丨 RTE 开发者日报 Vol.102

声网

新动力、新引擎,企业知识大模型释放数字生产力

中关村科金

Java 11 到 Java 21:无缝迁移的可视化指南

高端章鱼哥

Java Java11 Java21

如何给网页和代码做HTML加密?

当前最高4+级!大模型能力获信通院标准符合性验证

中关村科金

大模型 大模型评估

智能双录解决方案助力保险代销机构探索市场新机遇

中关村科金

保险 智能双录

从内容生产到企业经营,大模型将如何改变数字营销?

中关村科金

大数据 大模型 智能营销

【EMNLP 2023】基于知识迁移的跨语言机器阅读理解算法

阿里云大数据AI技术

云电脑和一体机有什么区别?

青椒云云电脑

云电脑 桌面云一体机 云桌面一体机

新一代私有云部署四大优势和案例解读

青椒云云电脑

云电脑平台

如何构建适合工业设计企业的云端图形工作站?

青椒云云电脑

图形工作站

软件测试/人工智能|使用 Pip 管理 Python 包

霍格沃兹测试开发学社

什么是item_get,它在电商中有什么作用?

技术冰糖葫芦

API 接口

大模型训练中CPU高负载与GPU低使用率的优化策略

百度开发者中心

gpu 大模型

大模型训练中错误数据集的影响及应对策略

百度开发者中心

大模型 人工智能’

软件测试/人工智能|一文告诉你Python集合相关知识

霍格沃兹测试开发学社

腾讯安全推出大模型隐私保护脱敏技术_生成式 AI_Tina_InfoQ精选文章