产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

腾讯安全推出大模型隐私保护脱敏技术

  • 2023-12-05
    北京
  • 本文字数:1085 字

    阅读完需:约 4 分钟

大小:584.76K时长:03:19
腾讯安全推出大模型隐私保护脱敏技术

大模型已经被广泛应用在各类场景,帮助人们进行报告摘要、文本翻译、数据分析、业务风控等各项工作,极大地提升了工作效率,但同时公众对于大模型带来的数据泄露的隐忧也从未停止。

 

近日,腾讯安全玄武实验室披露了一项关于大模型隐私保护的安全脱敏与还原(Hide and Seek, HaS)技术,有望帮助大模型产品使用者从本地终端侧防范隐私数据泄露。

 

HaS 为业内首个支持信息还原的自由文本脱敏技术,通过对用户上传给大模型的 prompt(提示词)进行隐私信息脱敏,并在大模型返回计算结果后进行恢复,该方案兼顾了隐私安全和计算资源消耗:脱敏与还原算法经过 4bit 量化后权重文件仅 500MB,可在手机、 PC 等终端上部署。

 

这是业内首个公开发布的、能被大模型用户部署于终端侧的隐私保护脱敏技术。借助这一技术,用户可以从“源头”免除使用云端大模型带来的数据泄露方面的担忧。

 

据悉,这个模型主要适用于典型的 NLP 任务场景,例如机器翻译、文本摘要,文本润色、阅读理解、文本分类、情感分析等,其主要的技术难点在于如何解决实体识别与替换、实体指代消解、多义词识别、自纠错鲁棒性还原、实体翻译等。此前,不少大模型提供方以及专业安全厂商均在积极进行相关的尝试,但目前尚未有理想的解决方案。

 

“在大模型应用中提示词是一种自由文本,而针对自由文本的隐私保护问题,一种全密态的解决方案是通过安全多方计算(Multi-Party Computation, MPC)协议实现安全推理。然而,MPC 协议在计算成本和通信量上的高需求严重限制了其在大模型应用中的落地。”腾讯安全玄武实验室高级安全工程师陈昱表示,“实际上,多数场景下用户并不需要保护整句的信息不泄漏,而仅需要保护其中的隐私实体不泄漏。”玄武实验室经过正则匹配、近义词向量、BERT NER+CR 等方法的不断探索试错后,最终提出了这项技术。

 

实验表明,HaS 的数据脱敏处理并不会对任务造成影响。在使用模型进行隐私保护与直接调用大模型相比“分类任务”与“翻译任务”两个场景的性能对比,在使用 560M 生成式方案下,文本分类任务的性能不仅没有下降,反而增加了 0.14%;在 1.7B 标签式方案下,机器翻译任务性能仅下降了 0.85%。

 

腾讯安全玄武实验室将上述研究发现以论文形式发布,更多技术细节可参考玄武官方博客(https://xlab.tencent.com/cn/2023/12/05/hide_and_seek/)。

 

“一些企业或者个人用户开发者通过部署本地大模型来规避隐私数据泄露,但这要求一定的技术门槛,对于重度隐私需求的用户来说,通过本地安全模型/算法来实现数据保护,可能是更可行的办法。”玄武实验室正在逐步丰富这一模型的应用覆盖面,并完善其部署和交付方式,以供企业用户和个人用户在未来能够便捷使用。

 

2023-12-05 18:495538

评论

发布
暂无评论
发现更多内容

工业4.0时代:低代码的兴起,或将掀起制造业格局的变革

优秀

低代码 工业4.0

皮皮APP x 武汉市残疾人福利基金会 共建成长乐园

联营汇聚

性能监控之Telegraf+InfluxDB+Grafana+Python实现Oracle实时监控

zuozewei

数据库 oracle 性能监控 签约计划第二季

Xcode13 适配之打印启动时间

CRMEB

Apache Log4j 2 报高危漏洞,CODING 联手腾讯安全护卫软件安全

CODING DevOps

Apache DevSecOps CODING Log4j 2 腾讯安全

实用机器学习笔记九:数据部分总结

打工人!

机器学习 算法 学习笔记 12月日更

Linux之ls命令

入门小站

Linux

性能基础之CPU、物理核、逻辑核概念与关系

zuozewei

Linux 性能测试 基础 签约计划第二季

TypeScript 之模块

冴羽

JavaScript typescript 翻译 前端 web前端

下周上海见!超越商业,创业邦100未来独角兽峰会议程抢先看

创业邦

iKuai与DNSPod合作,搞了一个大动作!

网络安全 DNS DNS劫持

数据库大赛50强之「华东师范大学」:恰同学少年,代码激扬!

OceanBase 数据库

数据库 学习 开源 oceanbase

XTransfer技术专家康康:从普通程序员到架构师的进化之路

XTransfer技术

程序员 创业心态 创业公司 跨境支付 XTransfer

Android单页应用如何在Activity与Fragment中共享状态

Changing Lin

12月日更

性能工具之Java分析工具BTrace入门

zuozewei

Java 性能测试 性能分析 签约计划第二季

时间紧资金少人才缺?8位产业专家带你破局AI智能化升级

百度大脑

人工智能

睁眼、耸肩、觉醒:人形机器人的吊诡与最终幻想

脑极体

数据情报在金融行业的探索系列

nexpose

数据分析 目标追踪 风险识别 数据分析预测 数据情报

即时通讯(IM)开源项目OpenIM本周版本发布- v1.0.7web端一键部署

OpenIM

性能工具之常见性能工具一览

zuozewei

工具 性能测试 签约计划第二季

40 K8S之Calico网络插件

穿过生命散发芬芳

k8s 28天写作 12月日更

性能监控之Sleuth+Zipkin 实现 SpringCloud 链路追踪

zuozewei

链路追踪 性能测试 SpringCloud 性能监控 签约计划第二季

性能监控之Filebeat+Kafka+Logstash+Elasticsearch+Kibana 构建日志分析系统

zuozewei

ELK 性能监控 日志监控分析 签约计划第二季

性能分析之构建 Linux 操作系统分析决策树

zuozewei

Linux 性能测试 性能分析 签约计划第二季

记录docker,k8s,oneops,.netcore搭建个人博客过程

哔啵哔啵

.net Docker k8s .net core oneops

【Promise 源码学习】第十六篇 - 了解 co 库

Brave

源码 Promise 12月日更

深度揭秘技术创新:全球首个知识增强千亿大模型是怎样炼成的?

百度大脑

人工智能

5G与2021的双向奔赴

脑极体

使用 Apache APISIX serverless 能力快速拦截 Apache Log4j2 的高危漏洞

API7.ai 技术团队

Serverless log4j APISIX

伙伴大会报名截止倒计时3天!

明道云

性能分析之单条SQL查询案例分析(mysql)

zuozewei

MySQL 性能测试 性能分析 签约计划第二季

腾讯安全推出大模型隐私保护脱敏技术_生成式 AI_Tina_InfoQ精选文章