写点什么

以大模型“对抗”大模型,2023WAIC 专家热议大模型时代如何保护隐私和安全

  • 2023-07-07
    北京
  • 本文字数:1946 字

    阅读完需:约 6 分钟

以大模型“对抗”大模型,2023WAIC 专家热议大模型时代如何保护隐私和安全

凭借大数据、大算力的“大力出奇迹”, AI 大模型带来的“智能涌现”,让人类又一次站在了技术革命的转折点。与之伴生的用户隐私泄漏、数据滥用等问题被敲响了警钟。作为平衡数据使用与隐私安全的关键技术,隐私计算面临新的机遇和挑战。

 

2023 世界人工智能大会( WAIC )“数据要素与隐私计算高峰论坛”上,复旦大学教授、上海市数据科学重点实验室主任肖仰华与中国信通院云大所大数据与区块链部副主任闫树展开高端对话,深入研讨了大模型时代隐私计算研究发展。


“数据要素与隐私计算高峰论坛”对话大模型时代的隐私计算


两位专家共同认为,总体上大模型是先进生产力,不能因为隐私等的顾虑放弃对大模型的应用。某种程度上,大模型是一种不确定市场,要正面正视隐私等问题,积极应用大模型。

 

但大模型的破坏性已经显化,要兼顾安全,不能盲目发展。要建立大模型安全底线和合规规范,从数据源头把关,加快大模型语料合规性认证等。非常重要的一点是,要用大模型“对抗”大模型,如利用大模型对生成内容的评估,用大模型自身的能力来保护我们的隐私。要用隐私计算的随机性、匿名化等方法,优化大模型数据分层,同时提升隐私计算本身的性能。


“隐私安全是老问题,但是在大模型时代变得特别突出”


“对于 AI 的发展来说,今年可能是比较特殊的一年。各类大模型‘智能涌现’,再一次诠释了数据的重要价值。然而 AI 大模型是把双刃剑,带来了突出的隐私和安全问题,隐私计算作为保护数据安全的技术可以做什么?”闫树强调了加速隐私计算研究的必要性。

 

肖仰华认为,大模型对隐私保护问题带来了前所未有的挑战,主要表现在侵权识别和保护两个层面,比如隐私泄露、版权侵犯。首先,大模型是一个大规模参数化的模型,训练数据来源多样,隐私保护非常困难。其次,生成式大模型往往是一种概率化的生产,是一种海量拼接式的生产,大模型是否侵犯隐私的识别本身很困难。所以传统意义上的隐私侵犯认定,在大模型时代往往会失效。另外,从保护角度来说更困难。大模型是基于深度神经网络的架构,本质上是黑盒模式。它的不同的参数到底习得了什么样的知识或能力我们无从得知。“问题是老问题,但是在大模型时代这些问题变得特别突出”。


解决使用大模型时的隐私安全问题,隐私计算技术已有探索


不止训练大模型带来隐私安全问题,大模型使用的安全问题也是当前的重点。隐私计算如何保证大模型使用的隐私安全?当前业界已经有了一些探索。

 

闫树介绍,现在隐私计算各种各样的路线,包括可信执行环境 TEE 、多方安全计算 MPC 等都有与大模型结合的探索,比如在云端部署 TEE ,用户在推理时将输入数据加密传输至云端,在其内部解密然后进行推理;还有在模型推理阶段使用多方安全计算来提升隐私保护能力,但不可避免地会对模型训练和推理的性能造成影响。

 

肖仰华认为,一是要建立系统性防范体系。从用户角度讲,要建立大模型隐私安全意识,充分意识到使用过中数据有可能被服务方收集;从提供服务的厂商来看,要提升服务的规范性,在用户完全授权的情况下收集用户相关的使用数据,不能超出用户授权范畴。二是从技术本身做创新,比如通过设置网络中间层,在中间层来自很多用户的查询或者使用可以混淆打乱,这时平台方就无法知道哪个用户在查哪个数据。所以传统的随机化匿名化,在大模型时代仍然还是有一定的适用性。

 

大模型时代隐私计算研究的机遇与挑战

 

大模型一定程度上也会改变隐私计算技术的发展和研究,那么该如何更好地适用与大模型?

 

闫树认为,首先可以重点关注隐私计算的可用性研究。就是目前来讲,隐私计算用于大部分训练时,性能是主要问题。另外合规性的探讨也是需要各界携手来,加强技术和法律领域的联合研究,共同探讨隐私计算技术的应用场景和效果,明确隐私计算技术的合规性。

 

肖仰华认为,大模型时代隐私计算迎来全新机遇。传统的隐私计算如差分隐私、联邦学习多是算法层开展工作。但算法工作前提是保护对象是明确的,协作机制清晰。但大模型时代是海量参数化的模型,不透明、无边界、不可解释,对于以前的基于可解释、清晰、可控的技术路线的隐私计算方法提供了全新挑战。包括上升到技术架构层面,大模型的隐私保护,要分层分级保护数据,大模型做基本的智能能力,要保护的数据还是在传统的加密数据库,二者如何协同,这个是从架构层面要研究的。

 

行业已有很多动作助力隐私计算未来更复杂更高要求的应用。在本次论坛上蚂蚁就开源了自研隐语技术栈中的隐语框架 1.0 版,和国产金融安全级 TEE 方案“ HyperEnclave ”,将为行业提供易用通用的技术方案。


2023WAIC,业内首个金融安全级国产 TEE 方案 HyperEnclave 正式开源


由蚂蚁牵头的行业首个“可信执行环境安全”国际标准 IEEE2952-2023 在论坛上正式发布,制定了基于 TEE 技术的安全计算系统的技术框架,为将为业界提供有效指导。

2023-07-07 16:5810569
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 362 篇内容, 共 265.1 次阅读, 收获喜欢 294 次。

关注

评论

发布
暂无评论
发现更多内容

TiCDC 实现 TiDB 备份方案

TiDB 社区干货传送门

同城双中心自适应同步方案 —— DR Auto-Sync 详解

TiDB 社区干货传送门

数据引擎助力车娱融合新业态 让秒杀狂欢更从容

TiDB 社区干货传送门

TiDB 常⻅架构应⽤场景

TiDB 社区干货传送门

【TiDB 社区版主话题探讨】-深入讨论 BR 备份

TiDB 社区干货传送门

技术升级&行业升级 TiDB 助力易车打造超级汽车狂欢节

TiDB 社区干货传送门

TiDB 5.0 升级性能初体验

TiDB 社区干货传送门

TiDB GC 之监控及日志解读

TiDB 社区干货传送门

数据总量 40 亿+,报表分析数据 10 亿+,TiDB 在中通的落地与进化

TiDB 社区干货传送门

实践案例

【TUG 话题探讨 005】TiDB 生态工具(DM、TiCDC等)使用场景及常见问题

TiDB 社区干货传送门

内存泄漏的定位与排查:Heap Profiling 原理解析

TiDB 社区干货传送门

故障排查/诊断

【TUG 话题探讨001】TiDB 的应用场景有哪些?看看 TUG 的技术专家怎么说

TiDB 社区干货传送门

【TiDB 社区版主推荐阅读】SQL 窗口函数速查表

TiDB 社区干货传送门

做出让人爱不释手的基础软件:可观测性和可交互性

TiDB 社区干货传送门

TiDB HTAP 上手指南丨添加 TiFlash 副本的工作原理

TiDB 社区干货传送门

升级5.1.1小问题

TiDB 社区干货传送门

使用 TiDB 时的连接池和负载均衡器配置策略

TiDB 社区干货传送门

TiDB 4.0 生产环境扩容 TiKV 节点详细步骤

TiDB 社区干货传送门

【TUG 话题探讨003】TUG 专家们如何做 TiDB 性能调优

TiDB 社区干货传送门

TiDB 性能测试最佳实践

TiDB 社区干货传送门

数据库架构选型

使用MySQL Workbench 迁移SQL Server 2012数据库到TiDB 5.0

TiDB 社区干货传送门

TiFlash 5.x 与 4.x 对比测试

TiDB 社区干货传送门

在Windows下调试TiDB4PG的填坑实记

TiDB 社区干货传送门

带着问题读 TiDB 源码:Hive 元数据使用 TiDB 启动报错

TiDB 社区干货传送门

How WebAssembly Powers Database: Build a UDF engine with Wasm

TiDB 社区干货传送门

【TUG 话题探讨004】对 TiDB 的爱恨之情!

TiDB 社区干货传送门

通过label调度副本测试

TiDB 社区干货传送门

TiDB GC 之处理案例 & FAQ

TiDB 社区干货传送门

【TUG 话题探讨002】看看 TUG 的技术专家都在用哪些数据库?

TiDB 社区干货传送门

如何使用 minio 进行 BR 备份

TiDB 社区干货传送门

TiDB 整体架构

TiDB 社区干货传送门

以大模型“对抗”大模型,2023WAIC 专家热议大模型时代如何保护隐私和安全_阿里巴巴_鲁冬雪_InfoQ精选文章