过去十几年,云计算的发展让大规模可用的计算资源成为可能,也推动了人工智能技术不断地创新,直到现在。在过去不到一年的时间里,生成式 AI 应用场景井喷,这预示着一个新的转折点,一个新的技术时代。
目前,生成式 AI 已经应用到企业创新的各个环节,从利用智能客服优化客户体验,到自动生成代码来提高技术团队生产力,再到以文字生成图片的方式加速创意内容生成,生成式 AI 的出现让 AI 技术能够真正地落地于企业实际业务中。
亚马逊云科技大中华区解决方案架构部总监 代闻
生成式 AI 应用场景的井喷推动业务需求迅猛增长的同时,也给企业的技术部门带来了前所未有的挑战。大语言模型的广泛应用带来最大的安全威胁之一就是数据泄漏。
前段时间,某大型国际企业在采用了一个基于大语言模型的公开聊天应用服务以后,20 天内发生了三起数据泄露事件,有产品良率的泄露、有代码的泄露,还有会议内容的泄露。
大模型时代,如何提高数据、模型和应用安全?
面对这么多安全挑战,企业到底该如何防范?
从定位上来讲,安全是构建生成式 AI 应用不可回避的一个议题。从构建开始,用户就需要把安全作为企业 AI 战略发展的一个核心环节,尤其是现在飞速发展的阶段。
但是构建安全的 AI 应该从哪里开始?用到的框架是怎样的?首先,就要从数据谈起。因为数据和模型安全是构建 AI 应用的关键。
生成式 AI 的井喷对企业的数据平台有了更高的要求。要训练构建一个生成式 AI 的模型,需要大量的非结构化数据。如果一个企业直接去用一个成本大模型进行微调,这时候又需要有高质量的专业化的数据来微调这个模型。这两个方面的要求目前对于大多数企业的数据平台都是具有挑战性的。亚马逊云科技在大数据还有 AI 领域里都耕耘多年,已经沉淀出来一个可以贯穿生成式 AI 全周期的数据治理流程。
数据安全
在数据安全方面,亚马逊云科技提供了贯穿生成式 AI 全周期的数据治理,从数据源的获取到数据的存储和查询,再到将数据传输给 AI 平台进行模型的训练、调优和推理,以及全面实施数据分类和治理。亚马逊云科技提供了一整套的解决方案、产品服务和最佳实践,帮助企业加速落地端到端的云原生数据战略,给生成式 AI 提供高质量的数据支持。
保护存储中的数据。亚马逊云科技通过实施安全密钥管理、静态数据加密、强制实施访问控制、利用机制限制数据访问,保护存储中的数据。高质量数据是构建生成式 AI 能力的关键。针对高质量的数据,亚马逊云科技有两个保护重点:防止数据泄漏以及防止数据篡改。这就要求我们全面保障数据存储、从数据湖到模型训练的数据传输、以及模型应用的环境。本次大会上,推出了敏感数据保护解决方案,可实现对企业敏感数据的自动化发现并在统一平台管理数据资产。该解决方案允许客户创建数据目录、使用内置或定制数据识别规则定义敏感数据类型,该方案利用机器学习、模式匹配的方式自动识别敏感数据,并提供可视化面板,帮助客户更轻松地对敏感数据进行管理和保护。
保护传输中的数据。亚马逊云科技从实施安全密钥和证书管理、执行传输中加密、自动检测意外数据访问、对网络通信进行身份验证四个方面对传输中的数据进行保护。多层次保护传输中的数据。亚马逊云科技通过跨区域之间的数据传输、VPC 内部以及 VPC 之间的传输、迁移上云的过程中、以及 TLS1.2+AES256 从整个的基础架构上实现应用层的加密和传输的保护。
保护使用中的数据。从身份认证、隔离环境、多方协作以及数据共享四个方面,进行使用中的数据保护。
模型安全
第二个大的方面就是模型的安全。模型训练后进入生产环境的安全防护同样重要。针对大模型,几个月前,亚马逊云科技宣布推出 Amazon Bedrock 和多种生成式 AI 服务和功能,以帮助客户构建和扩展自己的生成式 AI 应用程序。Amazon Bedrock 提供了广泛的基础模型因此客户可以选择最能满足需求的模型。
首先,Amazon Bedrock 后面接入了基础模型,它给提供了一个 API 可以使用大模型加速生成式 AI 的应用程序和开发,无须管理底层的基础设施。
第二,Amazon Bedrock 会负责任地选取一些合作伙伴,例如 AI21 Labs、Anthropic、Stability AI,以及自己的基础模型,另外亚马逊云科技最新推出的合作伙伴名单里也增加了 Cohere,便于客户最快速地找到最合适的、能力最强的基础模型。
第三,使用组织内部的数据来训练大模型,同时又保证:首先,背后给大模型做了私有拷贝,这个拷贝只是给客户服务,不会再跟其他任何的大模型共享。二是训练数据只是在客户账户里来帮助工作,Amazon Bedrock 不会拿任何用户的数据来增进自己的模型。这两点非常关键,这也是很多企业在采用大模型的时候对于数据主权、数据保护方面有担心的一个很重要的点,Amazon Bedrock 给了一个非常完善的答案。
值得一提的是,它能全面地使用亚马逊云科技提供的安全功能,Amazon KMS、Amazon IAM 等可以完善地跟 Amazon Bedrock 集成,集成以后可以很好地管理加密、权限控制和所有行为的日志。
亚马逊云科技也在帮助客户构建负责任的 AI,也会提供 Amazon Titan 自己的基础模型来给大家使用。Amazon Titan 有两个基础模型,一个是 Titan Text,能够执行文本类的任务。另外一个叫 Titan Embeddings,能执行个性化推荐的任务。亚马逊云科技在负责任 AI 方面有着坚定的承诺,Amazon Titan 可以通过减少和消除不当或者是有害的内容来支持技术的实现。
IDC 中国研究总监王军民认为,“IDC 通过调研,看到企业组织在整个的数字化转型过程中,对于网络安全的担忧是最大的。安全是全球最高管理层数字化举措面临的最大障碍,因此安全也是最高管理层技术投资的关键任务,尤其是云计算市场在全球的快速发展极大推动了客户对 IT 安全软件及服务的需求。亚马逊云科技用高标准的安全理念,不断提升安全合规能力及标准。”
应用安全
对于每一个负责任的人工智能企业来说,安全应该贯穿到从开发到持续集成、持续部署再到投产、监控以及整个反馈的过程里面来。
拿亚马逊云科技的 Amazon CodeWisperer 来说,它能够生成安全的代码,亚马逊云科技把内部数据集训练出来的模型能力放到经过安全检测的应用场景中,通过三层能力提供给客户,全面支持不同层的客户用生成式 AI。
在开发过程中,Amazon CodeWhisperer 作为 AI 编程助手,根据开发者指令利用内嵌的基础模型实时生成代码建议,该服务内置了代码安全扫描功能,可帮助开发者查找难以检测的漏洞并提出补救建议;Amazon CodeGuru Security 可以扫描代码,在代码里面寻找漏洞,包括调用包漏洞,包括很多其他代码逻辑的漏洞。
在应用运行中,企业可构建零信任的应用安全访问策略。这是一整套机制,需要对访问大模型的应用进行权限管理,确保只有在拥有特定权限的应用,才能访问或者调用大模型里的制定 API。
亚马逊云科技推出系列工具,帮助客户构建零信任机制:
使用 Amazon Verified Access 搭建无需 VPN 的网络验证系统、使用 Amazon IAM 或者客户自己的用户认证系统,来完成这个认证程序,建立可信任的网络通道;
Amazon Verified Permissions 为用户构建的应用程序提供细粒度授权和权限管理,用户可以使用该服务管理其应用程序的角色和属性的访问控制;
发布开源语言 CEDAR,CEDAR 用于编写和执行授权策略的开源的语言,可以更加高效地创建所有的访问控制权限。
亚马逊云科技大中华区解决方案架构部总监代闻强调:“零信任和网络控制并不是一个二选一的关系,两者相加才能实现端到端的应用安全,尤其是在大模型时代”。
针对网络防护,Amazon Shield 用于防 DDos 攻击;Amazon WAF 提供防火墙支撑;Amazon Firewall Manager 可以轻松管制防火墙策略。据介绍,亚马逊云科技去年缓解了 70 万次 DDos 攻击,Amazon WAF 上每天托管规则请求超过 3500 亿条。
针对威胁识别,Amazon GuardDuty 使用了基于人工智能和机器学习的技术,使安全事件的误报率减少 50%。它能够实现初期的检测,还可以做持续的分析,它会使用机器学习的技术来检测所有的威胁,以智能化的手段给予采取行动的建议。
评论