写点什么

打造 AI 原生基础设施,清华系 AI 团队驱动产业第二增长曲线

2020 年 12 月 11 日

打造AI原生基础设施,清华系AI团队驱动产业第二增长曲线

打造基于第三代人工智能的AI基础设施。


基于第三代人工智能的 AI 基础设施


当前 AI 基础设施建设的重心集中在数据中心、算力平台上,主要为 AI 应用提供基本的运算条件。相当于解决了 AI 的“温饱”问题。


不断提高的运算速度、不断积累的大数据量作为“外部驱动力”驱动了人工智能产业的“第一增长曲线”。


然而伴随着 AI 落地逐渐深入,新的矛盾凸显。由于场景复杂和隐私安全等因素,传统行业无法完全依赖行业大数据提供足够信息,同时新一轮的算力大跃进还未到来,AI 的第一增长曲线开始放缓。


清华大学人工智能研究院孵化的第三代安全可控 AI 技术及行业解决方案提供商 RealAI CEO 田天认为,在这样的背景下,AI 发展需要打开“数据”和“算力”之外的全新维度,在数据平台和算力平台之外,从 AI 自身底层能力增强出发,打造 AI 原生基础设施,发展出 AI“内生驱动力”,从而在相同的数据、算力条件下,更好的支撑 AI 赋能行业的深度应用。


但人工智能想要发展出“内生驱动力”,面临着三大“关卡”:


  • 决策可靠与安全问题:


在智能化时代,AI 的决策逻辑和链路天然存在大量不确定性、不可靠。但在解决金融、医疗、工业、交通等高价值场景的智能化问题时,AI 算法本身必须很好的量化这种不确定性,同时提供可理解的决策逻辑和依据,才能得到信任,得以应用,发挥价值。


决策可靠的更进一步是算法攻防安全。越是复杂的系统越容易存在漏洞,特别是针对 AI。


在不透明的决策路径下,AI 程序掩盖了那些可能被用于攻击的漏洞或者后门。比如基于对抗样本技术,黑客可以通过一副“对抗样本”眼镜轻松实现身份伪装,破解手机面部解锁,通过他人伪装成他人完成银行和政务系统的身份认证,也可以通过对抗样本 T 恤衫在目标检测算法下“隐身”,逃避监控。这些攻击行为对 AI 在金融、安防等社会关键领域的各类应用带来了巨大挑战,因而亟需一套专属的更加安全的 AI 解决方案。


  • 数据安全和隐私难题:


提升 AI 能力需要最大限度的挖掘数据价值,但数据通常与个人隐私信息绑定,简单明文传输和利用很可能导致隐私泄露。


另一方面,商业场景下,高价值的数据往往分散在不同的机构与用户手中,形成了大大小小的数据孤岛; 要为 AI 应用打破数据孤岛,需要在应用过程中保障数据用途和用量受控,不被滥用和复制,同时数据应用产生的收益清晰,确保所有者的权益。


在这一过程中,不仅仅需要用到 AI 自身技术,还需要与密码学、区块链等技术进行融合发展。


  • AI应用管控:


新技术的影响往往有两面性,AI 也不例外。比如算法歧视、信贷场景下“幸存者偏差”等公平性问题层引发争议。AI 的一些应用场景涉及到道德和伦理问题,比如利用深度伪造技术制作的换脸虚假视频,负面传播引发不量社会影响。


因此对于新技术的应用发展,我们需要持续思考,在商业性与社会影响之间需要寻找到平衡。


综合考虑上述因素,田天认为,除了从数据、算力层面提供基本的运算环境,需要发展出新一代基础设施,对现有的 AI 平台进行升级赋能,拓展 AI 在各类场景上的可用性。


建设 AI 原生基础设施,就是要实现三大块能力:


  • 算法可靠:需要安全、可靠、可解释的AI平台,评估决策不确定性,提供可理解的决策依据,实现人机协同的决策;同时保证AI具备安全对抗能力,防范攻击;


  • 数据安全:需要具备隐私保护能力的AI平台。防止AI运算过程中隐私信息泄漏,同时剥离数据的使用权和所有权,打破数据孤岛,让AI对数据的使用用途和用量清晰、收益可评估;


  • 应用可控:需要一系列AI检测工具,防范算法歧视,AI伪造内容等负面应用。


田天向 InfoQ 表示, RealAI 定位做更安全、可靠的 AI 基础设施,以更好支撑 AI 在金融、医疗、工业、交通等领域的落地应用。


RealAI 打造 AI 原生基础设施的技术支撑是第三代人工智能技术。


“第三代人工智能”的理念由清华大学人工智能研究院院长、中国科学院院士张钹教授提出的技术体系,在 RealAI 的发展下,这一体系框架包含了贝叶斯深度学习、可解释机器学习、AI 对抗攻防、小样本学习、无监督学习、隐私保护机器学习、新一代知识图谱等核心技术。


围绕基于第三代人工智能技术的 AI 基础设施,RealAI 部署了一系列产品线。


12 月 9 日,在由清华大学人工智能研究院、北京智源人工智能研究院、北京瑞莱智慧科技有限公司联合主办的 2020 第三代人工智能产业论坛暨瑞莱智慧 RealAI 战略发布会上,成立 2 年来的 RealAI 首次对外展示其基于第三代人工智能的 AI 原生基础设施蓝图:


算法可靠方面,研发了基于贝叶斯深度学习技术的可解释 AI 建模平台 RealBox;对于已经应用部署的 AI 算法的安全性,研发了首个企业级人工智能安全平台 RealSafe,其相当于针对 AI 算法的杀毒软件和防火墙,能够发现 AI 算法的漏洞,并提供修复方案;数据安全方面,研发了编译级隐私保护机器学习框架 RealSafe;应用可控方面,推出了 DeepReal 深度伪造检测工具,以判别 AI 伪造内容。


发布两大第三代 AI 产品


这次发布会上,RealAI 重点发布了 2 大全新产品  —  隐私保护机器学习平台 RealSecure,及大幅度升级后的人工智能安全平台 RealSafe2.0 版本。


隐私保护机器学习平台 RealSecure


近年来,数据隐私安全话题的关注度攀升,数据泄露事件频发引发人们的担忧,但他们似乎总是屡禁不止。


田天在接受 InfoQ 采访时表示,这背后反映出的更深层次的矛盾是—利用数据和保护数据隐私之间的矛盾。大数据本身价值巨大,但数据的使用却问题不断,如何取得平衡是关键。


为了打造一个同时满足数据使用和保护数据隐私两方面需求的技术解决方案,RealAI 研发了隐私保护机器学习平台 RealSecure, RealSecure 能够在保证数据隐私安全、同时权属明确的情况下支持 AI 训练,及 AI 模型的预测。


RealSecure 基于安全多方计算、联邦学习、匿踪查询等技术打造,通过打通数据孤岛,将计算环节移动到数据端,实现数据可用不可见,解决多家机构数据合作过程中的数据安全风险和隐私泄露问题。


田天告诉 InfoQ,RealSecure 平台最核心和特色的功能是其所提出的“隐私保护 AI 编译器”。它是业内首个编译级的隐私保护机器学习平台。


现在市场上分布式隐私保护机器学习,更多的是相当于算法层面,即针对每一个算法,去开发相应的隐私保护学习版本。隐私保护学习版本需要对每一个代码进行改写,然后进行重复开发。


此外,隐私保护学习一般涉及到多方数据,这时如果要针对每一个参与方开发代码,且不同参与方的代码是不同的,这会令整个开发工作量变得庞大。这也导致整个隐私保护机器学习不容易规模化复制,同时也会降低算法效率。


RealAI 所开发隐私保护 AI 编译器首次以底层数据流图的视角揭示机器学习算法与对应分布式隐私保护学习算法的联系,实现了编译级别的隐私保护机器学习。


通过隐私保护 AI 编译器,可以自动的把非隐私保护版本的普通机器学习算法转换成隐私保护版本的机器学习算法,相当于实现了全自动的转换,使得明文数据不出数据库,却能在不同环境下支持算法训练和预测,在计算和隐私方面找到了权衡,可大幅提升算法的编译效率与适配程度。


人工智能安全平台 RealSafe 大幅度升级


人工智能安全平台 RealSafe 的目标是解决人工智能安全隐患问题,从算法模型、数据、基础设施、应用等方面提供全方位的人工智能安全解决方案。


在安全性检测能力上,RealSafe2.0 版本在前一版本基础上做了大幅度升级:可评测的应用场景全面拓宽,从应用最广泛的人脸识别模型拓展到了目标检测、图像分类模型。同时,增加了模型后门检测功能。


随着新的攻击方法不断出现,例如模型后门攻击仅在面对嵌入后门触发器的输入数据时才会识别出错,攻击手段非常隐蔽,也是当前 AI 安全方向最热门的研究领域之一。


在 RealSafe2.0 版本的众多新的功能点中,田天表示,其中一个最有特色的功能是,对模型后门的检测。


模型后门攻击指通过修改少量训练数据等方式在模型中植入后门,植入好的后门可以通过攻击者预先设定的触发器激发。在后门未被激发时,被攻击的模型具有和正常模型类似的表现;当模型中植入的后门被攻击者激活时,模型给出错误的输出。例如在内容审核场景中,可以通过修改少量训练数据,在模型中植入一个黄色方块等于正常类别的后门。之后含有黄色方块的涉政、涉恐等敏感数据均会被误识别为正常类别,进而导致漏审。


针对上述类似问题,RealSafe2.0 的后门检测功能可以检测算法里面有没有被留后门,是否存在这种潜在的风险。


人工智能安全平台,现阶段是一个比较新兴前沿的方向。目前在全球,只有谷歌、微软、Facebook 等海外科技公司,国内的百度、阿里、华为等巨头在做相关的研究,一些厂商发布了相关工具。


田天表示,这些巨头公司所做工作的一个共同点是,他们多是针对于学术场景的研究,其工具相当于学术工具,离做到真正商用程度还有一定距离。


而 RealAI 所做的机器学习平台是首个完全针对商用场景的,希望解决企业和开发者在应用 AI 过程中产生的安全问题。在模型安全性检测方面,只需要把被测算法模型的 SDK 或 API 接到 RealSafe 平台上,平台就可以通过内置的攻击检测算法进行全自动的安全性测评,并形成完整的检测报告。


值得注意的是,很多基于学术研究开发的工具仅支持白盒检测,但 RealSafe 平台的安全性检测场景全部支持黑盒检测。测评过程无需获知被测模型结构和参数等敏感信息,严格保护被测评方知识产权。“因为对于商业场景来说,要做安全的检测,要让被检测的对象把算法的所有细节甚至源代码,包括参数都给到,这是不现实的”,田天说。


安全性检测以外,平台也提供了安全性提升方案:


通过内置的对抗样本去噪方法帮助用户在人工智能应用中,破坏掉攻击者在输入数据中恶意添加的图像噪声,使模型能够正常运作;通过内置的对抗样本检测方法,帮助用户检测输入数据是否含有恶意的对抗样本,避免其进入人工智能系统的业务流程;通过提供平台自动化生成的、能够使被测模型出错的对抗样本,帮助用户进行对抗训练,训练出更加鲁棒的算法模型。


AI 安全未来会形成标准化趋势


RealAI 希望通过打造 AI 原生基础设施,驱动人工智能产业的“第二增长点”,寻找 AI 在产业落地的全新机会。


金融是 RealAI 的 AI 基础设施产品应用较多的领域,具体包括合规、隐私保护的数据应用可控、能够理解的预测模型、人机协同、安全、受保护的刷脸支付系统。


金融行业对新技术接纳度更快,金融是高价值行业,金融决策一旦出现问题易导致巨大经济损失...上述特征决定了相对于其他行业,金融行业对数据安全可靠、隐私安全具有更高的要求,这有利于更好地能发挥 AI 基础设施的能力。


金融风控场景中的数据有偏问题非常突出,传统建模过程中用到的数据都是经过层层筛选最终跑过整个借贷业务流程的“好”样本,以及他们的贷后表现标签。而如何评估没有贷后表现的拒绝客群、挖掘其中的优质客户一向是行业难题。


据介绍,为解决上述难题,RealAI 以自研半监督回捞模型,大幅度提高对拒绝客群质量的识别能力,实现捞回客群与原风控放款客群风险一致下,帮助金融机构 0 成本提升了 20%的资产规模。


金融之外,RealAI 的系列产品还正在工业、内容监督、新基建等领域中部署应用落地。


近年来,人工智能安全快速发展,业界一直在做相关的研究,且该领域热度越来越高。不过目前业内尚未出现主流的解决方案,仍需大量投入以探索创新技术。“这其实是矛和盾的关系,攻击技术越强,会出现更强的防御技术,防御技术越强,也会产生新的更强的攻击技术,这是在攻防之间不断发生变化的过程”。


因此,田天认为,未来需要有类似 RealSafe 平台这样的专业工具,持续对最新的安全威胁进行升级,发现新的威胁,同时提升算法系统在新的威胁情况下的安全性。因此,作为一个专门的 AI 安全平台,一方面需要保证通用性,另一方面需要保证持续迭代。


但对于每一个应用场景的自身系统来说,如果都是自己来做的话,成本会很高,且看到的都是特定领域的问题,有一定局限性,没办法从其他领域的安全问题里得到迁移。因此田天认为,类似于在网络时代有网络安全的一系列的公司和工具一样,在 AI 时代也需要有专门提供专属 AI 安全能力的公司和工具。


田天表示,未来 AI 安全会成为必然的趋势。因为一方面,AI 本身的应用场景在不断扩宽,被应用在越来越多的关键领域。伴随着 AI 应用越广泛,其安全威胁会越大,安全问题也会越多,这会促进 AI 安全快速发展。


“另一方面,我们判断,针对 AI 安全,不管是检测还是防御,未来将会逐渐呈现标准化的趋势。因为安全问题很大程度上受到监管的影响,国家也在制定人脸识别等人工智能系统安全规范。在 AI 安全测评加固产品的支撑下,相应的标准规范才得以真正落地应用,促进 AI 行业产生自律性,推动 AI 更好的、更高质量的服务于社会百业。” 田天表示。


2020 年 12 月 11 日 14:40821
用户头像
刘燕 InfoQ记者

发布了 483 篇内容, 共 150.2 次阅读, 收获喜欢 869 次。

关注

评论

发布
暂无评论
发现更多内容

Tomcat 架构原理解析到架构设计借鉴

码哥字节

Tomccat 「Java 25周年」

架构师训练第五周一致性Hash

邵帅

UC Token即将强势登陆

Geek_116789

架构师训练营第五周总结

王铭铭

真懂Spring的@Configuration配置类?你可能自我感觉太良好

YourBatman

Spring Boot Spring Framework @Configuration Spring配置类

重学 Java 设计模式:实战模版模式「模拟爬虫各类电商商品,生成营销推广海报场景」

小傅哥

Java 设计模式 小傅哥 重构 代码规范

面试官:为什么 HashMap 的加载因子是0.75?

哪吒来踢毽子

hashmap

【架构师训练营】第五周作业

Mr.hou

极客大学架构师训练营

视读——沟通的艺术,看入人里,看出人外(第一章)

双儿么么哒

读书笔记 视觉笔记

华为厦门DevCloud创新中心正式揭牌,“上云用数赋智”新助力

Geek_116789

架构师训练营第五周作业 一致性哈希

sunnywhy

互联网中的缓存

陈皮

架构师课程第五周总结

dongge

漫画:Integer 竟然有 6 种比较方式?

王磊

Java 编程 漫画 java编程 漫画编程

第五周总结

秦宝齐

课程作业

第五周总结

Acker飏

极客大学架构师训练营

负载均衡(Load Balance)

陈皮

小师妹学JVM之:JVM中的Safepoints

程序那些事

Java JVM 小师妹 性能调优 GC

ES5、ES6中继承的几种写法

Manito

Java

B站Up主自制秃头生成器,一键get张东升同款发型,网友:秃的太过真实

程序员生活志

程序员 B站 隐秘的角落 张东升 秃头生成器

缓存、一致性哈希和负载均衡总结(训练营第五课)

看山是山

缓存 极客大学架构师训练营 一致性hash

架构师训练营第 5 周作业——一致性Hash算法

在野

极客大学架构师训练营

架构师训练营-第五周-命题作业

sljoai

极客大学架构师训练营 第五周

一致性哈希实现

娄江国

极客大学架构师训练营

嗯?阿里为啥不用 ZooKeeper 做服务发现?

Java小咖秀

zookeeper 分布式 技术人生

可变对象和不可变对象

Leetao

Python Python基础知识

架构师训练第五周

邵帅

IOTA架构实战:大数据即时多维查询引擎构建【视频】

易观大数据

架构模式 大数据任务调度 查询引擎 数据算法

分布式缓存 - 第五周总结

孙志平

架构师训练营第五周作业

王铭铭

MQ 核心概念

陈皮

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

打造AI原生基础设施,清华系AI团队驱动产业第二增长曲线-InfoQ