QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

智源研究院学术副院长唐杰:数据在开放共享的同时,隐私保护机制也要并举

  • 2019-11-07
  • 本文字数:1497 字

    阅读完需:约 5 分钟

智源研究院学术副院长唐杰:数据在开放共享的同时,隐私保护机制也要并举

10 月 31 日,由北京智源人工智能研究院主办的 2019 北京智源大会在国家会议中心开幕,会期两天。智源大会是北京创建全球人工智能学术和创新最优生态的标志性学术活动,定位于“内行的 AI 盛会”。

为推动行业数据开放共享,支撑人工智能基础研究与关键技术研发,大会现场,北京智源人工智能研究院宣布成立数据开放研究中心。该中心旨在制定数据开放标准,研究数据开放核心技术,搭建数据开放共享平台。智源研究院学术副院长唐杰担任数据开放研究中心主任。此次大会上,北京市科委主任许强、智源研究院院长黄铁军和数据开放研究中心主任唐杰共同为研究中心揭牌。

大会现场,数据开放研究中心主任唐杰接受了 InfoQ 等少数媒体的采访,唐杰就数据开放研究中心的情况做了详细介绍,并就数据安全、AI 发展现状等热门话题发表了自己的看法。

推动数据开放共享

据唐杰介绍,数据开放研究中心大概从今年 6、7 月份开始策划,“最早北京人工智能研究院主要想做几件事:第一是智源学者;第二是联合实验室,第三是社区,总的来讲,我们是希望智源成为一个平台性的组织,上面有学者、联合实验室、有各种社区。”


在实际推进过程中,联合实验室推进较慢,因为像这样重量级的项目一般都需要经过多次论证,到现在,智源才论证成立了京东、旷视两个联合实验室,未来这十个联合实验室仍需要很长时间建设,即便在并行操作的情况下。


因此,智源的专家们就在思考:是否能够打造一个数据平台?在这个数据平台上能够支持更加广泛的、容易的、轻量级的共享,且能在上面建立出面向学者和企业级的任务型竞赛。这样就可以加快迭代,否则依托这种联合实验室来做相对比较慢,而且联合实验室一发布出来后,有些公司还会有顾虑比如对竞争对手的考量。这是数据开放共享研究中心设立的原因之一。


唐杰表示,另外一个很重要的原因是,如何做数据脱敏、数据隐私、如何让数据更安全是数据开放中非常重要的研究内容。


据 InfoQ 了解,数据开放研究中心的具体工作内容包括以下几个方面:


开放标准:制定数据开放和共享系列标准,包括人工智能数据开放许可协议、人工智能数据资源开放管理规范等。


关键技术:研究隐私数据泄露风险模型;按照数据使用场景,研究相应的数据开放技术。


开放数据集:创建行业关键数据集,通过自动抓取、标注、与外部单位合作等方式,构建一批高质量的数据集。


共享平台:搭建数据开放共享平台,提供数据开放与共享服务,推动人工智能行业发展。


谈到数据安全、隐私问题,唐杰表示,从研究的角度讲,数据脱敏、数字隐私保护是一个“矛和盾”、“盾和矛”的问题,因为你在这里想办法怎么将数据保护起来,但总会有人想办法攻击进来,这两个方面是不停的在发展,可能有的阶段是“道高一尺”,有的阶段是“魔高一丈”。


目前解决的办法主要有几种,一种是加密共享技术,可以将数据用私钥加密后再进行共享,接下来在加密数据上构建模型。一种是联邦学习,联邦学习并不分享数据,而是分享模型,在在模型层面上做共享,这个时候数据没有开放出来。


采访中,唐杰表示,近期 AI 技术在逐渐朝着实用性发展,如时下热度颇高的安防、交通、医疗等都是 AI 非常重要的应用领域。


谈到现在比较火的自动驾驶,唐杰对其发展前景表示乐观,“我认为在未来有限的时间里是可以实现的“。他表示,自动驾驶技术发展越来越快,几乎每年都有很大的变化,在国内的特定领域,自动驾驶已经成型。未来随着技术的发展,它是一定可以实现的,但这个实现需要政府、民众等各方的努力,此外,有必要花一些时间消除人们对于自动驾驶的恐惧,很多人认为自动驾驶危险性很高,其实无人驾驶可能人驾驶还更安全一些。“我个人乐观估计,希望能够在未来六到九年实现,希望我的预言成真”。


2019-11-07 08:001655
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 544.5 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
  • 解决事务隔离产生问题的 MVCC

    什么是MVCC ?? MVCC称为:多版本并发控制,数据多版本并发控制,Multi Version Concurrency Control,也可以称为MCC,反正我最先知道他就是被称为MCC,因为当时我了解他的时候是这样的MultiVersion Concurrency Control。

    2023-04-12

  • 如何打开 plist 文件

    plist 文件是一种用于存储应用程序配置信息的文件格式,其中包含应用程序的各种设置和数据。在过去,plist 文件通常是以.plist 格式存储的。然而,随着时间的推移,人们开始使用.plistx 格式来存储更复杂的数据结构和数据。如果您需要将.plist 文件打开,可以

    2023-04-12

  • 开源模式新探索!卡奥斯工业互联网开源开放社区再升级

    为了进一步加速工业互联网的发展,更好地对开源模式进行实践探索,5月13日,由天工开物开源基金会、开源中国社区联合发起的中国开源未来发展峰会在重庆召开。会上,卡奥斯COSMOPlat公布了其立足工业互联网平台开源开放建设,打造的以软件开源、硬件开放、开发

    2023-05-23

  • 33|AI 前沿:ChatGPT 资料精选集

    本精选集的目的在于提供一个便捷的参考资源,帮助你全面掌握ChatGPT。

    2023-05-01

  • 湖仓一体:国产基础软件的创新突破与弯道超车

    随着数字化转型进程的加快,企业对于数据基础设施的存储和计算能力要求越来越高。如何进行数据资产的统一管理和共享?通过数据构建企业关键能力、实现数据智能型组织?应对企业的数字化转型需要,数据基础软件领域的技术也在不断升级迭代。

    2023-08-14

  • 表结构数据详解(上)

    2022-12-29

  • 简洁好用的思维导图软件:simplemind 中文版

    SimpleMind 是一款流行的思维导图软件,支持多种平台,包括 Windows、Mac、iOS 和 Android。它提供了简单易用的界面和丰富的功能,可以帮助用户轻松地创建、编辑和共享思维导图。

    2023-05-04

  • 导读 | 万物背后的规律都是数据

    这节课其实相当于我们正式进入正课内容的一个小预习,我们很多人平时很容易对数据想当然,但究根结底,我们对数据还需要进一步的认识。

    2021-07-28

  • 软件测试 / 测试开发丨岗位内推 -58 同城岗位开放

    1.参与需求分析、设计评审,制定测试计划,设计测试用例,搭建测试环境;

    2023-09-28

  • 海泰方圆又双叒叕连获两项隐私计算专利

    身处数据时代,需要统筹数据发展和安全,以数据开发利用和产业发展促进数据安全,以数据安全保障数据开发利用和产业发展。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下发挥数据价值,是当前面临的重要课题。隐私计算技术为流通过程中数据的“可用

    2023-03-17

  • 万物皆可“Embedding”,NLP 到底应该怎么做?(下)

    讲师介绍: 廖益玄,vivo AI NLP组技术负责人、AI算法专家。负责vivo内容理解平台的算法研发工作,并主导实现了公司内的NLP技术框架VNF。资深IT人,AI技术发烧友,撸过代码,做过架构,写过算法,早年曾作为技术合伙人开发了国内第一款中文语音助手智能360。 问题背景: 做NLP的同学想必都知道,从2013年Word2vec词向量提出开始,深度学习的方法逐渐“占领”了NLP领域各个应用场景,比如用于文本分类的TextCNN,用于序列标注的RNN等等。而在2018年大规模预训练模型Elmo、BERT发布之后,NLP领域又开始了新一轮的“革命”。 在这个万物皆可“Embedding”的年代,NLP应该怎么来做呢?跟之前传统机器学习方法又有何异同呢? 内容看点: Network weights 在计算词向量时,不同于 Word2vec的地方 文本表征模型的变化,从Transformer到BERT 预训练时代下NLP开发的新范式

    2021-10-22

  • 异常检测:探索数据深层次背后的奥秘《中篇》

     异常检测:探索数据深层次背后的奥秘《中篇》

    2023-09-22

  • 2023 数字中国建设峰会:百度点石获开放群岛开源社区优秀共建单位

    4月29日,作为第六届数字中国建设峰会重要组成部分,数字中国建设成果展览会同期论坛“2023数字中国建设与数据可信流通论坛”在福州海峡国际会展中心召开。论坛由国内首个致力于构建可信数据要素流通体系的开放群岛(Open Islands)开源社区主办,论坛同步举

    2023-05-22

  • 区块链 + 新基建:数字社会的四驾马车

    区块链在内的“四驾马车”,如何推动数字社会的发展?

    2021-08-18

  • new Vue 的时候到底做了什么

    1.初始化的第一阶段是Vue实例也就是vm对象创建前后:首先Vue进行生命周期,事件初始化发生在beforeCreate生命周期函数前,然后进行数据监测和数据代理的初始化,也就是创建vm对象的过程,当vm对象创建完成就可以通过vm对象访问到劫持的数据,比如data中的数据

    2022-11-16

  • 15 年磨一剑,亚马逊云科技数据产品掌门人 Swami 揭秘云原生数据战略的三大关键要素

    2022亚马逊云科技 re:Invent 全球大会正在拉斯维加斯如火如荼进行中,亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian 博士发表了“数据与机器学习如何助力企业构建端到端的数据战略”的主题演讲来开启第三天的日程。

    2022-12-05

  • 如何访问 TDH 中 Inceptor 底层的元数据库 TxSQL

    如何访问TDH中Inceptor 底层的元数据库TxSQL ?

    2023-09-25

  • 结束语|送你一张通往未来“通用人工智能”时代的船票

    送你一张通往未来“通用人工智能”时代的船票

    2023-05-15

  • 软件测试 / 测试开发 | 测试平台开发 - 前端开发之 Vue.js 框架的使用

    首先将 Vue.js 下载到本地,本章就以本地的 Vue.js 为例。在本地创建一个工作区即创建一个文件夹,使用 vscode 打开,将 Vue.js 放到工作区目录下。

    2023-03-06

发现更多内容

WOS新商业操作系统:中国头部SaaS的一次进阶

ToB行业头条

从发现问题到创造价值 数据智能如何助力商家双11高质量增长?

阿里技术

数据分析 智能数据

解读 K8s Pod 的 13 种异常

阿里巴巴云原生

阿里云 Kubernetes 云原生

Gartner 2023 年十大技术趋势,资料汇总(官方PDF & 直播实况)

填空时光

Gartner Gartner预测 gartner电子书 咨询

项目重构演进之路

杨充

web服务器

我叫于豆豆吖.

11月月更

存算一体 VS 存算分离 ,IT发展下的技术迭代

StoneDB

数据库 开源 存算分离 HTAP StoneDB

终于学完阿里架构师推荐413页微服务分布式架构基础与实战笔记

小二,上酒上酒

Java 面试 分布式 微服务

第二章 TCP/IP-IOS七层模型

我叫于豆豆吖.

11月月更

helm部署mysql

程序员欣宸

Helm 11月月更 kuernetes

CentOS7安装MySQL-5.7.36

蜗牛也是牛

week6作业 - 拆分电商系统为微服务

in9

干货 | 带你了解 EMC—— 什么是 EMC?

元器件秋姐

电磁兼容 元器件电商 华秋商城 电子工程师 电子科普

Baklib|如何做好知识库网页?

Baklib

三面阿里,被Java面试官虐哭!现场还原真实的“被虐”场景

小二,上酒上酒

面试题 面经 大厂面试 春招

传统客服中心向“互联网+”转型的关键点——帮助中心

Baklib

年薪120W的架构师简历你见过吗?java程序员该如何达到?

小二,上酒上酒

学习 架构 简历规划

C++特殊类的设计

可口也可樂

c++ 11月月更 特殊类的设计

寒冬之下,年销售增速不降反增,这家国企做对了什么?

用友BIP

python的标准库与扩展库中对象的导入与使用

乔乔

11月月更

视效剧情口碑双爆棚!Netflix 现象级剧集《怪奇物语》第四季神级视效专访大揭秘!

Renderbus瑞云渲染农场

Renderbus瑞云渲染 CG动画电影 CG特效制作

母亲斗情敌,羞得儿子无地容!一瓶“醉三皇”,圆了多少孝亲梦!

联营汇聚

The camera application scenrios on Wallys DR40X9 ipq4019/ipq4029 industrial 5g router

wallysSK

IPQ4019 ipq4029

OpenSergo & ShardingSphere 社区共建微服务视角的数据库治理标准

阿里巴巴云原生

阿里云 云原生 开源微服务 OpenSergo

第一章 TCP/IP协议

我叫于豆豆吖.

11月月更

敏捷开发四个会议如何正确召开?

PingCode研发中心

敏捷开发

Baklib帮助中心|如何设置好客户服务帮助您的客户?

Baklib

【CSPO认证】12月17-18日在线周末班 | 全国招生

ShineScrum

产品负责人 CSPO认证 CSPO

一文熟悉 Go 的基础语法和基本数据类型

陈明勇

Go golang 11月月更

终于有阿里大牛把困扰我多年的计算机组成原理:网络通信讲明白了

小二,上酒上酒

计算机 计算机原理 TCP协议

完全解析分布式存储,带你了解HDFS的块

好程序员IT教育

hdfs 分布式

智源研究院学术副院长唐杰:数据在开放共享的同时,隐私保护机制也要并举_AI&大模型_刘燕_InfoQ精选文章