写点什么

去中心化知识图谱协作平台建设实践

  • 2021-01-18
  • 本文字数:5078 字

    阅读完需:约 17 分钟

去中心化知识图谱协作平台建设实践

导读:1 月 10 日,由 EpiK 铭识协议主办的“2021 开源知识运动”主题活动为业界带来了一场知识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席/著名知识图谱专家/OpenKG 主要发起人王昊奋、东北大学自然语言处理实验室副主任/小牛思拓创始人王会珍在内的重量级嘉宾参与。在此次大会上,EpiK 借助区块链去中心化的协作模式搭建共建共享共益的开放知识库的构想与实践成为核心亮点并被一众专家学者给予高度评价。


接下来文章将从以下几个方面全面解析 EpiK 开源知识运动:


  • 为何要构建去中心化知识图谱协作平台

  • 开源知识运动面临的挑战

  • EpiK 铭识协议解决方案

  • 谁可以参与这场开源知识运动

为何要构建去中心化知识图谱协作平台

当前,人工智能时代已经来到下半场,我们不再满足于无法解释的模型模拟,赋予 AI 认知能力是必须突破的瓶颈。而在开阔 AI 认知的道路上,知识图谱作为机器读懂人类知识的重要媒介,正在成为人工智能时代重要的基础设施。


然而,大规模知识图谱基础设施的建设涉及到来自各领域间海量知识内容,对数据质量要求高,因此,需要组织不同领域大量的劳动力共同投入到建设当中。但是共建知识图谱的信任成本极高,企业间、国家间的互不信任,导致了大量的重复劳动,如何搭建知识图谱共建平台的需求浮现于众,而在共建平台之上贡献者们如何共享共益更是必然要解决的问题。


2020 年,是区块链去中心化存储技术成熟的一年,搭建一个无许可的、防篡改的、可追溯的公共数据库成为可能,共建共享共益的知识图谱协作平台有了实践基础。

开源知识运动面临的挑战

比特币价格不断冲击历史新高,DeFi、IPFS、DAO 等新兴区块链应用层出不穷,让人看到了更多区块链的可能性。但基于区块链构建共建共享共益的知识图谱协作平台并非易事,这要面临一系列的挑战:


首先,如何实现共建?将各知识领域的人组织在一起共同参与构建高质量的大规模知识图谱,有效的激励机制和严格的数据质量验收机制缺一不可;其次,如何实现共享?共享知识图谱数据面临着可信存储的问题,创建各贡献方都可以无许可访问的不可篡改的公共存储平台是必经之路;再次,如何实现共益?知识图谱数据可被 0 成本复制传播,为贡献者找到高效的可变现方式是持续协作的动力源。


基于此,EpiK 借助“去中心化存储、去中心化自治组织、通证经济模型”三大区块链前沿技术分支,提出了一套完整的解决方案。


EpiK 铭识协议解决方案

针对于去中心化知识图谱构建痛点,EpiK 深入剖析区块链技术应用,为去中心化知识图谱构建勾画出基于区块链底层逻辑的技术架构。



其中,最核心的便是知识存储部分,这里我们核心介绍其中三大重要组件:


  • Storage,提供共享的可信存储,数据不可被随意篡改,数据不可被拒绝访问;

  • Incentive,为生态内多种贡献者角色提供激励,在保证各方追求自身利益最大化的同时,能合力共建高品质的知识图谱;

  • DAO,允许社区共参与系统参数治理,针对不同发展阶段进行动态调整。

1. Storage

EpiK 的 Storage 组件基于 IPFS 协议进行搭建。IPFS 是一种分布式网络传输协议,该协议将接入的计算机设备连接为同一个文件系统。提交给 IPFS 网络的文件,将被切分为多份,每份都拥有独立的 Hash 值,借助 Merkle Trie 数据结构,将切分出来的多份数据块组织连接到同一个根节点下,生成唯一的 File Root Hash,即为文件 Hash 值。多个文件的根也会被组织到一颗更大的 Merkle Trie 结构中,形成唯一的 Root Hash。这种结构有一个好处,即重复数据块不会被重复存储而且节点彼此之间仅需同步 Root Hash 即可保持对全局文件的一致性视角。每个节点可以自由选择保存哪些数据块,并告知其他节点自己存了哪些数据块,每个节点会把他们了解到的其他节点的存储情况记录在 DHT 中,方便在接受访问需求时,可以快速锁定哪些节点有对应的数据并向其索取。IPFS 成功地将诚实无私的节点连接起来,对外提供了一个统一的文件系统操作接口。但 IPFS 也有其现实中的问题:缺乏激励机制和防作弊机制,节点可能作恶而且可能随时下线,这些因素都导致仅靠 IPFS 来构建存储是不可靠的。


激励手段我们将在 3-2 中介绍,这里我们简要介绍节点潜在的作弊手法。举例来说,一份文件为了保证高可用性,会在网络中多个地方保存多份,如果现在有两名矿工都向网络广播他们存储了同一份文件,以此向整个系统索要两份存储奖励,但是这两名矿工可能实际分享着同一份物理存储,文件真实只存了一份,整个系统理应只支付一份存储奖励。这就是分布式系统里常见的女巫攻击。


为了防止女巫攻击,EpiK 在 Storage 组件中集成了由 FileCoin 提出的基于零知识证明的复制证明(PoRep,Proof-of-Replication)和  时空证明(PoSt,Proof-of-Spacetime)两种验证方法。其中,复制证明的作用是证明节点的确按照要求在本地完整存储了原始数据的全新副本;时空证明的作用是证明节点还在本地持续保存着原始数据的全新副本。复制证明的原理是,使用当前节点的全局唯一 ID 作为种子,然后通过计算密集型的加密算法对源文件完成密封,然后广播密封后数据的零知识证明,虽然密封过程复杂,但是其他节点可以轻松验证密封过程的正确性。时空证明的原理是,节点需要定期广播已存文件的一个随机零知识证明,这个证明如果从非密封的源文件开始生成将会及其耗时,可能导致节点无法按时完成证明的广播,如果其他节点没有及时收到该节点的时空证明广播,将会认为该节点已经丢失了这份文件。所以为了保障时空证明的及时性,节点不能丢弃已经密封好的文件数据。


有了存储系统和验证机制之后,我们还需要保证所有节点之前保持数据一致性,这就要求所有节点对于文件有哪些,是按照什么顺序广播给全网的都需要保持一致。这里就引入了区块链账本技术,所有新文件的创建及其创建顺序、节点存储文件的行为、节点提交存储证明的行为都被记录到一个全网共识的区块链账本上,每个节点都会同步完整账本已获得和全网一致的数据视角。有了文件内容和文件顺序之后,EpiK 便可以在 Storage 组件中存储知识图谱数据库操作日志文件,每个节点按顺序同步这些日志文件之后,便可以在本地恢复出全网一致的完整知识图谱数据库。


目前 EpiK 网络中已经有 9000+ 节点注册,5000+ 节点接入成功提供存储。EpiK 当前设置中,每一份文件会在网络里存储 3000 份,如果少于 3000 份,新存储的节点可以获得额外的激励,黑客要 DDoS 整个 EpiK 文件知识图谱数据库将会变得极其困难。而且全网同步同一账本信息,黑客只有控制全网超过 51%的节点才能篡改账本,攻击成本也会极其高昂。

2. Incentives

EpiK 将知识图谱贡献者分为 3 类,分别为数据矿工、领域专家和赏金猎人,另外还有一个使用者的角色,为数据网关。每天 EpiK 网络都会产出固定数量的积分奖励,如何将这些积分合理分配到这 3 类角色手上以激励他们为公共知识图谱数据库做贡献,以及如何设计合理的机制来回收积分,都在 Incentives 组件中定义。


数据矿工是物理设备提供者,通过提供存储和带宽资源来获得收益,每天产出积分的 75% 归属数据矿工群体。存储的数据越多,收益越高,提供的数据下载流量越大,收益越多。与此同时,为了预防数据矿工随意下线导致数据备份减少,系统安全性下降,所有数据矿工都需要抵押一部分积分才能成为数据矿工,通过提供存储和带宽资源获益。积分收益将通过区块链合约自动下发,无需经过任何中间人审核。


领域专家是知识图谱数据的贡献者和验收员,也是整个系统中唯一有权利上传知识图谱数据的群体,他们通过贡献高品质的知识图谱数据获得收益。每天产出积分的 9% 归属领域专家群体,贡献的数据越多,收益越高。但为了照顾不同领域数据规模的差异,不同领域专家贡献的数据大小会在取 log 后按比例获得奖励。当然,作为全系统唯一有数据上传权利的群体,对于领域专家有着严格的监督机制。首先,领域专家必须由已经是领域专家的人提名产生,提名后的领域专家还需要在社区中获得 10w 票的支持,每一票都以为着一个积分被锁定。一旦领域专家票数(锁仓积分数)少于 10 万票,则失去资格。如果领域专家上传虚假、垃圾数据,社区将给予除名处罚,提名了被除名领域专家的人也将受到连带惩罚。为了鼓励大家投票,每天产出积分的 1% 归属所有参与投票的用户,投票越多收益越高。


在将赏金猎人之前,我们先介绍数据网关。数据网关是用户获取最新第一手知识图谱数据的唯一途径,数据网关需要抵押积分来获得数据访问流量,比如抵押 1 积分可以获得每日 10MB 的数据访问流量。那么对于 EpiK 上知识图谱数据的需求越多,数据网关们抵押的积分就会越多,积分的需求会增加,贡献者们持有的积分就会越有价值。


有了数据网关抵押积分的概念,我们再来讲赏金猎人。赏金猎人是知识图谱数据的标注员和验证者,他们通过完成领域专家发布的任务来获得收益。赏金猎人的收益是随着数据网关抵押积分的多少来动态变化,如果数据网关抵押的积分越多,证明目前 EpiK 上知识图谱数据质量还不错,那我们会更多地激励数据矿工们提升带宽,让数据访问服务更加顺畅,于是每天产出积分的剩余 15% 会更多地分配给数据矿工群体;但如果数据网关抵押的积分不多,那说明 EpiK 上知识图谱数据质量还有待提升,那么我们会把剩余 15% 更多地分配给赏金猎人,让更多人工可以参与进来提升数据质量。


在整个生态中,每个角色都通过激励模型让自己利益实现最大化,数据矿工应该提供更多的存储,而且需要去督促领域专家优化知识图谱数据质量,从而赢得更多收益;领域专家则是不断提供更新更高质量的数据通过贡献来分得更高收益;赏金猎人则是完成更多的任务来获得更多收益,无形的手推动各方共建知识图谱。

3. 去中心化社区治理

一辆无人驾驶的汽车四处巡航,正在寻找乘客。乘客下车后,这辆车使用其利润去充电站充电,在其初始的编程设定外,不需外部的帮助就可以决定如何执行其任务。这是比特币核心协议开发者麦克·赫恩(Mike Hearn)描述的一个去中心化组织或者说 DAO 的理想用例,即依托智能合约,组织就可能实现无层级化管理的运作。DAO 是区块链发展过程中的一项重要延展,而 EpiK 铭识协议借鉴了这种组织形式,将它运用于去中心化知识图谱的构建中去。


EpiK 存在多个 DAO,有治理全局参数的 EpiK DAO,如修改各群体收益占比等参数等;有治理领域专家内部参数的 Experts DAO,如修改领域专家间积分分配算法等;有治理矿工内部参数的 Miners DAO,如修改每份文件的备份数量等。DAO 中的各级角色通过智能合约实现自己在组织中的功能,从而使得知识图谱构建这件事儿,被赋予了自动化的流程体系,大大提升了自身的专业性和效能,DAO 一旦运转起来将为全球超大知识图谱构建解放巨大的生产力。


依托三驾马车,EpiK 的知识图谱+区块链模式爆发出前所未有的活力,构建起开源知识共建共享共益平台。

谁可以参与这场开源知识运动

EpiK 开源知识运动让更多人看到了知识图谱未来对于 AI 的重要价值,同时也促使越来越多的人加入到 EpiK 共建共享共益的行动中来。事实上,EpiK 是一个底层的数据平台,不同身份的人都能参与到这个平台建设中来。那么什么样的人可以参与进来呢?


首先,各行业资深从业者可以报名参加成为该行业的领域专家,职责之一就是要确保数据的准确,同时也去把知识图谱数据标注任务合理地拆分、下发到平台上,让用户可以参与进来共同维护这些领域的知识图谱。


其次,EpiK 引入赏金猎人角色,帮助领域专家完成特定领域的任务。EpiK 赏金猎人只需完成简单的选择题,如回答 Yes or No ,每个回答的背后都会意味着一份知识图谱的逐步完善。完成任务之后,赏金猎人将按劳获得领域专家分配的奖励。按目前测算,不低于时薪 36 元。EpiK 希望可以调动更多的人,可以利用碎片化时间兼职参与进来,同时也能促进三四线城市的全新就业机会。


再次,可以选择做矿工,只需要提供相应的储存空间就可以成为数据矿工。在获得丰富奖励的同时,也是在为人类永恒知识库做出自己的一份贡献。


还有是数据变现,这里涉及两个方面:一方面是数据网关,随着链上数据的增多,参与人员可以通过为链上的数据做知识聚合,提供一些知识好用的访问服务以获得相应的补偿和收益;另一个层面就是对接应用方,可以帮助企业方省去高昂建数据库的成本。

说在最后

本文讲解了 EpiK 去中心化知识图谱开放协作平台的三重构建逻辑,在此基础上,EpiK 知识图谱库将成为人工智能未来发展的重要基石,为未来智能化应用落地提供重要的数据支撑推动数据价值的持续升级。

EpiK 开源知识运动正在开启一场 50 年由碳基生命向硅基生命的史诗级布道,一条通往 AI 未来大道正熠熠生辉。


本文转载自:DataFunTalk(ID:datafuntalk)

原文链接:去中心化知识图谱协作平台建设实践

2021-01-18 13:001986

评论

发布
暂无评论
发现更多内容

架构师训练营第七周作业 - 学习总结

阿德儿

Eureka 部分机制记录

常清静

Spring Cloud 原理 Eureka

软件架构-事件驱动架构

看山

架构 事件驱动架构

诊所数字化:私域运营的本质

boshi

数字化转型 医疗 私域运营 七日更 28天写作

第7周课后练习-性能优化一

潘涛

架构师训练营 4 期

语音聊天室申请上麦的用例文档

郭郭

架构师训练营第七周作业 - 命题作业

阿德儿

LeetCode 第 46 场双周赛题解

宫水三叶的刷题日记

面试 LeetCode 数据结构与算法

【LeetCode】绝对差不超过限制的最长连续子数组Java题解

Albert

算法 LeetCode 28天写作 2月春节不断更

dubbo源码v2.7分析:结构、container入口及线程模型

程序员架构进阶

微服务 七日更 28天写作 2月春节不断更 dubbo源码

第13周学习总结

Binary

管理笔记【10】十二条给管理者的人事管理经验

L3C老司机

28天写作

SICP 习题解答 1.6

十元

一种C++中支持界面调用函数的实现方法

长不胖的Garfield

浅谈EMC电磁兼容设计—概念篇

不脱发的程序猿

28天写作 二月春节不断更 电路设计 EMC 电磁兼容

这些面试题你会吗?双非本科字节跳动Android面试题分享,大厂内部资料

欢喜学安卓

android 程序员 面试 移动开发

堆栈与队列学习总结

Nick

数据结构 算法 堆栈 队列

LeetCode题解:198. 打家劫舍,动态规划(缓存偷盗状态),JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

架构师训练营 4 期 第8周

引花眠

架构师训练营 4 期

关于星座的趣谈「Day 2」

道伟

28天写作

第五周作业-线下核销优惠券流程图

隋泽

产品经理训练营

实战 LeetCode 15.三数之和、18.四数之和,并扩展至 N 数之和

与你一起学算法

canvas从入门到猪头

执鸢者

大前端 canvas

28天瞎写的第二百四十天:我与正念的故事

树上

冥想 28天写作 正念 焦虑 平静

十二周作业&总结

胡益

甲方日常 92

句子

工作 随笔杂谈 日常

创业公司如何搭建自己的领导班子

一笑

28天写作

第十三周课后练习

Binary

【vue2 & G6】快速上手

德育处主任

大前端 可视化 数据可视化 G6 antv/g6

(28DW-S8-Day2) 在线教育的本质

mtfelix

28天写作 在线教育的本质特点

魂牵梦绕——俄罗斯方块效应

Justin

心理学 28天写作 游戏设计

去中心化知识图谱协作平台建设实践_AI&大模型_DataFunTalk_InfoQ精选文章