速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

去中心化知识图谱协作平台建设实践

  • 2021-01-18
  • 本文字数:5078 字

    阅读完需:约 17 分钟

去中心化知识图谱协作平台建设实践

导读:1 月 10 日,由 EpiK 铭识协议主办的“2021 开源知识运动”主题活动为业界带来了一场知识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席/著名知识图谱专家/OpenKG 主要发起人王昊奋、东北大学自然语言处理实验室副主任/小牛思拓创始人王会珍在内的重量级嘉宾参与。在此次大会上,EpiK 借助区块链去中心化的协作模式搭建共建共享共益的开放知识库的构想与实践成为核心亮点并被一众专家学者给予高度评价。


接下来文章将从以下几个方面全面解析 EpiK 开源知识运动:


  • 为何要构建去中心化知识图谱协作平台

  • 开源知识运动面临的挑战

  • EpiK 铭识协议解决方案

  • 谁可以参与这场开源知识运动

为何要构建去中心化知识图谱协作平台

当前,人工智能时代已经来到下半场,我们不再满足于无法解释的模型模拟,赋予 AI 认知能力是必须突破的瓶颈。而在开阔 AI 认知的道路上,知识图谱作为机器读懂人类知识的重要媒介,正在成为人工智能时代重要的基础设施。


然而,大规模知识图谱基础设施的建设涉及到来自各领域间海量知识内容,对数据质量要求高,因此,需要组织不同领域大量的劳动力共同投入到建设当中。但是共建知识图谱的信任成本极高,企业间、国家间的互不信任,导致了大量的重复劳动,如何搭建知识图谱共建平台的需求浮现于众,而在共建平台之上贡献者们如何共享共益更是必然要解决的问题。


2020 年,是区块链去中心化存储技术成熟的一年,搭建一个无许可的、防篡改的、可追溯的公共数据库成为可能,共建共享共益的知识图谱协作平台有了实践基础。

开源知识运动面临的挑战

比特币价格不断冲击历史新高,DeFi、IPFS、DAO 等新兴区块链应用层出不穷,让人看到了更多区块链的可能性。但基于区块链构建共建共享共益的知识图谱协作平台并非易事,这要面临一系列的挑战:


首先,如何实现共建?将各知识领域的人组织在一起共同参与构建高质量的大规模知识图谱,有效的激励机制和严格的数据质量验收机制缺一不可;其次,如何实现共享?共享知识图谱数据面临着可信存储的问题,创建各贡献方都可以无许可访问的不可篡改的公共存储平台是必经之路;再次,如何实现共益?知识图谱数据可被 0 成本复制传播,为贡献者找到高效的可变现方式是持续协作的动力源。


基于此,EpiK 借助“去中心化存储、去中心化自治组织、通证经济模型”三大区块链前沿技术分支,提出了一套完整的解决方案。


EpiK 铭识协议解决方案

针对于去中心化知识图谱构建痛点,EpiK 深入剖析区块链技术应用,为去中心化知识图谱构建勾画出基于区块链底层逻辑的技术架构。



其中,最核心的便是知识存储部分,这里我们核心介绍其中三大重要组件:


  • Storage,提供共享的可信存储,数据不可被随意篡改,数据不可被拒绝访问;

  • Incentive,为生态内多种贡献者角色提供激励,在保证各方追求自身利益最大化的同时,能合力共建高品质的知识图谱;

  • DAO,允许社区共参与系统参数治理,针对不同发展阶段进行动态调整。

1. Storage

EpiK 的 Storage 组件基于 IPFS 协议进行搭建。IPFS 是一种分布式网络传输协议,该协议将接入的计算机设备连接为同一个文件系统。提交给 IPFS 网络的文件,将被切分为多份,每份都拥有独立的 Hash 值,借助 Merkle Trie 数据结构,将切分出来的多份数据块组织连接到同一个根节点下,生成唯一的 File Root Hash,即为文件 Hash 值。多个文件的根也会被组织到一颗更大的 Merkle Trie 结构中,形成唯一的 Root Hash。这种结构有一个好处,即重复数据块不会被重复存储而且节点彼此之间仅需同步 Root Hash 即可保持对全局文件的一致性视角。每个节点可以自由选择保存哪些数据块,并告知其他节点自己存了哪些数据块,每个节点会把他们了解到的其他节点的存储情况记录在 DHT 中,方便在接受访问需求时,可以快速锁定哪些节点有对应的数据并向其索取。IPFS 成功地将诚实无私的节点连接起来,对外提供了一个统一的文件系统操作接口。但 IPFS 也有其现实中的问题:缺乏激励机制和防作弊机制,节点可能作恶而且可能随时下线,这些因素都导致仅靠 IPFS 来构建存储是不可靠的。


激励手段我们将在 3-2 中介绍,这里我们简要介绍节点潜在的作弊手法。举例来说,一份文件为了保证高可用性,会在网络中多个地方保存多份,如果现在有两名矿工都向网络广播他们存储了同一份文件,以此向整个系统索要两份存储奖励,但是这两名矿工可能实际分享着同一份物理存储,文件真实只存了一份,整个系统理应只支付一份存储奖励。这就是分布式系统里常见的女巫攻击。


为了防止女巫攻击,EpiK 在 Storage 组件中集成了由 FileCoin 提出的基于零知识证明的复制证明(PoRep,Proof-of-Replication)和  时空证明(PoSt,Proof-of-Spacetime)两种验证方法。其中,复制证明的作用是证明节点的确按照要求在本地完整存储了原始数据的全新副本;时空证明的作用是证明节点还在本地持续保存着原始数据的全新副本。复制证明的原理是,使用当前节点的全局唯一 ID 作为种子,然后通过计算密集型的加密算法对源文件完成密封,然后广播密封后数据的零知识证明,虽然密封过程复杂,但是其他节点可以轻松验证密封过程的正确性。时空证明的原理是,节点需要定期广播已存文件的一个随机零知识证明,这个证明如果从非密封的源文件开始生成将会及其耗时,可能导致节点无法按时完成证明的广播,如果其他节点没有及时收到该节点的时空证明广播,将会认为该节点已经丢失了这份文件。所以为了保障时空证明的及时性,节点不能丢弃已经密封好的文件数据。


有了存储系统和验证机制之后,我们还需要保证所有节点之前保持数据一致性,这就要求所有节点对于文件有哪些,是按照什么顺序广播给全网的都需要保持一致。这里就引入了区块链账本技术,所有新文件的创建及其创建顺序、节点存储文件的行为、节点提交存储证明的行为都被记录到一个全网共识的区块链账本上,每个节点都会同步完整账本已获得和全网一致的数据视角。有了文件内容和文件顺序之后,EpiK 便可以在 Storage 组件中存储知识图谱数据库操作日志文件,每个节点按顺序同步这些日志文件之后,便可以在本地恢复出全网一致的完整知识图谱数据库。


目前 EpiK 网络中已经有 9000+ 节点注册,5000+ 节点接入成功提供存储。EpiK 当前设置中,每一份文件会在网络里存储 3000 份,如果少于 3000 份,新存储的节点可以获得额外的激励,黑客要 DDoS 整个 EpiK 文件知识图谱数据库将会变得极其困难。而且全网同步同一账本信息,黑客只有控制全网超过 51%的节点才能篡改账本,攻击成本也会极其高昂。

2. Incentives

EpiK 将知识图谱贡献者分为 3 类,分别为数据矿工、领域专家和赏金猎人,另外还有一个使用者的角色,为数据网关。每天 EpiK 网络都会产出固定数量的积分奖励,如何将这些积分合理分配到这 3 类角色手上以激励他们为公共知识图谱数据库做贡献,以及如何设计合理的机制来回收积分,都在 Incentives 组件中定义。


数据矿工是物理设备提供者,通过提供存储和带宽资源来获得收益,每天产出积分的 75% 归属数据矿工群体。存储的数据越多,收益越高,提供的数据下载流量越大,收益越多。与此同时,为了预防数据矿工随意下线导致数据备份减少,系统安全性下降,所有数据矿工都需要抵押一部分积分才能成为数据矿工,通过提供存储和带宽资源获益。积分收益将通过区块链合约自动下发,无需经过任何中间人审核。


领域专家是知识图谱数据的贡献者和验收员,也是整个系统中唯一有权利上传知识图谱数据的群体,他们通过贡献高品质的知识图谱数据获得收益。每天产出积分的 9% 归属领域专家群体,贡献的数据越多,收益越高。但为了照顾不同领域数据规模的差异,不同领域专家贡献的数据大小会在取 log 后按比例获得奖励。当然,作为全系统唯一有数据上传权利的群体,对于领域专家有着严格的监督机制。首先,领域专家必须由已经是领域专家的人提名产生,提名后的领域专家还需要在社区中获得 10w 票的支持,每一票都以为着一个积分被锁定。一旦领域专家票数(锁仓积分数)少于 10 万票,则失去资格。如果领域专家上传虚假、垃圾数据,社区将给予除名处罚,提名了被除名领域专家的人也将受到连带惩罚。为了鼓励大家投票,每天产出积分的 1% 归属所有参与投票的用户,投票越多收益越高。


在将赏金猎人之前,我们先介绍数据网关。数据网关是用户获取最新第一手知识图谱数据的唯一途径,数据网关需要抵押积分来获得数据访问流量,比如抵押 1 积分可以获得每日 10MB 的数据访问流量。那么对于 EpiK 上知识图谱数据的需求越多,数据网关们抵押的积分就会越多,积分的需求会增加,贡献者们持有的积分就会越有价值。


有了数据网关抵押积分的概念,我们再来讲赏金猎人。赏金猎人是知识图谱数据的标注员和验证者,他们通过完成领域专家发布的任务来获得收益。赏金猎人的收益是随着数据网关抵押积分的多少来动态变化,如果数据网关抵押的积分越多,证明目前 EpiK 上知识图谱数据质量还不错,那我们会更多地激励数据矿工们提升带宽,让数据访问服务更加顺畅,于是每天产出积分的剩余 15% 会更多地分配给数据矿工群体;但如果数据网关抵押的积分不多,那说明 EpiK 上知识图谱数据质量还有待提升,那么我们会把剩余 15% 更多地分配给赏金猎人,让更多人工可以参与进来提升数据质量。


在整个生态中,每个角色都通过激励模型让自己利益实现最大化,数据矿工应该提供更多的存储,而且需要去督促领域专家优化知识图谱数据质量,从而赢得更多收益;领域专家则是不断提供更新更高质量的数据通过贡献来分得更高收益;赏金猎人则是完成更多的任务来获得更多收益,无形的手推动各方共建知识图谱。

3. 去中心化社区治理

一辆无人驾驶的汽车四处巡航,正在寻找乘客。乘客下车后,这辆车使用其利润去充电站充电,在其初始的编程设定外,不需外部的帮助就可以决定如何执行其任务。这是比特币核心协议开发者麦克·赫恩(Mike Hearn)描述的一个去中心化组织或者说 DAO 的理想用例,即依托智能合约,组织就可能实现无层级化管理的运作。DAO 是区块链发展过程中的一项重要延展,而 EpiK 铭识协议借鉴了这种组织形式,将它运用于去中心化知识图谱的构建中去。


EpiK 存在多个 DAO,有治理全局参数的 EpiK DAO,如修改各群体收益占比等参数等;有治理领域专家内部参数的 Experts DAO,如修改领域专家间积分分配算法等;有治理矿工内部参数的 Miners DAO,如修改每份文件的备份数量等。DAO 中的各级角色通过智能合约实现自己在组织中的功能,从而使得知识图谱构建这件事儿,被赋予了自动化的流程体系,大大提升了自身的专业性和效能,DAO 一旦运转起来将为全球超大知识图谱构建解放巨大的生产力。


依托三驾马车,EpiK 的知识图谱+区块链模式爆发出前所未有的活力,构建起开源知识共建共享共益平台。

谁可以参与这场开源知识运动

EpiK 开源知识运动让更多人看到了知识图谱未来对于 AI 的重要价值,同时也促使越来越多的人加入到 EpiK 共建共享共益的行动中来。事实上,EpiK 是一个底层的数据平台,不同身份的人都能参与到这个平台建设中来。那么什么样的人可以参与进来呢?


首先,各行业资深从业者可以报名参加成为该行业的领域专家,职责之一就是要确保数据的准确,同时也去把知识图谱数据标注任务合理地拆分、下发到平台上,让用户可以参与进来共同维护这些领域的知识图谱。


其次,EpiK 引入赏金猎人角色,帮助领域专家完成特定领域的任务。EpiK 赏金猎人只需完成简单的选择题,如回答 Yes or No ,每个回答的背后都会意味着一份知识图谱的逐步完善。完成任务之后,赏金猎人将按劳获得领域专家分配的奖励。按目前测算,不低于时薪 36 元。EpiK 希望可以调动更多的人,可以利用碎片化时间兼职参与进来,同时也能促进三四线城市的全新就业机会。


再次,可以选择做矿工,只需要提供相应的储存空间就可以成为数据矿工。在获得丰富奖励的同时,也是在为人类永恒知识库做出自己的一份贡献。


还有是数据变现,这里涉及两个方面:一方面是数据网关,随着链上数据的增多,参与人员可以通过为链上的数据做知识聚合,提供一些知识好用的访问服务以获得相应的补偿和收益;另一个层面就是对接应用方,可以帮助企业方省去高昂建数据库的成本。

说在最后

本文讲解了 EpiK 去中心化知识图谱开放协作平台的三重构建逻辑,在此基础上,EpiK 知识图谱库将成为人工智能未来发展的重要基石,为未来智能化应用落地提供重要的数据支撑推动数据价值的持续升级。

EpiK 开源知识运动正在开启一场 50 年由碳基生命向硅基生命的史诗级布道,一条通往 AI 未来大道正熠熠生辉。


本文转载自:DataFunTalk(ID:datafuntalk)

原文链接:去中心化知识图谱协作平台建设实践

2021-01-18 13:002057

评论

发布
暂无评论
发现更多内容

TDengine vs InfluxDB:谁的“流式计算”功能是真的?

TDengine

数据库 tdengine 时序数据库

Java程序员如何进一步学习netty?

了不起的程序猿

Java Netty 架构师 java编程

阿里巴巴热卖商品推荐API接口的获取与应用

科普小能手

阿里巴巴 电商 API API 接口 阿里巴巴数据采集

工业 5.0 时代的数字孪生:迈向高效和可持续的智能工厂

Altair RapidMiner

工业 制造业 数字孪生 仿真 altair

夜莺短信告警教程

巴辉特

夜莺监控 夜莺Nightingale 夜莺短信告警

InfluxDB vs TDengine :2025 年了,谁家用的数据库还不能高效读缓存?

TDengine

数据库 tdengine 时序数据库

为什么现在Java面试基本都要考察底层源码内容?

开心学Java

高并发 jdk源码 架构师 java面试 Java多线程

面基超快乐!和鲸社区亮相 PyCon China 2024 社区展

ModelWhale

Python 数据挖掘 机器学习 深度学习 数据库

星闪与Wi-Fi 7一相逢,便点亮智家无数

脑极体

AI

揭秘1688阿里巴巴API接口:解锁商品评论与描述详情图的深度探索之旅

代码忍者

API 接口 pinduoduo API

局域网企业网盘:主流的8大厂商产品对比

爱吃小舅的鱼

《可观测性体系建设100问》第二章—可观测性技术应用正式发布!实战应用,深化理解

博睿数据

实战丨证券 HTAP 混合业务场景的难点问题应对

PingCAP

数据库 #TiDB

模型输出可保存为数据集、支持配置社区活动作为课程作业|ModelWhale 版本更新

ModelWhale

Python 人工智能 数据分析 元数据

MPC2024明道云伙伴大会圆满结束

明道云

进军东南亚!Coremail泰国分公司启航

科技热闻

体育赛事直播系统二次开发指南,助力平台提高竞争力

软件开发-梦幻运营部

活动回顾丨云原生开源开发者沙龙·杭州站回放 & PPT 下载

阿里巴巴云原生

阿里云 云原生

HarmonyOS 5.0应用开发——装饰器的使用

高心星

huawei HarmonyOS HarmonyOS NEXT

用例图如何在线制作?10个用例图模板案例推荐!

职场工具箱

效率工具 UML 用例图 在线白板 绘图软件

TiDB 关联子查询及半连接的优化实践

PingCAP

数据库 #TiDB

2024最新Spring全家桶进阶笔记全网首次开源

了不起的程序猿

Java spring 微服务 架构师 Spring全家桶

集团总部与分公司组网:选择MPLS还是SD-WAN?

Ogcloud

SD-WAN 企业组网 企业网络 SD-WAN组网 SD-WAN服务商

如何通过ETLCloud做企业级数据集成

RestCloud

数据分析 ETL 数据集成 企业数据集成

ERP系统实施的难点不是系统本身,而是企业的人与管理

积木链小链

企业管理 ERP 中小企业

TikTok直播网络要求是什么?

Ogcloud

TikTok tiktok直播 tiktok直播专线 tiktok直播网络 tiktok直播加速

从微软 SSAS 到国产替代,这家企业终于松了一口气

Kyligence

华中科技大学鲲鹏昇腾科教创新孵化中心揭牌,产学研合作再结硕果

Geek_2d6073

项目经理如何向客户更好地汇报项目情况

Hi-CodeCaptain

项目管理 软件测试 精准测试 代码覆盖率 质量内建

法行宝爱企查AI形象上线,AI版“职场搭子”度律度秘替你打工

科技热闻

如何设计一个高并发系统?

开心学Java

Java 程序员 高并发 架构师 架构师设计

去中心化知识图谱协作平台建设实践_AI&大模型_DataFunTalk_InfoQ精选文章