产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

区块链与数据库技术对比及融合展望

  • 2019-10-24
  • 本文字数:2727 字

    阅读完需:约 9 分钟

区块链与数据库技术对比及融合展望

10 月 19 日下午,由百度超级链学院与金色财经联合主办的百度超级链学院线下技术沙龙《区块链与数据库的融合碰撞》在北京科技寺创业空间滚石店顺利举行。百度超级链资深工程师孙君意进行了《区块链与数据库技术对比及融合展望》主题分享,以下为演讲整理


孙君意,百度超级链资深工程师,目前负责超级链的架构设计,对区块链的账本、事务模型有深入研究。在百度期间负责过万亿级网页链接库实时存储,Feed 统一内容池、垂搜多版本数据库等项目。


首先我们来思考一个问题,区块链和数据库在哪些维度上有共性,我自己有一个简单的定义,我认为区块链和数据库都是数据管理技术,数据管理并不高深,我们用一个 Excel 就可以进行。我们在实际项目实施过程中会被客户问到一个问题,为什么这个项目非得用区块链,区块链难以篡改,比如说有密码的支撑,比较方便实现多方共享。但是这些是不是足以说这个项目就可以用区块链,我认为如果在应用层做很多间接改造也可以实现大部分功能,但是其中有一部分很难实现,就是在参与管理数据的多方存在不信任的场景下,这种场景下是很难用传统数据库解决的。除非多方之间选出大家都公信的“盟主”,让它来管理这个数据库,这个时候业务用数据库就可以做,否则的话是行不通的。


我认为区块链的革命性就是实现了可信的数据管理,为什么说可信,有两个方面,第一个是存储的可信;第二个是数据处理过程的可信。通过区块链的共识算法实现了在去中心的网络环境下成百上千个节点维护着一致性的数据副本。并且,数据的变更都是公开透明和可审计的,每个节点都会验证,不管是密码验证还是合约执行结果的验证,都会在各个节点执行。


网络规模越大,公信力越强,事实上人们也愿意为可信带来的溢价买单。一个简单的例子,如果现在在亚马逊的 RDS,如果要存储 1GB 的数据,成本大概是每月 0.25 美元,但是同样如果存在以太坊上,大概需要三万两千个 ETH,有 7200 多个节点分布式地在全球存储其副本。区块链通过共识算法和智能合约,在实践层面真正实现了可信的数据管理,这是具有革命性的。


另外一方面,很多人也看到区块链有很多的局限性,出现了一些悲观的看法,比如认为区块链都是更慢的数据库,链式哈希不新鲜,Git 中早就有了;绝大多数场景用数据库就够了, 不是刚需——Nice to Have , Not must have,但是我认为这种看法是错误的。


我总结一下区块链适用的场景有三点:


  1. 数据的变更历史需要透明、可审计的应用场景;

  2. 数据的处理过程需要按照多方约定并公示后的规则来执行的场景;

  3. 数据的副本需要维护在多个不完全互信节点的场景。



本次分享内容会从三个关键的技术维度去对比:事务管理、共识算法和编程范式。从事务管理角度来看,区块链真的很慢吗?其实并不慢。为了性能,大多数数据库的默认事务隔离级别较弱,而 NUS 最新研究表明:当 Isolation Level 设置为最高级别(SERIALIZABLE)情况下,主流分布式数据库的性能和 HyperLedger Fabric 是一个数量级的(400 TPS 左右),单一的这种场景下,传统数据库和区块链相比并没有性能上的绝对优势。


再一个我们来看一下如何实现多版本并发控制,数据库一般有全局时间戳或者序号生成器,每个事务也有自己的序号,可以通过让事务只能读到序号比它序号小的数据版本实现不同事务的隔离。




由于要实现去中心化,区块链一般没有全局序号,而是通过显式的 Reference 关系表达事务之间的“顺序”。比如:比特币中,交易的 Input 指向了其他交易,表达了一种”Happen Before”的语意,HyperLedger Fabric 中,事务需要申明自己的“读写集”,其中,读集的版本是通过(区块高度, 块内序号)二元组引用。


在我们超级链里面的事务模型是 XuperModel,它是基于经典的 UTXO 模型演化而来, 经典的 UTXO 模型只能描述转账场景,而 XuperModel 创新之处在于可以描述更加通用的数据变更。




举个例子,这里有个“计数器”合约,调用一次,Counter 变量就会加一。从上图可以看到,每个事务的 Input 字段有个哈希指针指向其依赖的其他事务的 Output。也就是说,事务的 Input 描述了它读取的变量的旧版本,而 Output 体现了事务一旦成功后会赋予变量的新值。图中,T2 和 T2’这两个事务是冲突的,因为他们的 Input 引用了相同的变量的旧版本,但是输出是赋值同一个变量。最终,T2 和 T2’只能有一笔上链,另外一笔会回滚。



再一个,超级链底层的数据多版本机制实现也与数据库不同。 数据库的一般做法是将逻辑 Key+版本号拼接成物理 Key,但是这个方式只能保留有限个版本,一旦版本太多,就会导致区间查询迭代很慢,因为要 Scan 大量无用的老版本。超级链用了一种链式哈希的多版本接口,在状态树中 Key 对应的 Value 只是哈希指针,指向账本中事务的 Output 字段,要回溯之前的老版本也只需要通过事务的 Input 指针再往前回溯。当需要回滚事务或区块的时候,产生的 IO 开销也极低。



这里再举一个简单的例子,还是刚才那个“计数器”场景。假设 Alice 和 Bob 几乎同时发起合约调用。合约执行到 Get 调用,得到同样的值是 42, 版本也一样是 tx1。然后加一计算得到 43,再分别进行 Set 提交,Alice 先提交的就可以将值更新到 43,版本更新到 tx3,而对于 Bob,虽然运算过程是对的,但是最终提交时候的版本已经过期了,因为其依赖的版本等于 tx1 而现在最新的版本是 tx3,所以就会失败。



我们再看一下共识算法的详细对比,说到共识算法不得不提一下 FLP 原理,原论文发表于 1982 年,大概是说:在异步网络下,多个节点中就算只有一个错误节点,也无法找到确定性的算法保证同时满足 safety 和 liveness。这个 FLP 给大家提供了分布式系统设计的理论指导,而实践中,数据库的共识更多的是牺牲了 liveness 而确保 saftey, 比如 raft。相反地,区块链尤其是公链则是牺牲了 safety 而优先保证 liveness 比如,比特币的交易如果是刚刚上链,那是有一定概率因为分叉被回滚掉的,不够 safety,但是好处是整个系统一直可以提交交易,就算有分叉,最终会通过最长链原则达到一致性。


上面的表格详细对比了数据库 &区块链在容错、选主方式、日志复制、安全和活性等方面的差异,并且区分了公链和联盟链。


下面看一下编程范式对比。数据库领域已经有统一的编程范式,就是 SQL(Structured Query Language),具体实现上有一些方言的差别。区块链的编程范式是智能合约(Smart Contracts),然而其具体的实现千差万别,比较有影响力的是以太坊的 Solidity 语言。




最后来做一下两者未来融合展望。我认为区块链和数据库有融合的契机,我写出来了两种可能,有一种是把区块链作为引擎接入到数据库中, 相当于从底层改造存储引擎实现去中心化的数据库。另外一个方向,区块链借鉴一下数据库好的东西,比如像 SQL,将 SQL 语句翻译为智能合约代码,提升易用性。谢谢大家!


2019-10-24 16:073734

评论 1 条评论

发布
暂无评论
发现更多内容

术,路,心:陈天桥的大脑行旅

脑极体

价值连城 图灵奖得主Yann LeCun 杨立昆的采访 给AI从业者的建议 John 易筋 ARTS 打卡 Week 61

John(易筋)

ARTS 打卡计划

Linux之time命令

入门小站

Linux

聊聊 PC 端自动化最佳方案 - Pywinauto

星安果

Python 自动化 Pywinauto PC

区块链产业正处于繁荣前夜(下)

CECBC

VMware中安装的Ubuntu启动时出现A start job is running for raise network interfaces...

Mike

强强联合!北鲲云与宝德就打造混合云HPC解决方案达成战略合作

北鲲云

命中率高达87%,GitHub收费下载超过28W次的Java面试题库外泄

Java架构师迁哥

极光开发者周刊【No.0827】

极光JIGUANG

在线JSON转HTML工具

入门小站

工具

ShardingSphere UI 初步体验

源码 ShardingSphere

Docker 系列 _ 01_ 一念缘起

编程三昧

Docker 8月日更

SSH免登陆

Mike

架构实战训练营模块六作业

NewBranSTONE

#架构实战营

【得物技术】得物App Android Crash治理演进

得物技术

发展 日志 进程 Crash 崩溃

我为什么坚持六点起床

月哥

区块链溯源:重塑咖啡产业链

CECBC

03. AI就是与人类思考方式相似的计算机程序:从仿生学看人工智能的定义

Databri_AI

人工智能

mycat入门:落地分库分表与读写分离

小鲍侃java

8月日更

区块链产业正处于繁荣前夜(上)

CECBC

区块链蕴含的变革力

CECBC

笔记分享 -- 弱网下的极限实时视频通信

声网

音视频 端到端 极限视频通信 弱网

审计挖掘之CNVD通用漏洞

网络安全学海

黑客 网络安全 信息安全 WEB安全 漏洞挖掘

轻松让你的nginx服务器支持HTTP2协议

程序那些事

Java nginx HTTP 程序那些事 http2

百度地图开发-绘制点线提示框 07

Andy阿辉

android Android 小菜鸟 Android端 8月日更

JavaScript 中 Math.random() 生成随机数据

devpoint

JavaScript 8月日更 math

neo4j 基本概念与入门实例

escray

学习 neo4j 8月日更

ShardingSphere JDBC 语句执行初探

源码 ShardingSphere

死锁终结者:顺序锁和轮询锁!

王磊

Java 死锁 8月日更

解析区块链技术如何帮助企业加速数字转型?

CECBC

如何使用python制作动感炫酷的 动态二维码

4ye

Python 后端 二维码 8月日更

区块链与数据库技术对比及融合展望_区块链_孙君意_InfoQ精选文章