QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

数据技术大融合,HSTAP 数据库有多少想象空间?

任朝阳

  • 2022-08-15
    北京
  • 本文字数:3296 字

    阅读完需:约 11 分钟

数据技术大融合,HSTAP数据库有多少想象空间?

目前,HTAP 数据库成为数据库领域最热门的话题之一,Gartner 分析师甚至指出,HTAP 已经成为新一代数据库的入场筹码,HTAP 为什么会火起来?如何实现 HTAP 能力?HTAP 下一步是否会向着超融合 HSTAP 方向演进?整个数据技术栈是否会像十年前 iPhone 整合掉 MP3、手机通信、相机等一样,被一个数据平台整合?本文通过采访相关专家对上述问题进行探讨。


天下大势分久必合合久必分,数据技术亦是如此。


千禧年后随着信息化和数字化发展,数据技术走向繁荣,百花齐放。近年来,随着数字化转型深入,数据价值愈发凸显,数据技术出现了融合趋势。比如,软硬一体,湖仓一体,HTAP 数据库等等。


近两年,我们看到市场上除了火热的 HTAP 数据库,还出现了HSTAP数据库和 HTSAP 数据库的说法,多出来的 S 是什么?是新瓶装旧酒?还是数据技术融合下的新探索?

火热的 HTAP 乱花迷人眼


“在继分布式、NoSQL/NewSQL 之后,国内数据库技术界的当红炸子鸡,非云原生、HTAP 莫属。”去年 DTCC2021 中国数据库技术大会后,一位专家如此写道。


HTAP 是 TP 与 AP 的融合,希望用一套系统,解决用户的 TP 和 AP 需求,这一数据库的融合趋势,不限于中国,在全球都是一样的来势汹汹。比如,2022 年 5 月,Google Cloud 发布了主打 HTAP 的云端数据库 AlloyDB, 6 月,Snowflake 发布了行存储引擎 Unistore,正式进军 HTAP。此前,包括 MySQL 发布 Heatwave,增强分析能力,也是加入了 HTAP 大战。


Gartner 分析师甚至指出,HTAP 已经成为新一代数据库的入场筹码,HTAP 能力成为数据库必备选项。信通院在 7 月中旬也启动了首批“可信数据库”-HTAP 数据库产品评测……


2014 年 Gartner 对 HTAP 数据库给出了明确定义,即需要同时支持 OLTP 和 OLAP 场景,基于创新的计算存储框架,在同一份数据上保证事务的同时支持实时分析,省去费时的 ETL 过程。也就是说,支持混合负载的数据库能够避免传统架构中在线与离线数据库之间大量的数据交互,同时也能够针对最新的业务数据进行实时统计分析。


HTAP 火热的背后是需求推动,越来越多的实时分析场景出现,比如,金融业中对实时性要求较高的风控、实时账单、实时促销等业务场景,以及新一代 Web3.0、NFT、区块链等对实时数据敏感的领域。在原来的架构下只能支持 T+1 或者 T+N 分析,已经不能满足需求,而省去 ETL 的 HTAP 数据库可以实现 T+0 的实时分析。


通常来讲,实现 HTAP 可以分为两大类,第一大类是将现有的 TP 与 AP 包装,通过一些中间件的方式将其连接起来再做封装,以类似中台的方式封装实现。比如,TP 用了 MySQL,AP 用某数据仓库或者数据湖,中间用 Flink 串起来,且对用户透明,包装成一个相对比较统一的管理界面。实现起来容易,但是组件多,成本高。第二大类,融合架构,抛弃现有的 TP 与 AP 独立架构,从底层存储开始就将 TP 与 AP 的引擎融合起来,形成一套系统。为了避免在线实时读写与批处理作业之间的资源干扰,HTAP 混合负载型数据库通常使用读写分离或内存处理技术实现。一般来说,分布式数据库的多副本架构天然支持读写分离技术,而基于传统架构的数据库往往采用内存处理技术进行实现。不过,融合架构下的 HTAP 数据库也是乱花渐欲迷人眼。


矩阵起源 CTO 张颖峰认为,在数字化转型浪潮中,数据库将扮演比以往更为重要的角色,在数据技术融合的大趋势下,现在的 HTAP 还有不足,矩阵起源提出了超融合 HSTAP 数据库的定位,多出来的“S”又是什么?

融合的下一站是 HSTAP?


“为什么要加 S 呢?是指用户使用 TP 和 AP 时的数据结构和能力要求不一定相同,一定要有东西在这两者之间做桥梁。”张颖峰介绍,在挖掘数据价值过程中,数据库是企业数据资产或者数据平台的组成基础,如在一个数据中台中,用户需要基于 OLTP(通常来自业务中台)的表做 ETL 工作,Join 成宽表保存到 OLAP 用来做交互式分析。为什么要有宽表呢?这有两方面的原因:其一是分析师建模方便,其二是增加许多维度字段,提升查询效率。在这种场景下,以 Flink 为核心的数据流处理,成为了串起上下游的核心引擎,而其中的典型操作,就是 Stream Join,把多个表实时连接成一张表保存到目标数据库,进一步资产化。单纯的 HTAP,通常只能用于实时分析,无法满足这种通用场景的要求。


矩阵起源所提的 HSTAP 中的“S”指的是串联 AP 和 TP 的 Streaming 能力,即在 HTAP 数据库内部实现了数据库内置流处理能力。通过一种创新的架构实践极简理念,把数据库的复杂度留给产品的研发阶段,而把简单、易用、好用的最终体验带给用户。


“我们定义的 HSTAP 是指,在这个平台里面,无论是 TP 还是 AP 负载,用户都可以随心所欲地去创建各种表,也可以随心所欲用一个流,用类似于流的语法,把各种表连起来。”张颖峰强调。比如用户希望对订单明细表进行分析,需要 Stream Join 成一张宽表。那么,随着有订单明细表的数据更新,宽表也将自动更新,但是不用维护该更新机制。即把用户的 ETL 工作内置到数据库当中,这样就让一个数据库同时具备 AP、TP 和 S(流)的能力。


在矩阵起源团队看来,当下的数据栈,包括数据库、数据仓库、数据湖,这些本身就不应该如此割裂。之所以割裂,这里面有技术的因素,也有历史因素,同时具备 TP、AP、流三者能力的 HSTAP 会帮助客户彻底打破数据孤岛问题,成为企业将来的智能化核心数据基础设施。“HTAP、流批一体、湖仓一体,这些新的技术趋势都可以包含在 HSTAP 的范畴内。”张颖峰指出。


有人对此会有疑问,HTAP 还没有做好,去做 HSTAP 不是天方夜谭、痴人说梦吗?


矩阵起源 Global CTO 田丰指出,实现一个 HSTAP 有两方面的挑战,一是架构方面的取舍。使用一款开源和成熟的数据库来扩展,会比较稳定而且容易快速推出产品,但有非常沉重的历史包袱,无法应对未来新型应用和基础设施的需要,因此 MO(MatrixOne 缩写)决定自己从头开始研发。 二是如何实现不同负载的资源隔离以及高效的资源分配。在这一点上,MO 创新性的提出了储存、计算和事务分层解耦的架构,使得资源分配可以随着各种负载的变化高效分配,并可以做到单种负载的独立扩展。


▲MatrixOne 愿景架构图


去年成立的矩阵起源,其核心创始团队成员都是数据库领域的资深人士,公司创始人&CEO 王龙,曾在腾讯云担任副总裁,对数据库有着独特的见解和洞察。Global CTO 田丰博士师从数据库元老 David DeWitt,多篇论文入选数据库顶会 SIGMOD、VLDB。公司 CTO 张颖峰经历过互联网大厂,并在大型企业担任过技术负责人,深耕后端分布式存储等技术,既懂甲方也懂乙方。去年该公司接连获得两轮融资,获得资本的青睐。


从信息化到数字化,几十年来,数据技术栈不断丰富,从数据库、数据仓库、数据湖、湖仓一体,到流处理引擎 Flink、批处理引擎 Kafka 等,由于技术以及历史发展等多种原因,很多企业都以搭积木的形式积累了丰富的 IT 资产。如今数据技术走向了大融合,比如湖仓一体、HTAP,以及矩阵起源提出的 HSTAP。很像十年前,iPhone 智能手机的出现融合了通信、音频 MP3、视频 MP4、相机等。如今,MP3 已经消失,MP4 演化为 iPad 等继续活跃,便捷的智能手机替代了大部分专业相机和 MP3 的使用场景。


数据技术的超融合是否会像智能手机一样发生?


田丰认为,像智能手机一样,未来企业数据平台的融合是一个趋势,现在一个企业可能有 MySQL、SQLite、Oracle、Spark、Flink、Clickhouse 等多种数据库或者数据处理技术,而在未来一个公司所有数据或者大部分数据都会集中在一个整合的、简单易用、易运维、高性价比的数据平台上,最大程度保证数据的安全和可靠,同时降低应用开发和管理的难度以及复杂度。不过由于过去数十年很多大企业已经积累了十几种甚至更多的 IT 系统,整合的过程是漫长和曲折的。矩阵起源希望并相信 MatrixOne 这样的超融合数据库会是一个理想的载体。


相比于消费级的智能手机,作为数字基础设施的数据库,其替换难度和成本都太高。而且没有任何一套架构或者一套系统能够打遍天下,企业也不希望系统过重造成供应商锁定。田丰强调,MatrixOne 并不是封闭的,而是会积极融入到开放的数据技术生态中,比如企业已经部署了 Flink 计算引擎,MatrixOne 会与之适配。但企业新建一个业务系统,MatrixOne 会是好的选择。正是因为秉持开源开放的原则,MatrixOne 从一开始便选择了开源。


一个好的数据库是用出来的,数据技术融合趋势不可挡,HSTAP 这个新理念未来会在更多实际场景中验证、发展和成长。

2022-08-15 09:003540

评论 1 条评论

发布
用户头像
太理想了,总有人想一个产品、一套架构打天下,现实总是打脸
2022-08-18 08:49 · 广东
回复
没有更多了
发现更多内容

怎么拥有个人磁力

帅安技术

IP 个人磁力 KOL 思想 吸引力法则

使用JavaScript解析XML文件

空城机

JavaScript xml 大前端 递归 4月日更

Coinbase上市,对加密市场将带来哪些影响?

CECBC

货币

函数计算助力语雀构建稳定且安全的业务架构

阿里巴巴中间件

文档 企业架构和云服务 业务架构

云原生技术及可观测实践

滴滴云

浅谈 MySQL 集群高可用架构

民工哥

MySQL MySQL 高可用 集群 linux运维

专访中寰卫星导航项目管理部负责人卜钢:如何演绎人生之路

打工人!

采访 调查采访能力考核

一个极简的冲突管理工具

石云升

28天写作 职场经验 管理经验 4月日更 冲突管理

2年进入苏宁,第5年入职阿里,专科学历的他是如何做到?

Java架构师迁哥

不愧是阿里内部“Spring Cloud Alibaba学习笔记”这细节讲解,神了!

Java架构追梦

Java 阿里巴巴 架构 微服务 SpringCloud

曾国藩:人生惟有常是第一美德

帅安技术

曾国藩 坚持 有常 天赋 成事心法

Vue3、Vuex4、Ant Design2的实战项目开发管理系统

devpoint

vite Vue3 and design of vue

我常用的两个外国应用

彭宏豪95

产品 产品经理 工具 社交 Slack

区块链技术重新定义 物联网的物与物之间的交易

CECBC

发展空间

你管这破玩意叫哨兵?

Java 数据库 redis 程序员 架构

隐私安全的城池营垒,能成为手机品牌高端化的赛点吗?

脑极体

函数计算助力高德地图平稳支撑亿级流量高峰

阿里巴巴中间件

1分钟搞定 Nginx 版本的平滑升级与回滚

民工哥

nginx 后端 linux运维

不想搞Java了,4年经验去面试10分钟结束,现在Java面试为何这么难

Java 编程 程序员 面试 计算机

json基础学习

ベ布小禅

4月日更

接口的幂等性怎么设计?

xcbeyond

设计 幂等性 4月日更

金融科技数据链的DNA

博睿数据

金融科技 博睿数据 数据链DNA

重读《重构2》- 改变函数声明

顿晓

重构 4月日更

聊聊十种常见的软件架构模式

架构精进之路

4月日更

从被踢出局到5个30K+的offer,一路坎坷走来,沉下心,何尝不是前程万里

北游学Java

Java 数据库 分布式 微服务

mosquitto支持websocket搭建记录

风翱

4月日更 web socket mosquitto

学会这15点,让你分分钟拿下Redis数据库

民工哥

后端 linux运维 redis cluster

智慧城市现状调研

程序员架构进阶

华为 智慧城市 28天写作 4月日更

中国数字人民币试点有序扩大至“10+1” 拜登政府正加强研究数字人民币计划

CECBC

数字货币

云存储中不可不知的五个安全问题及应对措施

云计算

阿里内部热捧“Spring全线笔记”,不止是全家桶,太完整了

Java架构追梦

Java spring 源码 架构 微服务

数据技术大融合,HSTAP数据库有多少想象空间?_数据库_InfoQ精选文章