HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

数据技术大融合,HSTAP 数据库有多少想象空间?

任朝阳

  • 2022-08-15
    北京
  • 本文字数:3296 字

    阅读完需:约 11 分钟

数据技术大融合,HSTAP数据库有多少想象空间?

目前,HTAP 数据库成为数据库领域最热门的话题之一,Gartner 分析师甚至指出,HTAP 已经成为新一代数据库的入场筹码,HTAP 为什么会火起来?如何实现 HTAP 能力?HTAP 下一步是否会向着超融合 HSTAP 方向演进?整个数据技术栈是否会像十年前 iPhone 整合掉 MP3、手机通信、相机等一样,被一个数据平台整合?本文通过采访相关专家对上述问题进行探讨。


天下大势分久必合合久必分,数据技术亦是如此。


千禧年后随着信息化和数字化发展,数据技术走向繁荣,百花齐放。近年来,随着数字化转型深入,数据价值愈发凸显,数据技术出现了融合趋势。比如,软硬一体,湖仓一体,HTAP 数据库等等。


近两年,我们看到市场上除了火热的 HTAP 数据库,还出现了HSTAP数据库和 HTSAP 数据库的说法,多出来的 S 是什么?是新瓶装旧酒?还是数据技术融合下的新探索?

火热的 HTAP 乱花迷人眼


“在继分布式、NoSQL/NewSQL 之后,国内数据库技术界的当红炸子鸡,非云原生、HTAP 莫属。”去年 DTCC2021 中国数据库技术大会后,一位专家如此写道。


HTAP 是 TP 与 AP 的融合,希望用一套系统,解决用户的 TP 和 AP 需求,这一数据库的融合趋势,不限于中国,在全球都是一样的来势汹汹。比如,2022 年 5 月,Google Cloud 发布了主打 HTAP 的云端数据库 AlloyDB, 6 月,Snowflake 发布了行存储引擎 Unistore,正式进军 HTAP。此前,包括 MySQL 发布 Heatwave,增强分析能力,也是加入了 HTAP 大战。


Gartner 分析师甚至指出,HTAP 已经成为新一代数据库的入场筹码,HTAP 能力成为数据库必备选项。信通院在 7 月中旬也启动了首批“可信数据库”-HTAP 数据库产品评测……


2014 年 Gartner 对 HTAP 数据库给出了明确定义,即需要同时支持 OLTP 和 OLAP 场景,基于创新的计算存储框架,在同一份数据上保证事务的同时支持实时分析,省去费时的 ETL 过程。也就是说,支持混合负载的数据库能够避免传统架构中在线与离线数据库之间大量的数据交互,同时也能够针对最新的业务数据进行实时统计分析。


HTAP 火热的背后是需求推动,越来越多的实时分析场景出现,比如,金融业中对实时性要求较高的风控、实时账单、实时促销等业务场景,以及新一代 Web3.0、NFT、区块链等对实时数据敏感的领域。在原来的架构下只能支持 T+1 或者 T+N 分析,已经不能满足需求,而省去 ETL 的 HTAP 数据库可以实现 T+0 的实时分析。


通常来讲,实现 HTAP 可以分为两大类,第一大类是将现有的 TP 与 AP 包装,通过一些中间件的方式将其连接起来再做封装,以类似中台的方式封装实现。比如,TP 用了 MySQL,AP 用某数据仓库或者数据湖,中间用 Flink 串起来,且对用户透明,包装成一个相对比较统一的管理界面。实现起来容易,但是组件多,成本高。第二大类,融合架构,抛弃现有的 TP 与 AP 独立架构,从底层存储开始就将 TP 与 AP 的引擎融合起来,形成一套系统。为了避免在线实时读写与批处理作业之间的资源干扰,HTAP 混合负载型数据库通常使用读写分离或内存处理技术实现。一般来说,分布式数据库的多副本架构天然支持读写分离技术,而基于传统架构的数据库往往采用内存处理技术进行实现。不过,融合架构下的 HTAP 数据库也是乱花渐欲迷人眼。


矩阵起源 CTO 张颖峰认为,在数字化转型浪潮中,数据库将扮演比以往更为重要的角色,在数据技术融合的大趋势下,现在的 HTAP 还有不足,矩阵起源提出了超融合 HSTAP 数据库的定位,多出来的“S”又是什么?

融合的下一站是 HSTAP?


“为什么要加 S 呢?是指用户使用 TP 和 AP 时的数据结构和能力要求不一定相同,一定要有东西在这两者之间做桥梁。”张颖峰介绍,在挖掘数据价值过程中,数据库是企业数据资产或者数据平台的组成基础,如在一个数据中台中,用户需要基于 OLTP(通常来自业务中台)的表做 ETL 工作,Join 成宽表保存到 OLAP 用来做交互式分析。为什么要有宽表呢?这有两方面的原因:其一是分析师建模方便,其二是增加许多维度字段,提升查询效率。在这种场景下,以 Flink 为核心的数据流处理,成为了串起上下游的核心引擎,而其中的典型操作,就是 Stream Join,把多个表实时连接成一张表保存到目标数据库,进一步资产化。单纯的 HTAP,通常只能用于实时分析,无法满足这种通用场景的要求。


矩阵起源所提的 HSTAP 中的“S”指的是串联 AP 和 TP 的 Streaming 能力,即在 HTAP 数据库内部实现了数据库内置流处理能力。通过一种创新的架构实践极简理念,把数据库的复杂度留给产品的研发阶段,而把简单、易用、好用的最终体验带给用户。


“我们定义的 HSTAP 是指,在这个平台里面,无论是 TP 还是 AP 负载,用户都可以随心所欲地去创建各种表,也可以随心所欲用一个流,用类似于流的语法,把各种表连起来。”张颖峰强调。比如用户希望对订单明细表进行分析,需要 Stream Join 成一张宽表。那么,随着有订单明细表的数据更新,宽表也将自动更新,但是不用维护该更新机制。即把用户的 ETL 工作内置到数据库当中,这样就让一个数据库同时具备 AP、TP 和 S(流)的能力。


在矩阵起源团队看来,当下的数据栈,包括数据库、数据仓库、数据湖,这些本身就不应该如此割裂。之所以割裂,这里面有技术的因素,也有历史因素,同时具备 TP、AP、流三者能力的 HSTAP 会帮助客户彻底打破数据孤岛问题,成为企业将来的智能化核心数据基础设施。“HTAP、流批一体、湖仓一体,这些新的技术趋势都可以包含在 HSTAP 的范畴内。”张颖峰指出。


有人对此会有疑问,HTAP 还没有做好,去做 HSTAP 不是天方夜谭、痴人说梦吗?


矩阵起源 Global CTO 田丰指出,实现一个 HSTAP 有两方面的挑战,一是架构方面的取舍。使用一款开源和成熟的数据库来扩展,会比较稳定而且容易快速推出产品,但有非常沉重的历史包袱,无法应对未来新型应用和基础设施的需要,因此 MO(MatrixOne 缩写)决定自己从头开始研发。 二是如何实现不同负载的资源隔离以及高效的资源分配。在这一点上,MO 创新性的提出了储存、计算和事务分层解耦的架构,使得资源分配可以随着各种负载的变化高效分配,并可以做到单种负载的独立扩展。


▲MatrixOne 愿景架构图


去年成立的矩阵起源,其核心创始团队成员都是数据库领域的资深人士,公司创始人&CEO 王龙,曾在腾讯云担任副总裁,对数据库有着独特的见解和洞察。Global CTO 田丰博士师从数据库元老 David DeWitt,多篇论文入选数据库顶会 SIGMOD、VLDB。公司 CTO 张颖峰经历过互联网大厂,并在大型企业担任过技术负责人,深耕后端分布式存储等技术,既懂甲方也懂乙方。去年该公司接连获得两轮融资,获得资本的青睐。


从信息化到数字化,几十年来,数据技术栈不断丰富,从数据库、数据仓库、数据湖、湖仓一体,到流处理引擎 Flink、批处理引擎 Kafka 等,由于技术以及历史发展等多种原因,很多企业都以搭积木的形式积累了丰富的 IT 资产。如今数据技术走向了大融合,比如湖仓一体、HTAP,以及矩阵起源提出的 HSTAP。很像十年前,iPhone 智能手机的出现融合了通信、音频 MP3、视频 MP4、相机等。如今,MP3 已经消失,MP4 演化为 iPad 等继续活跃,便捷的智能手机替代了大部分专业相机和 MP3 的使用场景。


数据技术的超融合是否会像智能手机一样发生?


田丰认为,像智能手机一样,未来企业数据平台的融合是一个趋势,现在一个企业可能有 MySQL、SQLite、Oracle、Spark、Flink、Clickhouse 等多种数据库或者数据处理技术,而在未来一个公司所有数据或者大部分数据都会集中在一个整合的、简单易用、易运维、高性价比的数据平台上,最大程度保证数据的安全和可靠,同时降低应用开发和管理的难度以及复杂度。不过由于过去数十年很多大企业已经积累了十几种甚至更多的 IT 系统,整合的过程是漫长和曲折的。矩阵起源希望并相信 MatrixOne 这样的超融合数据库会是一个理想的载体。


相比于消费级的智能手机,作为数字基础设施的数据库,其替换难度和成本都太高。而且没有任何一套架构或者一套系统能够打遍天下,企业也不希望系统过重造成供应商锁定。田丰强调,MatrixOne 并不是封闭的,而是会积极融入到开放的数据技术生态中,比如企业已经部署了 Flink 计算引擎,MatrixOne 会与之适配。但企业新建一个业务系统,MatrixOne 会是好的选择。正是因为秉持开源开放的原则,MatrixOne 从一开始便选择了开源。


一个好的数据库是用出来的,数据技术融合趋势不可挡,HSTAP 这个新理念未来会在更多实际场景中验证、发展和成长。

2022-08-15 09:003425

评论 1 条评论

发布
用户头像
太理想了,总有人想一个产品、一套架构打天下,现实总是打脸
2022-08-18 08:49 · 广东
回复
没有更多了
发现更多内容

【TiDB 社区第三届专栏征文大赛】TiDB 在单机上模拟部署生产环境集群

TiDB 社区干货传送门

版本测评 安装 & 部署 8.x 实践

星辰资讯:TiDB v8.1.0 发版!稳!

TiDB 社区干货传送门

新版本/特性解读 8.x 实践

小梅西、狮子哥和Tidb升级赛跑记

TiDB 社区干货传送门

性能测评 新版本/特性解读 6.x 实践 7.x 实践 8.x 实践

如何使用GPT-4o?GPT-4o 有什么新功能?如何使用 GPT-4o API?如何升级GPT4Plus?

蓉蓉

openai GPT-4 gpt4o

精彩回顾!月之暗面安全实践思考分享

云起无垠

Aloudata 重磅发布《NoETL 开启自动化数据管理新时代》白皮书

Aloudata

数据管理 noetl

深入剖析 Kubernetes 原生 Sidecar 容器

Se7en

黑客恢复被遗忘的比特币钱包

区块链开发团队DappNetWork

百度网盘推出「漫画头像」AI生成创意功能

科技热闻

win版Atlantis Word Processor(文字处理器) v4.3.10.3 注册版

iMac小白

PDF Shaper Professional / Premium(PDF转换软件) v14.2 激活版

iMac小白

墨天轮《2023年中国数据库行业年度分析报告》正式发布!

墨天轮

人工智能 数据库 时序数据库 图数据库 向量数据库

TiDB 迁移升级思考

TiDB 社区干货传送门

版本升级 管理与运维 应用适配 7.x 实践

RUM是什么?它能解决什么问题?

乘云数字DataBuff

前端监控 可观测性 RUM

win版dBpoweramp Music Converter 2024(音频转换器) 2024.05.30 直装版

iMac小白

技术分享 | SpringBoot 流式输出时,正常输出后为何突然报错?

LigaAI

spring 大模型 java 问题分析及解决 企业号 2024年5月 PK 榜

win版Broadgun pdfMachine Ultimate(PDF编辑办公软件) v20.21 注册版

iMac小白

win版Binary Ninja Personal (逆向编译调试) v4.0.5336特别版

iMac小白

一文对比 Amazon Aurora 与 TiDB

TiDB 社区干货传送门

数据库架构选型 数据库架构设计

TiDB Vector + Dify 快速构建 AI Agent

TiDB 社区干货传送门

实践案例 应用适配 数据库前沿趋势

TiUP 源码初探

TiDB 社区干货传送门

集群管理 管理与运维 安装 & 部署 TiDB 源码解读

快速入门:使用 JavaScript 读取文件的最佳实践

Apifox

JavaScript 程序员 前端 Web 读取文件

win版Canvas X Draw 20(矢量图形编辑软件) v20 Build 914特别版

iMac小白

和鲸“101数智领航计划”——在武大解码 GeoAI,地理空间智能(GeoAI)学术研讨会及编程工作坊圆满落幕

ModelWhale

人工智能 遥感影像 气象预测 地球科学 地理空间智能

win版PDF Extra Ultimate(专业pdf办公软件) v9.30中文版

iMac小白

反向代购系统搭建|逆向海淘平台搭建|对接淘宝京东1688微店拼多多等国内平台货源

tbapi

淘宝代购系统 逆向淘宝代购系统 海淘系统

深入揭秘 TiDB LTS v8.1.0:为何这次更新是数据管理者的福音?

TiDB 社区干货传送门

8.x 实践

Charles抓包神器:深度解析网络数据传输的秘密

测吧(北京)科技有限公司

测试

win版VCartoonizer(卡通特效制作软件) v2.3.6 特别版

iMac小白

快速上手TiDB,体验全新的一栈式实时HTAP数据库

TiDB 社区干货传送门

安装 & 部署

TiDB多数派节点故障恢复指南

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 6.x 实践

数据技术大融合,HSTAP数据库有多少想象空间?_数据库_InfoQ精选文章