【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

数据烟囱亟需打破,云原生融合数据库雪中送炭|解读云原生数据库的 2022

  • 2022-12-22
    北京
  • 本文字数:5383 字

    阅读完需:约 18 分钟

数据烟囱亟需打破,云原生融合数据库雪中送炭|解读云原生数据库的 2022

作者 | 郑思宇

采访嘉宾 | 矩阵起源创始人及 CEO 王龙


据 Gartner 预测,到 2025 年,基于云原生平台的数字化业务比例将达到 95%,将带来云原生数据库市场的快速增长。毫无疑问,云原生数据库即将成为云上数据库使用的标准范式。


云原生数据库使得传统数据库得以充分结合云服务的免运维、高弹性、高可扩展、高可用、高性价比优势,又顺应了云端应用大爆发的历史趋势,在过去几年成为 IT 领域的大热门方向,但总体仍处于高速发展的早期阶段。过去一年中,企业对于云原生数据库的使用有哪些需求?云原生数据库厂商又该如何满足这些需求?本文是“2022 InfoQ 年度技术盘点与展望”系列文章之一。我们将带你回顾 2022 年云原生数据库领域的重要动态以及技术进展。在本文写作过程中,特此感谢矩阵起源创始人及 CEO 王龙提供的宝贵观点与洞察。  

云原生数据库领域的挑战和进展

知易行难,数据库从云服务到云原生还有很长的过程


在过去相当长的一段时间里,云服务中被使用最多的是虚拟机,也就是物理服务器在云端的虚拟化服务。IT 用户享受到的好处是最朴素的自服务、免运维、高可用、高弹性、高可扩展性和按使用付费,当然这些都只是在虚拟机和 OS 层面(Infrastructrue as a service)。


为了更好地满足数据库用户的需求,云厂商开始提供数据库服务(Database as a service,DBaas)。为了降低开发成本和用户的学习难度及应用迁移门槛,最早的 DBaaS 大多是基于 IaaS 的数据库运维自动化,本质是传统数据库系统平移到云端的一种全托管服务,用户看到的和使用的数据库,除了在访问 OS 层面有所限制,其他并无二致。


在云计算(IaaS)成为趋势并逐渐成为 IT 行业的标准基础设施之后,上述这种做法导致的问题便浮出水面:


问题一:数据本身的爆炸式增长,数据库无论在物理环境还是云端虚拟环境,都需要具备更高的扩展性和更强悍的性能。传统数据库的架构由于受限于历史原因,本身具有的缺陷和瓶颈在云端则更加明显。例如,进行性能优化和执行调度时,传统数据库在资源有上限的物理环境中更在意资源的使用率,并且需要投入大量精力来考虑 RTO 和 RPO,那么整个系统就会因此增加复杂度。然而,这种复杂度在云端是没必要的,并且会造成巨大的资源浪费和开发投入。


问题二:随着数字化程度的进一步加深,业务敏捷度也成为 IT 系统最关注的核心指标之一,数据库的弹性能力是支撑应用和业务敏捷度最重要的基础能力。基于物理环境设计的传统数据库,即使平移到云端,也无法充分利用云端计算和存储资源的高弹性能力。例如物理环境和云端环境的硬件特性,包括但不限于吞吐量、读写特性、资源部署时间、资源回收时间以及消耗成本,都是不同的。如果没有考虑到这些不同点,就会严重影响数据库实际的弹性能力。


问题三:由于大多数用户在数据库上的预算增长超过其他组件的增长,使其更加看重数据库服务的性价比。然而,多云部署日益流行的今天,每个云厂商的定价策略,计算、存储和网络资源的计价方式和能力表现都有或多或少的差异。如果仅仅将一个传统数据库平移上云,很难基于这些复杂的因素做出最优的判断决策,也无法达到最优性价比。


因此,用户和市场都需要一款能充分利用云端的计算、存储和网络资源特性,具备真正的高弹性、高可用和高性价比优势的数据库,这就是云原生数据库发展的最核心驱动力。要实现这样的目的,一个基于云环境精心设计、打磨的技术架构是不可或缺的。这就需要长期持续的投入,才能对云环境足够的了解并对数据库生态充分适应。

需求多样,云原生数据库需要跟上现代软件应用的步伐


曾经有一种说法是“软件吞噬世界”,暂且不管这种说法是否正确,但物理世界愈发数字化是一个正在发生的事实。过去数十年,数字化的加速催生了数以亿级的软件,包括手机 App、SaaS 等等,这些软件对数据库提出了各种各样的需求,也驱动全球出现了多达数百种不同的数据库。


十几年前,我们就知道数字化进程的一大阻碍就是数据烟囱(Data Silo),其严重制约了企业的智能化和创新能力,并以几何级数提高了企业利用数据的门槛和成本,一直以来都是企业信息化部门最头痛的顽疾之一。然而,随着云计算、软件应用和数据库的蓬勃发展,非但没有使这个顽疾得到缓解,反而变得愈发严重。为了解决这个问题,在过去数年中,IT 从业者做了多种尝试。


第一种,简单粗暴地投入最强硬件,搭载一款数据库支持所有软件应用。目前,这种方式已经越来越少见了,因为纯硬件的纵向扩展能力是有限的,而软件应用的组合和变化是无穷的,大部分客户无法负担成本变成了最主要的阻碍。


第二种,整合多种集中式和分布式数据库系统,使用统一界面给数据和应用开发者提供各种能力和服务,并隐藏其底层管理运维的复杂度,这种方式常常被称作“数据中台”和“数据底座”。


基于过往多年的实践,虽然证明这种形式在某些领域和客户群体中是有其价值的,但在某些场景下便会出现局限性:一方面,当后台需要整合的数据库系统过多,又或者前台的应用变化过快、过于复杂时,它的运维、管理和开发成本增长会陷入失控,且相比第一种方案会带来数据实时处理性能的瓶颈;另一方面,当用户需求相对较小和简单时,使用这种方案又会过于臃肿和复杂,投入产出不成正比。


第三种,一些成熟的数据库厂商退而求其次,如果不能一蹴而就地整合这么多数据库系统,那么可以尝试在现有成熟数据库系统中添加新的能力,来减轻一小部分数据烟囱带来的痛苦。


湖仓一体、批流融合、HTAP 等都是这种思路下的产物,但融合的挑战也是巨大的。拿 HTAP 举例,由于 TP 和 AP 数据库在过去默认就是服务两个不同的应用团队,由不同的数据库管理团队来维护,因此对安全性、资源共享和性能隔离等都有各自的需求。当融合在一起的时候,想要性能完全隔离,就应该使用完全独立的计算和存储资源;想要资源利用最大化,就应该使用共享计算和存储资源;同时想要获得更低的处理时延,就应该只存一份数据;想要各自都有读写极致性能,就应该存多份数据...... 这里有太多矛盾的技术点,要想找到平衡点来解决上述提到的技术矛盾是一件不容易的事情。


当然第三种尝试还有很多其他类型的方案,这里就不一一列举了。在 2022 年,我们也注意到有众多云原生数据库厂商在朝着这个方向演进:


  • Snowflake 在其年度用户大会 Snowflake Summit 2022 上,宣布推出 Unistore 存储引擎,使得用户在 Snowflake 平台上运行 OLAP 的同时也可以确保数据的完整性和一致性,而这是 OLTP 的核心特性之一。

  • 在 2022 re:Invent 大会中,亚马逊云科技发布了一个新服务——“Zero ETL”,其在后台打通了 Aurora 数据库和 Redshift 数据仓库。用户无需自己开发 ETL,就可以轻松地进行数据分析和机器学习,这更像是数据中台和 HTAP 的结合体。

  • 最近刚刚完成 F 轮融资的 SingleStore,也号称其数据库系统能在云上通过结合事务和分析工作负载,消除了性能瓶颈和数据移动,以支持数据密集要求苛刻的工作负载。

  • 国内初创公司矩阵起源提出的“HSTAP”更为彻底, 将 HTAP 进行了重新定义,融入了串联 AP 和 TP 的 Streaming 能力,并完全重新开发了一款云原生的融合性数据库。目标是让企业只用一款数据库,就能覆盖大中小应用系统的的 TP 和 AP 需求,并能用最高性价比的方式建设好数据中台。

放眼未来,云原生数据库还需要关注基础设施和软件应用的新动向


在基础设施层面,其能力也在不断演进。《2021 InfoQ 年度技术盘点与展望》的“架构篇”里提到。在 2021 年,各个云服务商都在不断拓展 Serverless 产品线的能力。在 Web 应用、微服务、事件处理和批处理任务等场景,Serverless 正在成为最流行的架构。在 2022 年,这个趋势依旧在延续,并且还在不断深化,代表企业有亚马逊云科技、阿里云等,这也意味着 Serverless 已经从概念和愿景逐步演进至落地实践。


Serverless 能更好的提供计算资源的弹性和可扩展性,从而提高应用系统的性价比。对于计算成本占比较多的数据库系统来说,是一个不可忽略的重要技术趋势。同时,能否利用好 Serverless 服务也是架构是否云原生的重要指标之一。相比之下,国外企业的上云速度与规模快于国内,其已经累计了大量的云上数据以及应用场景,可以帮助数据库厂商打磨云原生数据库能力。以 Snowflake 为代表的云原生数据库,目前已经到达了收获的阶段,在 Snowflake 公布的 2023 财年第三季度的财务数据显示,Snowflake 第三财季的总营收为 5.57 亿美元,同比增长 67%。而在国内,Serverless 在数据库中还没有得到大规模应用。


离商用化尚有距离的 CXL 也是云厂商关注的热点技术趋势,此外,GPU、FPGA 等异构芯片在云端的使用也在加速增长,这些对数据库的技术演进也会有较大影响。


在软件应用方面,智能制造、机器人、自动驾驶和元宇宙等新应用还在不断成长之中,数据库厂商也需要关注这些领域的需求增长和变化。这些应用场景相关的图数据库、区块链数据库、时序数据库等也在持续迭代。

云原生数据库值得关注的其他方向


虽然云原生数据库所带来的价值不言而喻,但坦白讲,其也很难形成一统天下的局面。


对于金融、政府这类对于合规安全有较高要求或者定制化需求较多的客户来说,私有化数据库部署的需求还是普遍存在的,但这也并不意味着云原生数据库的增长空间会被挤压。随着数字经济时代的到来,金融、政府等机构还有很多个性化的业务依旧需要部署在云上。


那么在这种情况下,混合云架构是很多企业的首选,据 Cisco 发布的报告显示,在全球混合云趋势调查中,82% 的受访者目前使用混合多云架构来支撑其应用程序,并表示混合多云架构能够使组织实现更敏捷和高扩展性的开发环境,同时加速业务敏捷性和创新。


云原生数据库厂商若想帮助这些企业管理好数据,让他们更好地进行降本增效、实现创新,就要求数据库架构既能能兼容不同的公有云,也能够进行私有化部署,并且还要保障云上和云下的用户体验一致,数据可以自由的、低成本流动。这就对云原生数据库提出了更高的要求,既能充分利用云上的资源及其特性,也能高效地利用私有数据中心的资源及其特性。从这个角度来看,数据库云原生的下一步或许会是异构云原生,即数据库无论部署在公有云、私有云、物理服务器上都要有统一的技术架构并且共享调度数据和资源


除此以外,DB 和 AI 的结合也是一些团队正在研究的方向,主要分为 AI for DB 以及 DB for AI 两类。


第一种模式是 AI for DB,即利用 AI 算法帮助 Database 提升产品能力。比如通过分析数据库日志或者视图,得出数据库的性能表现,然后去动态地调整数据库参数,来达到优化数据库性能的目的。此外,还可以在数据库中利用一些 AI 算法来进行内核优化、运维优化等。


另一种模式是 DB for AI,即在非结构化数据日益增多的情况下,为分布式数据库提供 AI 分析的能力。目前来看,由于传统的应用开发工程师、数据分析师与 AI 工程师在企业是分割开的,后者还处于探索阶段。但相信随着数据库人才与 AI 人才的交流,共性的需求会变得越来越多,比如如何对数据做预处理、做初步的建模等等,待这些知识融合到一定程度时,必然会出现一个系统来满足他们的需求。

云原生数据库的选型建议


虽然国内数据库的发展相比国外起步得要晚一些,但凭借着后发优势、业务环境等因素,国内数据库市场也逐渐呈现出百花齐放的态势,粗略判断,目前云原生数据库数量已达到几十甚至上百种。


因此,企业在进行选型时,首先要考虑清楚自身选择云原生数据库的驱动力是什么,既要让云原生数据库的特性与自己的业务类型相结合,又要与自己的团队能力进行匹配,是更看重低运维自治,还是更看重资源的弹性扩展,或者更看重性价比,需求不同往往会做出不同的选择。为了避免踩坑,也需要考虑厂商的技术实力和周边生态支持的能力。


其次,企业在选型时还要做好中长期的规划,绝对不要低估数据烟囱对未来业务的影响。随着企业的发展和数据规模的不断攀升,数据库带来的成本增长会远超于业务应用的成本。如果提前做好规划,在数据库的选型与后续建设中就可以做到游刃有余,将来的数字化道路就会事半功倍。比如,由矩阵起源打造的新一代超融合异构云原生数据库 MatrixOne,便可以帮助用户降低数据的使用难度,提供极简的使用体验,让企业可以将精力从繁杂的技术细节中释放出来,最终达到降本增效的目标。

写在最后


回顾这一年,云原生数据库领域依然在稳健高速的发展中。云原生数据库依然还需要时间来达到成熟,但无论是使用创新架构来更好地使用云上资源,还是融合多种能力更好地服务数据应用,各云原生数据库厂商都在沿着帮助客户降本增效的初心,持续进化中。


采访嘉宾:

王龙,矩阵起源(Matrix Origin)创始人及 CEO。曾任职腾讯云副总裁,管理数百人的大数据和人工智能团队,从零构建腾讯云 to B 大数据人工智能产品矩阵和商业化体系,三年内完成产品线从百万到十亿级收入的飞跃。王龙之前在美国硅谷和德国慕尼黑工作过,也在北京上海有过创业经历。他具有多年跨国企业级产品建设和商业化经验,对于云计算、大数据、人工智能和多个行业应用场景有着丰富经验和深刻认识。


如果你觉得本文对你有帮助,或者你对数据库领域的技术发展有自己的思考,欢迎在文末留言告诉我们!你也可以加入 InfoQ 写作平台撰文发表自己的观点:https://xie.infoq.cn/


【年度技术盘点与展望】专题已发布于 InfoQ 官网,将 InfoQ 添加进收藏夹,精彩不错过。


另外,InfoQ 年度展望直播周将于 2023 年 1 月 3 日首场开播,并持续输出精彩内容,关注 InfoQ 视频号,与行业技术大牛连麦~

2022-12-22 13:289107

评论

发布
暂无评论
发现更多内容

微软云对象存储攻防

火线安全

云原生 云原生应用 云安全攻防 云安全研究

红黑树的原理以及实现

Linux服务器开发

数据结构 B+树 红黑树 Linux服务器开发 Linux后台开发

Cloud RedTeam视角下元数据服务攻防实践

火线安全

云原生 云安全

golang并发控制设计中的“流式模型”

不登山的小鲁

golang

利用Struts拦截器限制上传图片的格式和大小

喀拉峻

网络安全

Python 实现 ZeroMQ 的三种基本工作模式,贼好用的Python学习路线集合

程序媛可鸥

Python 程序员 面试

关于帮助中心,你需要知道的一切

小炮

条码WMS系统与ERP接口实现方法

源字节1号

后端开发 WMS系统 ERP接口

微博评论高性能高可用架构设计

随欣所遇

架构训练营5期

自从用了这个APP,我的身体状况....

IT蜗壳-Tango

极客时间 IT蜗壳

python 列表 remove()函数使用详解,最新手淘Python高级面试题及答案

程序媛可鸥

Python 程序员 面试

尤达 DDD 领域驱动设计思想 第三章作业(识别SmartRM系统货柜机免密支付购物场景里的聚合)

代廉洁

尤达DDD领域驱动设计思想

限时200位免费!网易云信娱乐社交公开课来啦!

网易云信

娱乐社交

一文剖析:LVS/Nginx/HAProxy原理及应用场景

穿过生命散发芬芳

3月月更

大型企业SAP集成WMS系统方案流程

源字节1号

开源 解决方案 后端技术

持续集成引擎篇:K8S与服务自动发布

Docker 架构 k8s 持续集成 jenkins

LabVIEW设计自定义滚动条

不脱发的程序猿

LabVIEW 设计自定义滚动条

腾讯云COS对象存储攻防

火线安全

云原生 云安全 云原生应用

OpenHarmony设备开发环境搭建/源码获取/编译/烧录

拓维信息

OpenHarmony 烧录

《第四期(2021-2022)传统行业云原生技术落地调研报告——金融篇》重磅发布!

York

容器 DevOps 云原生 金融科技 金融行业

使用APICloud平台实现朋友圈功能

YonBuilder低代码开发平台

html5 css3 APP开发 APICloud JavaScrip

欧拉的奇异之旅·共赴开源时代

脑极体

2021物联之星评选结果重磅出炉!AIoT产业核心玩家已经浮现

dgiot

Python 实现七大排序算法,面试竟然被这31道Python基础题难倒了

程序媛可鸥

Python 程序员 面试

低代码如何助力化学材料行业数字化升级?

TOBESOFT特碧软件

低代码 数字化转型 MES系统 制造业 TOBESOFT

2022年,人工智能和数据发展呈现哪五大趋势?

澳鹏Appen

人工智能 机器学习 深度学习 训练数据

OceanBase 在线体验环境,现已上线!

OceanBase 数据库

oceanbase OceanBase 社区版 在线体验站

使用 CachedNetworkImage 实现图片离线缓存

岛上码农

flutter ios Android开发 移动端开发 3月月更

阿里云 OSS对象存储攻防

火线安全

云安全 阿里云;

网络安全 kali Web安全之CSRF攻击

学神来啦

网络安全 CSRF WEB安全 kali kali Linux

低调不了!最佳体验尽在 Erda 2.0 版本

尔达Erda

云计算 云原生 设计 发布 界面改版

数据烟囱亟需打破,云原生融合数据库雪中送炭|解读云原生数据库的 2022_云原生_郑思宇_InfoQ精选文章