10 月 26 日,由北京四维纵横数据技术有限公司自主研发的超融合数据库YMatrix 5.0正式发布。
不同于传统以及专用数据库产品,YMatrix 实现了“一库多用”,可以支持各类传统及新兴数据场景,广泛支持多种数据类型,包括关系、时序、GIS、JSON、文本、图片数据等,也能满足包括机器学习、高级查询在内的全场景数据管理和复杂分析需求。
YMatrix 创始团队曾在全球排名 Top3 的 Greenplum 工作多年,是分析型数据库领域少见的世界级完整建制团队。创始人姚延栋所带领团队有大量服务全球 500 强企业的经验,对企业级数据库产品的需求、研发和应用有深刻理解。
从第一行代码到 5.0 版本,仅两年时间,公司已获得累计近 2 亿元人民币的 4 轮融资,股东包括晨山资本、顺义产业基金、某头部云厂商、东方富海、中科创星、清华启迪等。
此次产品发布会上,YMatrix CEO 与创始人姚延栋分享了超融合数据库的发展趋势,以及万物智联场景下数据库的最佳形态。另外,杭州自动化技术研究院院长徐赤、小米智能制造软件产品部负责人封杨博士、三一重工泵送研究院泵诵云平台大数据负责人褚凤天,也参与了此次发布会,分别从工厂数字化、智能制造和工业互联网、智能设备运维等不同应用场景角度,分享了他们对下一代数据库的需求和理解。
专用数据库 vs. 超融合:下一代技术栈的竞赛
下一个时代,是万物智联和数智化转型的时代。那么,作为数字基石之一的数据库应该是什么样的?
过去 20 年间,互联网飞速发展,为了应对不断升级、升维的数据环境,涌现了很多优秀的产品,或是功能强大,或是性能惊艳,或是易用性极佳。然而,用户选择时,功能、性能、易用性似乎构成了一个”不可能三角”,总是需要权衡和取舍。
为了应对新增的需求,用户不得已的选择是不断叠加,先一个个叠加新的专用数据库产品,再叠加运维不同产品的专业化团队。最终造成的困境,杭州自动化技术研究院院长徐赤将其总结为“难、混、乱、散”:
每出现一个新需求,就要叠加一个新产品,从选型、试点到验证,少则一两个月,多则半年甚至一年,堪比“炼狱”。由于目标混沌、路径混乱、缺少核心系统,数据总是呈现散乱并难以整合的状态。
最后导致的直接结果就是“用户成本高“、”需求难以满足、痛点永远存在”。
对此,徐赤在发布会上表示,在过去以专用类产品为主流的市场中,服务商忙着生产孤岛、企业忙着购买孤岛,工程师们忙着打通孤岛,循环往复,永无止境。而且,这样强行耦合的结构,牵一发动全身,非常不稳定。
YMatrix 创始人姚延栋介绍,作为数据库人,成立团队的初心,就是想从用户需求出发,做一款通用性强的产品,而不是和大多同行一样,开发专用数据库产品,继续一个问题接一个问题,只解决当下问题。
据了解,在国际市场上,类似 YMatrix 这样具备 “超融合”特性的产品,已经成为了近年的研发趋势。
海外市场,Snowflake 和 Databricks 曾先后提出 “one data platform”理念;传统数据库头把交椅的 Oracle 也在走向融合方向;对复杂新兴场景需求更加熟悉的时序数据库大佬 InfluxDB 和 TimescaleDB,也先后启动了新一代融合型数据库的研发,对比大厂采取了更为激进的策略。
国内市场中,YMatrix 率先提出超融合数据库概念,在 2020 年完成了相应产品的研发;目前也有少数创业公司试水,从专用产品出发,研发符合新一代融合理念的产品。
如何定义一款优秀的“超融合”数据库产品?
首先,回到用户需求。
小米智能制造软件产品部负责人封杨博士是这么定义的:以工业互联网场景为例,其本质是以“数据”为核心要素,企业实现全面连接。企业经营者的核心诉求,是如何最大化利用数据智能,为企业经营带来看得见的价值。
再向上一层,则是跨过每个企业的微观需求,在垂直产业或多个产业交叉的维度,构建起全要素、全产业链、全价值链融合的新制造体系和新产业生态。
为了实现这个目标,需要搭建一个闭环的数据链条。在企业内到企业外,从采集、诊断、预测到智能决策,实现全环节覆盖。依赖优化后的结果,可以更及时、更准确的做商业决策,比如确定一个月后生产什么,需要提前备好多少原材料,技术工艺能怎么调优,等等。
封杨博士介绍,从企业级用户的角度来看,代表最先进生产力的产品,首先应该是极致简单的,最好是一个顶 N 个,能降低企业的财务、人力、学习成本;其次,要好用易用,因为制造场景采集的数据类型五花八门,不同数据类型的交叉分析、应对业务诉求的复杂分析也是层出不穷。
对此,姚延栋进一步解释,“用户并不关心什么 TP、AP、湖仓、批流,他们想要的就是一个强大的数据库,能接入所有数据,做得了各种各样的分析。有数据就可以往里写,想用的时候随时用,允许他们把精力放在数据价值上,而不是数据库上。所以,行业内曾热烈讨论的湖仓之分、批流之分,只会是阶段性产物”。
“使用 YMatrix,用户只需要做一次选型,运维一个产品,就可以支持所有数据类型,满足所有可能的需求。每次新需求出现时,只需要考虑在 YMatrix 中怎么实现。这大大降低了选型成本和开发运维成本”,姚延栋介绍。
“企业内很难有精通不同产品的通才,所以厂商应该把复杂度处理掉,把简单应用给到我们用户,这样既省钱,又省心省力”,封杨博士表示在应用 YMatrix 的超融合产品后,相当于实现了“无缝集成”,仅仅需要管理“1 个极致轻松的数仓建设团队+1 个极致专注的工业算法团队”。
三一重工泵送研究院泵诵云平台大数据负责人褚凤天表示,“使用高效的产品,可以大量释放出精力和创造力,让团队聚焦工厂运营、设备管理、工艺调优等更有价值的工作”。
“以常见的堵管故障为例,以前总是很难明确堵管的真实原因,现在可以在库内通过批量的算法,在采集到的工矿数据上,更好的定位原因,提升服务水平,降低客户投诉率”,褚凤天介绍,“在尝试从制造企业向服务型企业升级的过程中,数据能力会是重点之一,直接决定了服务水平和盈利水平” 。
性能突破,是超融合价值放大的必要前提
在数据库行业,性能似乎是一个永远有吸引力的话题。
性能数据直观,谁高谁低,谁强谁弱,一目了然。最近,很多数据库厂商都开始性能打榜打擂。姚延栋对此表示,“这是好事,说明技术在进步。但是,仅仅在某个场景下实现性能快 20%-30%,甚至 1 倍,是很难赢得客户的。客户需要的是铁人三项,甚至是十项全能” 。
“在 YMatrix 团队内部,我们关注全场景性能表现,包括写入能力、时序查询能力、单表 OLAP 分析、多表关联 OLAP 分析、Machine Learning 性能以及 OLTP 能力等诸多方面”,姚延栋介绍,“性能加持下的超融合,才是真正的超融合,才能给用户提供价值” 。
目前,YMatrix 在生产场景下的写入速度实现了 1.52 亿数据点/秒。通常一个工厂的数据点大概在 10 万点以内,1.52 亿是该场景规模的 1500 倍,哪怕是对写入能力要求最高的时序场景,也可以轻松满足其高并发、低延迟的写入需求。
此外,对比时序数据库独角兽 TimescaleDB,查询耗时是 YMatrix 的 5.1 倍;对比知名 OLAP 数据库产品 Clickhouse,YMatrix 在 SSB 基础测试上快 27%;对比 MPP 数据库主流厂商 Greenplum,YMatrix 在多表关联分析场景上实现了数倍的性能提升;对比全球流行的开源大数据平台 Spark,YMatrix 在机器学习场景上的性能是其 8 倍;在 Intel 实验室的 TPC-B 国际标准测试中,YMatrix 主键查询 tps 高达 160 万,数十倍于绝大多数产品。
对于性能优化的重要性,三一重工褚凤天表示,“最直接的体现就是提高运行速度,我们可以更快速的反应,大大提高了运维团队的效率”。
姚延栋介绍,此次发布的 YMatrix 5.0 版本,还包含了多至 138 项的性能优化,特别是针对写入和分析等重点领域,进行了深度的指令级优化。
在易用性方面,YMatrix 设计了用户体验极佳的图形化 installer,只需 10 分钟左右就可以完成数据库集群的搭建。同时,为了降低初学者的学习曲线,YMatrix 提供了 on boarding 功能,用户可以在 3 分钟内体验一个完整的 IoT 场景,包括数据写入和查询分析。
目前,YMatrix 已经获得了从创业公司到大型企业的认可,其中有超过万亿市值的行业龙头企业,包括宁德时代、比亚迪等,以及世界 500 强企业,包括小米、三一重工等。
“后续,YMatrix 会在已经存在海量需求的时序场景深耕,尝试替代传统数据库和专用类产品”,创始人姚延栋介绍,“数据量大、指标量多的车联网、智能制造、智慧能源、智慧城市、智慧园区、智慧医疗等场景会是重要方向。这些场景所产生的业务需求,将最大化体现超融合产品的价值”。
评论