嘉宾 | 王龙 矩阵起源创始人 & CEO
采访 | 王一鹏 InfoQ 主编
作者 | 李冬梅
融合、云原生是最近几年数据库和大数据技术从业者谈及最多的两个关键词。
在过去五年到十年间,以 MySQL、PostgreSQL、Oracle 为代表的 OLTP 数据库,以 GreenPlum、ClickHouse 等为代表的 OLAP 数据库,以及以 Hadoop 为一派的大数据技术三者的应用场景和相互之间的边界非常清晰。但是最近几年,“融合”越来越多地出现在人们视野中。
比如,OLTP 数据库和 OLAP 数据库的边界变得模糊,出现了 HTAP 这样的数据库,而一些新型的数据仓库的技术又与一些实时流处理技术相融合,出现了批流融合等这些新的数据库设计理念。当然,大数据和数据仓库融合的湖仓一体 Lakehouse 架构最近也激起业界的广泛讨论。我们今天所面对的数据种类和数据技术也更加复杂、多元。
本期 C 位面对面,我们有幸邀请到了矩阵起源创始人 &CEO 王龙。他曾在腾讯云担任副总裁,对数据库有着独特的见解和洞察。面对融合、云原生、异构等数据库技术趋势,他的选择是什么?到底什么样的数据库产品是真正适应市场需求且充满生命力的?数据库行业的诸多痛点又该如何解决?
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
创办矩阵起源,这是个值得博一回的时代
云计算、物联网、5G、AI 和元宇宙等概念的兴起打开了创新数据的大门,新场景、新应用以及新基础设施的出现总会对数据库产生新的需求,这些新需求推动着数据库及数据管理系统不断更新、迭代、持续向前。
2022 年,当我们再谈及“数据”一词时已不再仅仅是以 Hadoop 为长期代表的大数据概念了,而是充满无限可能的“新数据”。
狭义上讲,新数据是指两种类型的数据,一种是新的应用、新的场景下产生的与以往数据结构不同的新数据类型;另一种是指新增数据,就是数据结构还和过去一样,只是数据量级上有了明显区别。
广义上讲,数据越来越成为企业数字化转型的核心生产资料。如果仅仅以数据类型(结构化 / 半结构化 / 非结构化)、数据规模(MB/GB/TB/PB/EB)和数据用途来描述数据,已经无法合理高效的存储、处理和使用数据了。随着物理世界数字化进程的加速,这一问题变得更加突出。新的数据需要“新”的定义方式,数据生命周期各个阶段(采集、存储、传输、处理) 最重要的数据特点需要被统一描述和管理起来。例如不同阶段数据成分的差异、不同阶段数据结构的差异、数据和不同业务系统交互需求的差异,这些都需要以全新的方式来对待。类似于很多编程语言的“泛型”概念,“泛数据”也许会成为未来数据的新定义方式。
这样的新需求也必将带来新的创业机遇,在 IT 领域从业近二十年的王龙深知这一点。用他的话说,“天时、地利、人和都凑齐了,是时候博一回了。”
从行业和技术发展层面来讲,一方面,由于智能物联网、无人驾驶、数字孪生、元宇宙等新场景的不断涌现,IT 应用技术又走到了一个新的历史拐点上。另一方面,现有数据库逐渐无法满足公有云、分布式云、私有云等基础设施和 GPU、CPU、ARM 异构计算等技术的迅猛发展,是时候去建设下一代数据库和数据管理系统来应对这些新挑战了。这是天时因素。
从国家政策层面来讲有两个导向性政策非常关键。其一,我国很早就提出了《中国制造 2025》战略,将“智能制造”定位成中国制造业转型的主攻方向。同时也在不断鼓励各行各业拥抱数字孪生、产业互联网的新趋势,加速数字化转型和智能化升级。这是一个不同于之前消费互联网的领域,存在巨大的新机会,中国有着得天独厚的条件和机遇。其二,信创从提出至今,已经进入了推广期,需要自主可控且技术创新型的产品来面对数字化不断加速的各行各业。例如金融行业从 2021 年开始进入了信创的元年。这是地利因素。
从人才和意识层面来讲,我国的 IT 产业在经过了数十年的发展后,已经积累了大量的专业人才和核心技术,而王龙本人在大数据圈子里摸爬滚打了十数年后,对于技术、客户需求以及市场的理解也达到了一个新的高度。这是人和因素。
故变则生事,事则生谋。就这样,2020 年 11 月,王龙从腾讯离职,并在几个月后创办了矩阵起源。作为一个超级“懒”人和极简风格的爱好者,从一开始,王龙对矩阵起源产品的价值主张就十分明确,要简单敏捷、要开箱即用。
市场上那么多数据库,MatrixOne 有什么不一样?
归根结底,矩阵起源想做的是站在时代的前沿,去挖掘下一代数据的特点并服务好这类新数据。
目前国内数据库市场已经有两百多款数据库产品,但并不是所有与数据相关的问题都能得到解决,随着越来越多新场景、新应用的出现,数据以及数据相关的存储、传输和处理技术仍然面临着一系列挑战。
首先,数据的构成和使用方式比以往更加复杂了。很多企业采用现有的数据库技术搭建数据基础能力,在设计的开始没有考虑数据的多样性或者说对后来的变化估计不足。例如对结构化数据、半结构化和非结构化数据的规划和处理,一开始规划部署特定数量的 AP 系统和 TP 系统就可以满足应用要求,而后来需求变化时要做调整却发现已经不可能了,因为这其中可能夹杂着非常复杂的数据处理逻辑和不可估算的数据质量损失。未来的数字原生企业需要一个能真正灵活响应需求变化,能够实时提供不同负载支持能力的数据管理系统。
其次,数据重心再一次发生了摆动。在 2018 年以前,业内普遍的共识是,几朵公有云加上一些私有云就能够处理好全世界的数据。但 2018 年以后,分布式云、边缘云和私有云的概念重返聚光灯下,数据重心从更靠近消费互联网的地方(公有云),向生产端(物联网、边缘云、分布式云)摆动。这样的摆动意味着数据存储和计算的距离以及性价比再次发生了变化。未来的数字原生企业需要一个能够感知和适应这种变化,并提供相应解决方案的数据管理系统。
第三,新场景和新应用对数据处理效率的要求更高。一台无人车一天产生的数据可能超过 2TB,稍微智能一点的生产线每天产生的数据可能是一两百个 GB,要把这么大体量的数据分析、处理后再返回无人车或生产线上时,它对时延和性价比的要求非常高。如何在超低延迟的情况下把数据处理好并交付出满足应用需求的结果,非常具备挑战性。未来的数字原生企业需要一个更加趁手、性价比更超高的数据管理工具。
之所以上述挑战变得越来越重要,最根本的原因是物理世界数字化程度越来越高,企业需要完整、全面、准确和实时的数据管理系统,来支持企业经营的各个环节,例如设计、采购、生产、物流、营销、客户服务和财务等的所有决策。但过往几十年,企业采用不同的软件应用、在不同位置部署应用、开展新的业务,都会引入不同的数据管理系统。这些会形成大量的数据孤岛,使得企业获取完整、全面、准确和实时的数据变成一件不可能的任务。
面对这样的行业痛点,王龙表示,“我们的愿景是希望为数字世界提供简捷强大的数据操作系统,通过一款极简灵活的 MatrixOne 数据库,帮助所有企业和用户简单、敏捷、高效的拥抱数据价值。MatrixOne 的两个关键词:超融合和异构云原生。超融合让数据开发者可以通过一套语言、一套接口来高效访问和使用企业在任意地点和任意系统的数据。异构云原生则通过统一普适的技术架构,大幅降低企业的运维成本和难度。我们定义 MatrixOne 的核心为 HSTAP,它将在当前的数据库融合的技术趋势上更进一步,实现融合中的融合。”
MatrixOne 主要为三种人群提供价值。第一种是针对数据基础设施的运维人员。MatrixOne 通过使用同一个技术框架支持云原生、分布式云、私有云、本地服务器、边缘服务器等多种基础设施,大大降低运维人员的学习成本和运维难度。
第二种是针对数据应用的开发者,希望他们能够以简单、敏捷、统一的方式来处理和使用各种类型、各种来源和各种规模的数据,而无需在不同系统、不同协议和不同编程语言中来回传输数据和切换使用界面。
第三种是针对开源爱好者。现在不同于 20 年前,中国已经有超过 2,000 万信息技术的从业者,里面不乏有理想、有技术实力、愿意去体社会价值的开源爱好者,矩阵起源愿为所有开发者敞开拥抱数据价值的大门。
One size fits all,行得通吗?
随着我国数字化转型进入深水区,许多企业在这个阶段的部署的数据库种类已经非常多且复杂度极高,因为一款数据库要承接企业内部的多个系统,而多个系统中产生的数据类型又是不同的,如何将各个类型的数据连接、打通,是所有企业都会面临的技术痛点。
略显遗憾的是,现在市场上大部分数据库,只能解决某个单一类别的数据。比如时序数据库主要解决的是时序数据的问题,流数据库主要负责物联网数据存储和实时处理,图数据库则主要用来处理图这种数据结构的工具。
想要通过单一一款数据库处理好所有类型的数据,并不是件容易事。因为很多公司会把数据存储和数据处理架构拆分为两套架构,无论是横向或是纵向融合都会对整体架构带来一些挑战。
对此,王龙表示:“我们提供的不是单一一款数据库,甚至不是一个传统意义上的数据库,而是简捷、灵活、强大的数据操作系统,用户将可以使用自动优化器或者手动调节数据存储和计算之间的交互方式,而无需重新安装、部署和运维一套新数据库。对于技术积累很成熟的企业来说,MatrixOne 扮演着类似万金油的角色,可以帮助企业处理新需求,例如新业务需求或者新数据扩容等。对于刚起步的企业来说,MatrixOne 能够为他们提供更灵活的数据管理解决方案,当他们业务发展和变化时,用户无需选择和引入新的数据管理系统或者复杂的各种组件,从而帮助他们节省运维成本、提高企业应对市场的业务敏捷度。”
然而,Every coin has two sides。
能够融合、灵活处理好多种类型的数据固然是 MatrixOne 的最大优势,但优势之外,相比于某一场景下更加垂直的数据库,MatrixOne 会牺牲掉某些能力吗?
面对这样的质疑,王龙坦言,“针对相对固定数据类型和业务变化的数据库经过多年的积累在其领域的表现已经十分优秀,已经得到了相当多客户的认可。但 MatrixOne 为客户提供的价值和其他数据库产品并不是在同一纬度来比较的。如果一些企业的应用场景比较固定,它以某一款更垂直的数据库为核心搭建其数据基础设施技术栈,这能使得收益最大化,这是非常很合理的。但也有很多的用户,他们有着大量的“新数据”也有大量的新需求,他们对数据库的功能灵活性、可扩展性以及更强的端到端性能有更高的要求,那 MatrixOne 对他们而言就是个更好的选择。作为 IT 技术的核心之一,数据库市场的竞争当然会非常激烈,但相信在数千亿规模且高速成长的数据库市场,只要坚持解决用户痛点,为用户创造价值,每个数据库厂商都会有自己的一片空间。”
所以在王龙看来,one size fits all 这件事儿行得通。
开源是做基础软件的必然选择
在明确了产品理念和价值主张后,开源和闭源这两条路摆在了王龙面前。
这几年,受到疫情影响,资本变得谨慎起来。对于很多刚起步的创业公司来说,首先要需要思考的不是如何发展得更好,而是生死存亡问题。
不同的选择意味着不同的结果,在产品最初关于闭源还是开源的选择上,王龙坚定地走向了后者。
用他的话说,“做基础软件,开源是必然选择”。
“开源是社会资源优化配置的一种方式。所谓资源配置就是如何更好地调动、连接各方参与者,以实现多方共赢的目标。而基础软件的发展十分依赖生态去推动,需要有很多人去理解和使用它,开源的天然属性使得它是当前基础软件必然的选择。”
开源的概念最早在 20 世纪 50、60 年代提出,国外最早的开源社区是一群具有极客精神的开发者交流技术的平台,但过去这十年,做开源的人越来越多了,围绕开源孵化出了很多成功的商业化公司,开源的初衷也发生了一些变化。
但开源的本质没有改变,只是换了一种形式,它对供需双方反倒起了很好的促进作用:对于需求方企业和用户来说,他们可以更快地试用开源技术和产品,也能更快、更方便地提供反馈;对于商业公司来说,在企业和用户尝试过该技术后,很有可能升级到企业版去享用商业化公司升级服务,开源让商业公司获得客户的门槛降低了,因此,开源是一个双赢的结局。
对于矩阵起源来说,同样如此。
王龙强调,“矩阵起源的本质是一家数据基础设施 Data Infra 公司,未来 3~5 年,公司将会围绕统一的计算和存储框架不断努力创新,针对未来的“新数据”和新需求提供强大创新的 HSTAP 数据库 MatrixOne。社区和生态对我们来说至关重要,我们希望通过有竞争力的技术能力和开源开放的社区,不断地吸引越来越多的用户、社区开发者和合作伙伴参与到新生态的共建中来。”。
采访嘉宾:
王龙,曾任职腾讯云副总裁,管理数百人的大数据和人工智能团队,从零构建腾讯云 to B 大数据人工智能产品矩阵和商业化体系,三年内完成产品线从百万到十亿级收入的飞跃。王龙之前在美国硅谷和德国慕尼黑工作过,也在北京上海有过创业经历。他具有多年跨国企业级产品建设和商业化经验,对于云计算、大数据、人工智能和多个行业应用场景有着丰富经验和深刻认识。
评论