Gartner 最近发表的一篇博文,引起了我们 Altinity 的注意。标题是《数据库管理系统的未来就是云计算!》(The Future of Database Management Systems is Cloud!),这篇博文还宣称,现在公用云就是管理数据的默认平台。不过,这一说法听起来并不那么耸人听闻。这篇博文基于 Donald Feinbert、Merv Adrian 和 Adam Ronthal 的研究,他们都是在数据库管理系统(DBMS)市场有长期经验的行业资深人士。
有趣的是,这篇博文还进一步提出了两个值得反复推敲的观点。
就数据库管理系统而言,新的创新现在只出现在云端中,或者至少首先出现在云端上。如果你不使用云计算的话,那么你就会错过尝试这些创新的机会。
避免资本支出而倾向于运营支出的定价模式正在推动这一转变。换言之,这是一个由基础经济学推动的长期趋势,因此,我们可以预期这种趋势将会持续下去,甚至可能会随着时间的推移而加剧。
这些说法充其量只是误导。如果你正在设计用于管理数据的系统,那么,只看表面价值的话,可能会导致严重的战略失误。你还可能会错过具有竞争力的技术,而且还限制了你企业的盈利能力。
我们将这个论点限制在 Gartner 研究的公开摘要中,这样你就可以自己阅读了。现在让我们来看一下事实真相。
开源软件是数据管理创新的基础
ClickHouse 是一个非常棒的数据仓库,但在 Gartner 的市场份额排名中却没有被提及,这让我们感到有点受伤。不过,我们并没有觉得有多槽糕,因为还有许多其他同样卓越的开源技术也被遗漏了。在这份市场份额排名中,少了像 InfluxDB 和 TimescaleDB 等这样的时间序列数据库,Spark 也不见踪影,而且还遗漏了 MySQL 和 PostgreSQL。而后一种遗漏是值得注意的,因为这两个数据库都是 Amazon RDS 的关键,要知道,Amazon RDS 是最成功的公用云数据服务之一。
更令人惊讶的是,这份市场份额排名居然没有提及人工智能技术。机器学习和深度学习都代表了过去十年数据分析领域的最大进步,这是人尽皆知。除了人工智能管道与数据库的紧密耦合之外,模型的训练和执行也开始直接集成到数据库管理系统本身了。当前,任何人工智能工具包的枚举都会包括 Scikit-Learn、TensorFlow、Torch、Keras 和许多其他开源框架。像 Apache Arrow 这样的项目表明,有望找到新的方法,将它们与数据库管理系统集成在一起,而无需从存储器到执行管道进行低效的复制。这是一个非常值得关注的领域,特别是当许多创新都发生在开源领域时。
最后,我们也不能忽视 Kubernetes 在数据管理方面所扮演的新角色。它赋予了公用云所提供的高利用率和易管理性。根据我们在构建 ClickHouse Kubernetes 操作员方面的经验,以及我们客户的经验表明,Kubernetes 是一个适用于大规模分析应用的可行环境。Kubernetes 在云端环境和裸机环境中运行得同样良好,让用户得以在这两种环境中,能够轻松地运行像 ClickHouse 这样的可移植开源项目。而且,Kubernetes 也是开源的。
我们不会忽视 Amazon RDS 和 Amazon Redshift 等公用云服务的杰出创新。在降低进入成本和减少管理开销方面,这两者都是游戏规则改变者。类似地,像 Google BigQuery 这样的服务可以通过有效地整合云资源来规模化运行。所有这些创新,都值得效仿。它们还使现有的云数据服务成为许多业务问题的绝佳选择。
也就是说,如果你要选择未来的系统,你就必须仔细审查开源。在过去的二十年里,许多最具颠覆性的数据管理技术都是从开源项目中涌现出来的。活跃的风投行业可以确保最好的项目迅速转化为企业产品。通过协作开源项目,分析、人工智能和 Kubernetes 的快速发展证明了这一趋势将会持续下去。
总之,那些将目光从开源技术风险上移开的数据管理专业人士可能会大吃一惊。这是该领域大多数创新的关键。
公有云经济学并不适用于许多数据管理使用案例
无可争辩的是,对很多企业来说,公用云服务非常出色。较低的前期成本,由供应商处理复杂系统管理的事实以及规模经济,使得公用云成为许多用途(而不仅仅是数据管理)的简单选择。云收入增长数据充分证明了这种魅力。
但是,这是否意味着公用云适用于所有的用例呢?答案显然是否定的。如果你的企业具有以下特点,会怎么样呢?
有大量的数据。
要求较高而持续的资源利用率。
成本敏感度高。
这些特点正是对大多数大型 SaaS 供应商以及 Facebook 等社交媒体公司的概要描述。如果云计算对这些企业普遍有用的话,我们应该会看到这些企业中的大多数都在云端中。然而,实际情况并非如此。Lyft 和 Pinterest 等公司是公用云服务的主要客户。但随着规模的扩大,其他供应商也并没有放弃公用云。
SalesForce 在 AWS 上的运营只占很小的比例,但主要使用它直接管理的数据中心。Facebook 从零开始建设和运营自己的数据中心有着悠久的历史。Dropbox 最初托管在 AWS 上,但在很大程度上将文件存储从 Amazon 转移到了自己的数据中心。在这一过程中,他们声称此举节省了 7460 万美元的成本。
最后这一数字说到点子上了,那就是:云计算服务非常昂贵。为什么股市喜欢 Amazon 和 Azure 的云计算?一言以蔽之:它们有极好的毛利率,也就是为客户提供服务后剩下的钱。Microsoft 最近的盈利报告显示,Azure 的毛利率至少有 50%。Amazon 虽然没有公布 AWS 的毛利率,但透露了其持续经营利润率(即销售额等其他费用)达到了 25% 或更高。因此,我们假设 AWS 的毛利率也至少为 50%。
对用户来说,这 50% 的含义不言自明。平均而言,如果你像 Lyft 一样每年在公用云上耗费 1 亿美元的话,那么就有 5000 万美元将进入云供应商的资产负债表。如果你在自己的数据中心运行这些服务的话,那么这 5000 万美元将进入你自己的资产负债表。我们可以通过仔细查看 Dropbox 的数据来验证这一点。他们的报告显示在 2016 年节省了大约 43%,所以也在我们可接受的范围内。对于那些规模大、充分利用资源且对成本敏感的资源来说,经济激励机制的效果是显而易见的,而且随着时间的推移,只会越来越明显。
激励机制还以更微妙的方式发挥作用。与其离开 Amazon 或 Azure,不如避开那些最昂贵的服务。其中包括像 Amazon RDS 这样的数据管理服务。在 RDS MySQL 上运行 db.m5.12xlarge 实例的成本,比在同一区域中的普通 m5.12xlarge 实例要高出 80%(按 us-west-2 地区标准 3 年期限估算)。你可以只在基本的计算和存储上运行开源的 MySQL。这既降低了成本,又保留了未来转移到其他地方的自由。有趣的是,这正是像 Slack 这样的公司正在做的事情。
总之,随着业务收入的增加,在云端运营的动机逐渐消失,甚至出现逆转。无论采用何种商业模式,IT 资源的运营成本往往会回归到平均水平,这与云提供商的毛利率相关。即使你仍留在云端中,使用云数据服务的动机也会下降。这些都是影响任何数据驱动业务的基础经济学。
边缘计算正在云计算之外创建新的用例
从长远来看,物联网设备数据的爆炸式增长将会促进公用云之外的管理。据估计,一辆无人驾驶汽车生成的数据是 Twitter 的 3000 倍。由于网络带宽限制、安全性、存储限制以及需要实时响应等原因,其中大部分数据将在本地进行清理、分析和使用。只有一小部分数据能够到达云端。
在云数据管理中,将数据重要性作为应用程序迁移到云端的原因是很常见的。边缘计算和物联网在公用云之外创造了一种新的数据重要性。在 Altinity,我们设想的未来,可能包括数亿个平台上的数据,从汽车到医疗系统,再到农业设备。在许多情况下,这样的本地数据将会达到以前只有在集中式数据中心才能看到的容量。
因此,我们预计,在边缘环境中,将会出现高速消息传递、流式查询和具有高效压缩的数据仓库等功能。其中一些产品和平台将与公用云使用的产品和平台相同。这也是我们认为可移植性仍然是数据管理技术的主要考虑因素的原因之一。但我们也期待出现新的创新,能够专注于在远程环境中快速处理数据。其中一些创新已经能够在加州大学伯克利分校 RISE 实验室中见到,其中包括安全、实时的人工智能。许多其他人也正在研究这一问题。
结论:超越云计算的思考
在 Altinity,我们完全同意 Gartner 的观点,即云计算对于数据管理非常重要。在每个新部署决策中,都应该考虑这一点,尤其是在速度和灵活性高于成本的情况下。
与此同时,系统设计人员必须寻找新的开源数据管理项目,比如 ClickHouse,它可以为早期采用者带来颠覆性的优势。设计师和商业领袖也需要了解,随着业务的增长,云计算的经济激励机制也会发生重大变化。最后,边缘计算和物联网将会推动数据管理技术的新浪潮。许多创新将不仅适用于边缘计算领域,也将适用于所有数据驱动的业务。
作为工程师,我们经常谈论为规模设计系统。可扩展的数据管理支持可扩展的业务。要实现这一点,你就必须超越云计算进行思考。
原文链接:
Far More than Cloud: Thoughts on the Future of Database Management Systems
评论