写点什么

超越云计算:对数据库管理系统未来的思考

  • 2019-08-01
  • 本文字数:3520 字

    阅读完需:约 12 分钟

超越云计算:对数据库管理系统未来的思考

Gartner 最近发表的一篇博文,引起了我们 Altinity 的注意。标题是《数据库管理系统的未来就是云计算!》(The Future of Database Management Systems is Cloud!),这篇博文还宣称,现在公用云就是管理数据的默认平台。不过,这一说法听起来并不那么耸人听闻。这篇博文基于 Donald Feinbert、Merv Adrian 和 Adam Ronthal 的研究,他们都是在数据库管理系统(DBMS)市场有长期经验的行业资深人士。


有趣的是,这篇博文还进一步提出了两个值得反复推敲的观点。


  1. 就数据库管理系统而言,新的创新现在只出现在云端中,或者至少首先出现在云端上。如果你不使用云计算的话,那么你就会错过尝试这些创新的机会。

  2. 避免资本支出而倾向于运营支出的定价模式正在推动这一转变。换言之,这是一个由基础经济学推动的长期趋势,因此,我们可以预期这种趋势将会持续下去,甚至可能会随着时间的推移而加剧。


这些说法充其量只是误导。如果你正在设计用于管理数据的系统,那么,只看表面价值的话,可能会导致严重的战略失误。你还可能会错过具有竞争力的技术,而且还限制了你企业的盈利能力。


我们将这个论点限制在 Gartner 研究的公开摘要中,这样你就可以自己阅读了。现在让我们来看一下事实真相。

开源软件是数据管理创新的基础

ClickHouse 是一个非常棒的数据仓库,但在 Gartner 的市场份额排名中却没有被提及,这让我们感到有点受伤。不过,我们并没有觉得有多槽糕,因为还有许多其他同样卓越的开源技术也被遗漏了。在这份市场份额排名中,少了像 InfluxDB 和 TimescaleDB 等这样的时间序列数据库,Spark 也不见踪影,而且还遗漏了 MySQL 和 PostgreSQL。而后一种遗漏是值得注意的,因为这两个数据库都是 Amazon RDS 的关键,要知道,Amazon RDS 是最成功的公用云数据服务之一。


更令人惊讶的是,这份市场份额排名居然没有提及人工智能技术。机器学习和深度学习都代表了过去十年数据分析领域的最大进步,这是人尽皆知。除了人工智能管道与数据库的紧密耦合之外,模型的训练和执行也开始直接集成到数据库管理系统本身了。当前,任何人工智能工具包的枚举都会包括 Scikit-Learn、TensorFlow、Torch、Keras 和许多其他开源框架。像 Apache Arrow 这样的项目表明,有望找到新的方法,将它们与数据库管理系统集成在一起,而无需从存储器到执行管道进行低效的复制。这是一个非常值得关注的领域,特别是当许多创新都发生在开源领域时。


最后,我们也不能忽视 Kubernetes 在数据管理方面所扮演的新角色。它赋予了公用云所提供的高利用率和易管理性。根据我们在构建 ClickHouse Kubernetes 操作员方面的经验,以及我们客户的经验表明,Kubernetes 是一个适用于大规模分析应用的可行环境。Kubernetes 在云端环境和裸机环境中运行得同样良好,让用户得以在这两种环境中,能够轻松地运行像 ClickHouse 这样的可移植开源项目。而且,Kubernetes 也是开源的。


我们不会忽视 Amazon RDS 和 Amazon Redshift 等公用云服务的杰出创新。在降低进入成本和减少管理开销方面,这两者都是游戏规则改变者。类似地,像 Google BigQuery 这样的服务可以通过有效地整合云资源来规模化运行。所有这些创新,都值得效仿。它们还使现有的云数据服务成为许多业务问题的绝佳选择。


也就是说,如果你要选择未来的系统,你就必须仔细审查开源。在过去的二十年里,许多最具颠覆性的数据管理技术都是从开源项目中涌现出来的。活跃的风投行业可以确保最好的项目迅速转化为企业产品。通过协作开源项目,分析、人工智能和 Kubernetes 的快速发展证明了这一趋势将会持续下去。


总之,那些将目光从开源技术风险上移开的数据管理专业人士可能会大吃一惊。这是该领域大多数创新的关键。

公有云经济学并不适用于许多数据管理使用案例

无可争辩的是,对很多企业来说,公用云服务非常出色。较低的前期成本,由供应商处理复杂系统管理的事实以及规模经济,使得公用云成为许多用途(而不仅仅是数据管理)的简单选择。云收入增长数据充分证明了这种魅力。


但是,这是否意味着公用云适用于所有的用例呢?答案显然是否定的。如果你的企业具有以下特点,会怎么样呢?


  • 有大量的数据。

  • 要求较高而持续的资源利用率。

  • 成本敏感度高。


这些特点正是对大多数大型 SaaS 供应商以及 Facebook 等社交媒体公司的概要描述。如果云计算对这些企业普遍有用的话,我们应该会看到这些企业中的大多数都在云端中。然而,实际情况并非如此。Lyft 和 Pinterest 等公司是公用云服务的主要客户。但随着规模的扩大,其他供应商也并没有放弃公用云。


SalesForce 在 AWS 上的运营只占很小的比例,但主要使用它直接管理的数据中心。Facebook 从零开始建设和运营自己的数据中心有着悠久的历史。Dropbox 最初托管在 AWS 上,但在很大程度上将文件存储从 Amazon 转移到了自己的数据中心。在这一过程中,他们声称此举节省了 7460 万美元的成本


最后这一数字说到点子上了,那就是:云计算服务非常昂贵。为什么股市喜欢 Amazon 和 Azure 的云计算?一言以蔽之:它们有极好的毛利率,也就是为客户提供服务后剩下的钱。Microsoft 最近的盈利报告显示,Azure 的毛利率至少有 50%Amazon 虽然没有公布 AWS 的毛利率,但透露了其持续经营利润率(即销售额等其他费用)达到了 25% 或更高。因此,我们假设 AWS 的毛利率也至少为 50%。


对用户来说,这 50% 的含义不言自明。平均而言,如果你像 Lyft 一样每年在公用云上耗费 1 亿美元的话,那么就有 5000 万美元将进入云供应商的资产负债表。如果你在自己的数据中心运行这些服务的话,那么这 5000 万美元将进入你自己的资产负债表。我们可以通过仔细查看 Dropbox 的数据来验证这一点。他们的报告显示在 2016 年节省了大约 43%,所以也在我们可接受的范围内。对于那些规模大、充分利用资源且对成本敏感的资源来说,经济激励机制的效果是显而易见的,而且随着时间的推移,只会越来越明显。


激励机制还以更微妙的方式发挥作用。与其离开 Amazon 或 Azure,不如避开那些最昂贵的服务。其中包括像 Amazon RDS 这样的数据管理服务。在 RDS MySQL 上运行 db.m5.12xlarge 实例的成本,比在同一区域中的普通 m5.12xlarge 实例要高出 80%(按 us-west-2 地区标准 3 年期限估算)。你可以只在基本的计算和存储上运行开源的 MySQL。这既降低了成本,又保留了未来转移到其他地方的自由。有趣的是,这正是像 Slack 这样的公司正在做的事情。


总之,随着业务收入的增加,在云端运营的动机逐渐消失,甚至出现逆转。无论采用何种商业模式,IT 资源的运营成本往往会回归到平均水平,这与云提供商的毛利率相关。即使你仍留在云端中,使用云数据服务的动机也会下降。这些都是影响任何数据驱动业务的基础经济学。

边缘计算正在云计算之外创建新的用例

从长远来看,物联网设备数据的爆炸式增长将会促进公用云之外的管理。据估计,一辆无人驾驶汽车生成的数据是 Twitter 的 3000 倍。由于网络带宽限制、安全性、存储限制以及需要实时响应等原因,其中大部分数据将在本地进行清理、分析和使用。只有一小部分数据能够到达云端。


在云数据管理中,将数据重要性作为应用程序迁移到云端的原因是很常见的。边缘计算和物联网在公用云之外创造了一种新的数据重要性。在 Altinity,我们设想的未来,可能包括数亿个平台上的数据,从汽车到医疗系统,再到农业设备。在许多情况下,这样的本地数据将会达到以前只有在集中式数据中心才能看到的容量。


因此,我们预计,在边缘环境中,将会出现高速消息传递、流式查询和具有高效压缩的数据仓库等功能。其中一些产品和平台将与公用云使用的产品和平台相同。这也是我们认为可移植性仍然是数据管理技术的主要考虑因素的原因之一。但我们也期待出现新的创新,能够专注于在远程环境中快速处理数据。其中一些创新已经能够在加州大学伯克利分校 RISE 实验室中见到,其中包括安全、实时的人工智能。许多其他人也正在研究这一问题。

结论:超越云计算的思考

在 Altinity,我们完全同意 Gartner 的观点,即云计算对于数据管理非常重要。在每个新部署决策中,都应该考虑这一点,尤其是在速度和灵活性高于成本的情况下。


与此同时,系统设计人员必须寻找新的开源数据管理项目,比如 ClickHouse,它可以为早期采用者带来颠覆性的优势。设计师和商业领袖也需要了解,随着业务的增长,云计算的经济激励机制也会发生重大变化。最后,边缘计算和物联网将会推动数据管理技术的新浪潮。许多创新将不仅适用于边缘计算领域,也将适用于所有数据驱动的业务。


作为工程师,我们经常谈论为规模设计系统。可扩展的数据管理支持可扩展的业务。要实现这一点,你就必须超越云计算进行思考。


原文链接:


Far More than Cloud: Thoughts on the Future of Database Management Systems


2019-08-01 16:392288
用户头像

发布了 375 篇内容, 共 191.4 次阅读, 收获喜欢 947 次。

关注

评论

发布
暂无评论
发现更多内容

Worktile 权限设计与实现

PingCode研发中心

项目管理 后端 权限管理

IT专业本科生毕业选择【就业】/【攻读硕士】调查问卷

Aldeo

考核 大学生毕业 问卷调查

关于软件IT专业大学生对专业认知情况的调查问卷

花花

签约计划

大学生IT就业方向以及就业培训的调查问卷

麦洛

调查报告 调查采访能力考核 问卷调查

软件IT专业大学生就业意向问卷调查

三掌柜

签约计划 问卷调查

【InfoQ 写作平台 1 周年】我和写作平台剪不断的“孽缘”

三掌柜

征稿 InfoQ 写作平台 1 周年

五一啃透这份阿里巴巴Java面试指导手册(泰山版),节后直接面试找工作!

Java架构追梦

Java 阿里巴巴 架构 面试 泰山版

如何基于 PANO SDK 实现 iOS 端屏幕共享互动

拍乐云Pano

ios sdk

视频后期怎么添加AR贴图?一招教你搞定!

奈奈的杂社

视频剪辑 视频后期 剪辑 会声会影

阿里云 RTC QoS 弱网对抗之 LTR 及其硬件解码支持

阿里云CloudImagine

阿里云 音视频 WebRTC 视频解码 视频云

网易云课堂个性化推荐实践与思考

有道技术团队

推荐系统

IT之家专访庄秉翰:未来全球5G vRAN将达90%,英特尔5G布网参与度非常高

E科讯

安全知识

笑春风

10行C++代码实现高性能HTTP服务

万俊峰Kevin

c c++ workflow Open Source

探讨 JS 对象如何缓存属性的值

零维

JavaScript 大前端 设计模式

鸿蒙系统(HOS)终于上线,微内核操作系统科普

北游学Java

Java 操作系统 微内核

为什么越来越多的人不敢结婚?

徐说科技

婚姻 情感 恐婚

15个问题告诉你如何使用Java泛型

华为云开发者联盟

Java 接口 参数 Java泛型 泛型对象

anyRTC 智能硬件解决方案

anyRTC开发者

音视频 WebRTC IoT 智能硬件

五一小长假最新产物:阿里巴巴面试的参考指南(泰山版)

学Java关注我

Java 编程 程序员 架构 计算机

Windows系统下电脑强制卡死、关机的邪恶方法

不脱发的程序猿

程序人生 技术人 4月日更 系统关机 计算机小技巧

如何构造更好的团队

soolaugust

团队管理 架构

Rust从0到1-代码组织-use关键字

rust 代码组织 use

水性硅胶防滑透明浆

C13713145387

索引的正确“打开姿势”

华为云开发者联盟

数据库 索引 B-tree Psort 分区

可能有点长的Spring MVC入门篇

北游学Java

Java spring ssm Spring MVC

政采云:数据可视化探索之SpreadJS 表格控件

葡萄城技术团队

大学生读书情况调研

hepingfly

读书 调研 大学生 阅读

HTTP/2做错了什么?刚刚辉煌2年就要被弃用了

学Java关注我

Java 编程 架构 程序人生 计算机

面向软件 IT 专业的高校大学生职业思考调查问卷

程序员架构进阶

职业规划 调查报告 就业 28天写作 4月日更

圆梦阿里之后,我收集整理了这份“2021春招常见面试真题汇总”

比伯

Java 编程 架构 程序人生 计算机

超越云计算:对数据库管理系统未来的思考_数据库_Robert Hodges_InfoQ精选文章