写点什么

失控的不仅仅是云成本:一年为可观测性狂烧 4.5 亿,有钱的“大冤种”也扛不住了

  • 2023-05-19
    北京
  • 本文字数:4776 字

    阅读完需:约 16 分钟

失控的不仅仅是云成本:一年为可观测性狂烧4.5亿,有钱的“大冤种”也扛不住了

“到底是哪家公司 2022 年在Datadog身上花掉了 6500 万美元?”Datadog 最近在财务会议上透露,一项客户一次性支付高达 6500 万美元预付款,此事瞬间引发业内关注:哪家公司出手这么阔绰?可观测供应商这么赚钱?

 

Datadog 是可观测性的主要力量,2019 年融资上市,目前市值为 280 亿美元。该公司 2022 年内的收入为 16.7 亿美元,月均在 1.4 亿美元左右。在一个关于降本的小调查中,“AWS”和“Datadog”是被提及最多的两家供应商。这显然证明基础设施和可观测性成本已经相当高昂,其中 AWS 是基础设施领域的领导者。

 

在 5 月 4 日的财报电话会议上,Datadog 首席财务官 David Obstler 提到了一笔“非经常性支出”(也称一次性费用),并表示:

 

“本季度收入为 5.11 亿美元,较上年同期增长 15%。2022 年第一季度,曾有客户支付一笔巨额预付款;但 2023 年第一季度没有类似的大额支出。根据对该客户的估算,其账单同比增长率将低于 30%。”

 

这一细节被摩根大通研究部执行董事兼金融分析师 Mark Ronald Murphy 捕捉到了。在进行计算后,Murphy 透露出该笔预付款约为 6500 万美元(约合人民币 4.5 亿),Datadog 也承认了该数字的准确性。Obstler表示,该公司改变了计费频率和金额,因此随着时间的推移,该客户的帐单将分摊得更多。

 

Obstler 透露,“这是一家加密货币公司,目前仍是我们的客户。他们是一家早期优化厂商,所处的行业正是我们经常讨论的受影响最大、优化空间最广的领域。”

 

Datadog 联合创始人兼首席执行官 Olivier Pomel 表示,在过去的一年里,该客户所在垂直行业几乎被摧毁了。他们自己的业务收入减少了 3 到 4 倍。“在这种情况下,我们会与客户合作,重组他们与我们的合同。我们想成为他们解决方案的一部分,而不是问题的一部分。”

 

至此,网上对于“到底是哪家加密公司 2022 年 内在 Datadog 身上花掉了 6500 万美元”一事充满各种猜测。

 

投资者 Turner Novak推测是 Coinbase,但并不是很确定。网上甚至出现了冒充 Coinbase 员工的人。比如Hacker News上的某位匿名评论者,其声称 6500 万美元其实是未来三年的预付款,但消息内容无法核实。后来,FARMLEND 全栈工程师 Gergely Orosz 发文称自己确认了该公司就是 Coinbase,而那笔款项就是他们当年的到期账单。下面我们看下 Orosz 的详细说法。

 

“没人关心基础设施成本了”

 

Coinbase 公司于当年 6 月上市,上市首日估值 857 亿美元。相比之下,将近两年后,该公司的估值约为 140 亿美元,下降了约 75%。在繁荣时期,交易量激增,屡创新高,而 Coinbase 基础设施几乎无法跟上。Coinbase 首席执行官 Brian Amstrong 曾表示:

 

“2021 年对 Coinbase 来说是不可思议的一年,这种态势不要说在人的一生中非常罕见,拿到整个商业发展史上看也是屈指可数。我们的月交易用户达到创历史新高的 1140 万,同比增长 4 倍。400%的增长率,简直令人难以置信。”

 

在 2021 年首次公开募股之后,Coinbase 公司里已经没人关心基础设施成本了,唯一的目标就是继续保持增长。该公司先后向 AWS、Snowflake 和 Datadog 等厂商支付了巨额费用。于是乎,2021 年这 6500 万美元确实花给了 Datadog,Coinbase 则在 2022 年第一季度结清了这笔支出。

 

可 2022 年伊始,Coinbase 的情况急转直下、需要立即削减基础设施支出。这是因为加密行业突然遇冷,Coinbase 的业务自然也受到影响。随着收入枯竭,该公司开始将注意力转向降本增效。

 

在可观测性方面,Coinbase 成立了专项团队,目标是把这部分功能从 Datadog 转移到内部 Grafana/Prometheus/Clickhouse 技术栈上。下面对这些技术稍做介绍:

 

  • Prometheus:一种时序数据库。作为一套非常流行的系统和服务监控开源解决方案,Prometheus 会按给定的时间间隔从配置的目标(服务)处收集指标,并结合评估规则以触发警报。

 

Prometheus 主要由 Go 编写,也有用到 Java、Python 和 Ruby 代码。Prometheus 可将时序数据以一种高效、可定制的格式存储在内存内和持久存储介质(HDD 或 SSD)上,而且支持分区和联邦部署。

 

Prometheus 属于云原生基的下辖项目,因此在它之上构建业务比较安全。该项目在当前及可预见的未来都将拥有稳定的维护和支持。

 

Prometheus 可以自托管,部分云服务商也在提供 Prometheus 托管服务:Googld Cloud 和 AWS 都提供生产级服务选项,Azure 的服务目前则仅提供预览版。

 

  • Grafana:可视化指标前端。Grafana 是一种流行的源分析和监控可视化解决方案。如果大家需要查看或深入了解指标或警报,那 Grafana 就是理想的首选工具,在科技企业中得到广泛应用。Grafana 仪表板示例:

 

 

  • Clickhouse:日志记录管理工具。这是一套快速、开源,且面向列的数据库管理系统,也是目前流行的日志管理选项。Clickhouse 主要由 C++编写而成,在整个行业内得到广泛应用。例如,Cloudflare 就使用 Clickhouse 来存储其所有 DNS 和 HTTP 日志——每秒超过 1000 万行!Clickhouse 还是 Uber 的中央日志记录平台。

 

Coinbase 最初之所以选择自己动手,主要目标并不是节约成本,而是要获取完全控制力和可观测性。可观测性和可靠性,也正是 Coinbase 在市场上与竞争对手抗衡时的最大王牌。

 

但随着加密货币市场的降温,成本开始成为核心关注点,而内部运营的 Grafana/Prometheus 方案也确实要便宜得多。Coinbase 团队几个月来一直在重复调试新技术栈,最终解决了所有问题、确认一切运行正常。

 

就这样,Coinbase 本打算就此跟 Datadog 说拜拜,但 Datadog 在最后一刻挽救了这段合作关系,给 Coinbase 开出一项其无法拒绝的优厚条款。简单来说,Datadog 后续开出的账单将远远低于 2021 年的 6500 万美元。毕竟就像 Brian Amstrong 在谈到 2021 年的加密货币市场时说的那样,6500 万美元的账单在整个商业发展史上也不常见

 

为留住客户,Datadog 打“骨折”

 

Orosz 就此事询问了 Coinbase 一位同时体验过内部技术栈和 Datadog 的工程师,想听听对方怎么看待继续留用 Datadog 的决定。这位工程师认为,考虑到合理的成本和卓越的开发体验,继续选择 Datadog 是个正确的决定。

 

Coinbase 最终已经能在内部设计出类似的体验,但要想实现与 Datadog 相近的无缝开发者体验,那可能还需要耗费数十年的工程投入。

 

而且可观测性工具中的“昂贵”是个相对概念。比方说,在大幅降价之后,如今 Coinbase 每年“仅”须在 Datadog 身上花费 1000 万美元。那这 1000 万美元到底多不多?

 

第一反应似乎仍然不少,但再深入剖析后可以发现,像 Datadog 这样的平台还有助于防止中断、即时检测并快速缓解宕机事故。

 

2022 年,Coinbase 曾发生过 18 次停机,总时长约为 12 小时。根据 2022 年的收入计算,该公司的日均收入约为 900 万美元。假设 Datadog 能够通过早期监控来防止中断问题,由此将中断次数减少了一半,那就可以认为如果没有 Datadog 的参与,实际停机总时长将是 24 个小时。

 

另外,假设 Datadog 支持下的 Coinbase 能够将恢复速度提升至 2 倍(可能是因为 Datadog 会快速将健康指标同日志、调试操作等联系起来,帮助查明根本原因并改进缓解效率),那么不用 Datadog 的总停机时长将进一步延长到 36 个小时。

 

这样做个简单的数学计算,Coinbase 选择了 Datadog 之后单在停机时间上就省下了 900 万美元,所以现在每年 1000 万美元的支出可以说是物有所值!

 

千万美元的可观测账单,并不罕见

 

在 DataDog 的案例中,由于该公司提供的不仅仅是可观测性解决方案,还包括安全账单,数字变得更加复杂。财报没有说明这家未具名的公司使用了多少此类 SaaS 服务。

 

“虽然 6500 万美元是一个令人震惊的数字,但对于传统的可观测性公司来说,1000 万美元的账单并不罕见。”可观测性替代提供商 Groundcover 首席执行官 Shahar Azulay 表示。

 

“像 Coinbase 这样的大公司,不久前就已经开始以每年 1000 万美元的价格进行采购。”Azulay 说道,“很多公司每年会向 Splunk、Dynatrace、DataDog 这样的可观测提供商支付超过 1000 万美元,甚至同时向多个供应商支付,每个供应商都超过两位数的收入,这并不罕见。”

 

Azulay 补充道,重点在于可观测供应商如何定价。可观测性解决方案监控三种类型的数据:日志、度量和跟踪(监视交互的路径,例如端到端事务和服务之间发生的事情)。这些数据源的增长趋势很难预测,尤其是当“黑色星期五”这样的事件出现时,用户的使用量会达到峰值。

 

它充满很大的不可预测性,并对推送到日志中的数据量有很大的依赖,这就是有大量定价点的根本原因,因为你无法控制,也无法知道下个月将支付多少。”Azulay 表示,更重要的是,即使合同是针对某一梯度水平的,一旦公司超过了该等级,那从当天起,厂商就会按更高的等级费率收费。

 

“特定的 log lines 可以成为基础设施的关键部分,例如谷歌的搜索引擎或任何每天运行 100 万次的东西——只是客户每天使用它 100 万次。”Azulay 表示,开发人员可能只是将更多的 log lines 或数据点推送到系统中,但不知道更多。有一个这样的循环:开发人员创建应用程序,构建组织作为产品提供方应该做的业务逻辑,然后做研发管理,直到两个月后才发现:哦,这让我们的价格上涨了 50%。

 

Azulay 认为,问题可能会落在开发人员身上,因为他们向可观测性堆栈推送了太多信息,导致监控生产的数据点数量减少了。“这是一个奇怪的恶性循环,开发人员想要更多的数据来排除故障,而管理人员则需要权衡,他们必须为此支付大量的钱。”

 

不过,并非所有可观测性公司都是这样收费的。使用 eBPF 代理的 Groundcover 不收集数据,它按生产环境中运行的服务器数量收费。

 

谁是“大冤种”

 

很明显,供应商会对客户的支出削减守口如瓶,我们只是很幸运地从 Datadog 发言的细微线索中找到了 Coinbase。但 Coinbase 的情况绝不是个例,更多反映了市场的整体趋势

 

Datadog 公司 CEO Olivier Pomel 证实,类似的成本优化举措正在全体客户中间发生

 

“观测我们的数据,回顾我们从超大规模客户那边听到的声音,总结客户关于短期未来的观点,我们确实对接下来的前景没什么信心。换言之,下个季度、最多下下季度,大规模的降本增效就要到来。因此,就目前的指导方针和年内规划而言,我们认为剩下的半年基本都会是这个情况。”

 

Datadog 的危机可能也还在继续。Orosz 透露,Shopify 正打算跟 Datadog 脱钩。

 

Orosz 表示,多家体量巨大的企业都在构建自己的内部 Grafana/Prometheus 技术栈,打算借此脱离原有可观测性供应商,而归根到底还是钱的问题。

 

“每年 200 到 500 万美元的固定支出就是逃离供应商的最佳理由。毕竟一旦到了这个规模,理论上还不如雇用内部团队自己接手这部分工作。”Orosz 表示。

 

根据指导经验,内部基础设施的运营成本要远低于供应商开出的价格。这是因为供应商和企业往往都在使用相同的云基础设施,可能是 AWS、Google Cloud Platform 或者 Azure。最大的区别在于,企业需要聘请专门的工程团队和技术人员来构建并运行这套基础设施。

 

因此从成本角度看,最终权衡可以提炼成下面这条简单规则:

 

基础设施成本 + 平台团队成本 < 现有供应商成本

 

其中,平台团队成本会高于 100 万美元,有时候甚至超过 200 万美元。这是因为平台团队至少要有 4、5 位工程师加一名经理,他们的平均年薪都在 15 万到 40 万美元之间,具体由成本基础决定。

 

所以当服务账单每年达到 200 甚至 300 万美元级别时,自建就比外包显得更靠谱了。而完成最后临门一脚的,则是供应商在原始基础设施之上又附加了多高的保留利润。

 

Orosz 表示自己想不通 Coinbase 的行为:为什么供应商都把价格开到 6500 万美元这个级别了,他们才开始考虑自建团队?

 

“这可是 6500 万美元,Coinbase 完全能用它在湾区组建一支 10 名高级/资深工程师的豪华阵容,就算这样成本每年也不会超过 500 万美元。之后就是给基础设施做成本预算,这部分开支每年也就不到 100 万美元吧。”Orosz 感叹道。


参考链接:

https://investors.datadoghq.com/static-files/18234a4f-04f9-4a9f-9679-668cd672fb7b

https://blog.pragmaticengineer.com/datadog-65m-year-customer-mystery/

https://thenewstack.io/datadogs-65m-bill-and-why-developers-should-care/

2023-05-19 18:177906

评论 1 条评论

发布
用户头像
哈哈哈, 监控多好的一门生意啊. 赚钱多, 加班少, 出事也不会背主要的锅. 但就是这么好的生意, 也被国内的厂商给卷烂了, 特别是很久之前的oneapm, 直接一口价, 还送近乎无限的人天支持. 结果呢? 都没有好结果.
2023-05-22 10:07 · 上海
回复
没有更多了
发现更多内容

共赴冰雪之约,见证体育场馆的数字化之旅

脑极体

如何阻止软件退化?

蜜糖的代码注释

Java 后端开发 项目实践 2月月更

在线标准程序员计算器

入门小站

工具

计算机视觉算法探究:OpenCV CLAHE算法详解| 社区征文

老猿Python

AI 算法 计算机视觉 新春征文 CLAHE

Netflix是如何做决策的? | 3. A/B测试结果之假阳性和统计显著性

俞凡

数据分析 netflix 大厂实践 2月月更

《恰如其分的软件架构》随笔一:模型是解决复杂问题的重要途径

panda

模型

架构训练营 week8 课程总结

红莲疾风

「架构实战营」

开源效能可视化平台介绍 -DevLake

夏兮。

效能平台 MARI

JVM进阶(二):初识 JAVA 堆

No Silver Bullet

Java JVM 内存 2月月更

Netflix是如何做决策的? | 4. A/B测试结果之假阴性和统计功效

俞凡

数据分析 netflix 大厂实践 2月月更

Linux之top命令

入门小站

Linux

AI,机器人和元宇宙(9/100)

hackstoic

元宇宙

Jvm 参数默认值

努力努力再努力

[架构实战营] 模块八作业

Geek_0ed632

「架构实战营」

图解MySQL(5)-Buffer Pool的flush链表

JavaEdge

2月月更

JVM进阶(三):内存分配与回收策略

No Silver Bullet

Java JVM 内存分配 2月月更

一条SQL更新语句是如何执行的?

蝉沐风

MySQL MySQL InnoDB

视频绿幕抠像一键搞定,这些好用工具你要知道。

彭宏豪95

效率 工具 视频剪辑

守护石谈学习Java之路

DaemonStone

Java 学习方法 经验分享 编程学习

Netflix是如何做决策的? | 5. 在做决定时建立信心

俞凡

数据分析 netflix 大厂实践 2月月更

对 HTTP 缓存的全面总结

编程三昧

缓存 前端开发 HTTP 2月月更

JVM进阶(六):鲜为人知的二次标记

No Silver Bullet

JVM 日志分析 2月月更 二次标记

团队开周会的目的:保证有效的协同效应和构建PDCA循环

panda

管理 PDCA 周会 协同效应

JavaScript 数组常见操作(一)

编程三昧

JavaScript 前端开发 数组操作 2月月更

如何写好代码注释?

蜜糖的代码注释

Java 后端 开发 2月月更

WebRTC 传输通道的建立过程解析 | 社区征文

liuzhen007

音视频 新春征文 2月月更

2021考了个PMP

夏兮。

PMP Certification

架构训练营 week9 课程总结

红莲疾风

「架构实战营」

JVM进阶(五):JAVA GC 之标记

No Silver Bullet

JVM 2月月更 标记 MAT

第七节:SpringBoot高级属性配置二

入门小站

springboot Java EE

在线SVG在线编辑器

入门小站

工具

失控的不仅仅是云成本:一年为可观测性狂烧4.5亿,有钱的“大冤种”也扛不住了_语言 & 开发_褚杏娟_InfoQ精选文章