写点什么

NASA 太难了:将 247 PB 数据放到 AWS 却付不起高额下载成本

  • 2020-04-07
  • 本文字数:2363 字

    阅读完需:约 8 分钟

NASA太难了:将247 PB数据放到AWS却付不起高额下载成本

本文首发于 InfoQ Pro,更多精彩内容抢先看,尽在 InfoQ Pro


单是这一项决策失误,就让 NASA 的云战略从天堂瞬间跌进了地狱。


到 2025 年,美国宇航局(NASA)计划新增 215 PB 数据存储空间,并希望 AWS 能够提供其中大部分云存储的容量。但让 NASA 没想到的是:把数据迁移至云端之后,出口端的数据下载成本却大幅激增,而他们并没给这笔投入做预算。


换句话说,以后科学家们必须得付费才能下载这些本就属于他们的数据。


单是这一项决策失误,就让 NASA 的云战略从天堂瞬间跌进了地狱。


按原定计划,NASA 到 2025 年将拥有 247 PB 的数据处理能力,这些数据放在云端。NASA 跟 AWS 签下的是一笔多大的单子呢?每月花费达 543.9 万美元。到 2025 年,除 6500 万美元的原有交易额外,NASA 每年还得额外向 AWS 支付约 3000 万美元的新增云服务开销。


NASA 忘了一个前提——云端数据下载成本

受到影响的数据主要来自 NASA 下辖的地球科学数据与信息系统(ESDIS)计划,此项计划旨在从与地球观测相关的众多空间任务中收集信息。收集完成后,相应读数将由地球观测系统数据与信息系统(EOSDIS)向各研究机构交付。


为了存储所有数据并支持整套 EOSDIS,NASA 运营有 12 处分布式主归档中心(DAAC),并借此带来安全稳定的冗余和备份。但沉重的基础设施管理负担也让宇航局倍感压力,因此在 2019 年,他们决定选择 AWS 托管所有基础设施,并逐步通过 Earthdata Cloud 项目将观测记录迁移至亚马逊云。从本地存储向云端的首次数据迁移,原本计划在 2020 年第一季度进行,剩余部分则后续分批处理。宇航局方面希望能在未来几年内,陆续将全部数据迁移至云环境当中。


NASA 当然很清楚,接下来还将有 PB 级别的数据洪流不断涌来。后期预计约有 15 个即将上线的新任务考验这套新的基础设施,包括 NASA-ISRO 合成孔径雷达(NISAR),以及用于检测地表水与海洋地形(SWOT)的专用卫星,它们每天都将产生超过 100 TB 的数据。这里之所以着重强调 SWOT 与 NISAR,是因为二者将成为首批直接将数据转为存储至 Earthdata Cloud 的空间科研项目。


按预定计划发展,宇航局方面到 2025 年将拥有 247 PB 的数据处理能力,远远高于目前的 32 PB。


宇航局对这项云端计划本来是颇为兴奋的,并在迁移项目文档中提到:


美国宇航局地球科学数据的研究员与商业用户将得以快速访问并处理大量数据,加快研究与分析速度。以往在地理层面相互孤立的数据现在可以通过云端统一访问,从而节约时间与资源。


但他们忘了一个前提——数据下载成本。


这是一个现实但却极易被忽视的问题,NASA 监察长在今年 3 月发布的审计报告中注意到:EOSDIS 并没有在这项云端计划当中正确核算数据在出口端被下载产生的费用。


监察长办公室评论道,“具体来看,NASA 忽略了从云端传出数据所带来的成本大幅提升这一问题。”目前,在用户通过 DAAC 访问数据时,宇航局方面并不会承担额外的成本。“但如果最终用户从 Earthdata Cloud 处下载数据,那么每次数据传出都会给 NASA(而非用户)增加对应的成本。”


“这意味着 ESDIS 将面临巨大的“云出口”成本。最终,ESDIS 将同时面临 12 处 DAAC 的成本,外加云资源使用成本(包括出口费用)。”

NASA 为何总犯这样愚蠢的错误?

更糟糕的是,宇航局方面“还没有确定具体需要将哪些数据迁移至 Earthdata Cloud,也尚未根据运营经验、使用情况与出口指标组织成本模型。”


“结果就是,现有的预估成本可能会远远低于未来运营中的实际成本:把数据迁移到云端反而会令整个体系变得成本高昂且难以管理。”


不止如此,监管机构得出的结论是,“总体而言,如果出于成本控制的考量而对数据输出量加以限制,那么宇航局的最终用户很可能无法获得必要的科学数据。”


最重要的是,这份报告还发现项目的组织方并没有进行过充分咨询,没能遵循 NIST 提出的数据完整性标准,甚至因为审计团队中的半数成员都直接参与到项目当中,而未能在内部审计流程中充分考虑到成本节约的问题。


下面是审计机构提出的三点建议:


一旦 NISAR 与 SWOT 投入运行并产生足够的数据,宇航局方面应对其进行独立分析,借此确定在保持现有 DAAC 设施之外推动云迁移与云运营,是否具备长期的财务可持续性。


结合相关机构提供的指导,宇航局应在数据管理计划制定期间之内,特别是 ESDIS 与 OCIO 任务的生命周期早期,对这两个项目的运营需求进行协调。


确保在 DAAC 分类过程中考虑到所有适用的信息类型,确定在哪些条件下适合使用本地基础设施,并将这种分类程序组织为新的标准。


通过以下账目,可以看到 NASA 跟 AWS 签下的是一笔多大的单子:通过亚马逊方面提供的云成本计算器,我们发现在 S3 服务当中存储 247 PB 数据(配合即用即付计费模式),如果不包括 12% 的套餐折扣的话,每月的花费高达惊人的 543.9 万美元。审计结果同时显示,到 2025 年,除了高达 6500 万美元的原有交易额外,NASA 每年还得额外向 AWS 支付约 3000 万美元的新增云服务开销。


我们用不着像火箭科学家那么聪明,也能轻松理解数据出口端成本这个基本概念。这就更让人惊讶了,像 NASA 这样一个能够把真人送入地球轨道、甚至向火星发射探测器的顶尖机构,居然也会犯下这样愚蠢的错误。


事实证明,NASA 犯的错可不止这么一点。就在前几天,我们还从他们移动发射架项目的审计报告中发现了新的猛料。有些朋友可能不太熟悉,所谓移动发射架,专为 SLS 及 Orion 火箭及太空舱组装、运输与发射所设计的大型运载工具。


审计报告显示,该项目在“ML-1 的开发过程已经造成严重的成本超支,且项目进度远远落后于预期。截至 2020 年 1 月,为满足 SLS 要求而对 ML-1 进行的改造工作已经花费 6.93 亿美元,而宇航局方面 2014 年 3 月给出的初步预算仅为 3.08 亿美元。与此同时,项目的当前进度也比原定计划落后了三年有余。”


参考链接:


https://www.theregister.co.uk/2020/03/19/nasa_cloud_data_migration_mess/?



2020-04-07 09:273608

评论

发布
暂无评论
发现更多内容

Comparing IPQ5332 and IPQ4029 WiFi Solutions for Data Center Efficiency

wallyslilly

ipq4029 IPQ5332

【YashanDB知识库】开源调度框架Quartz写入Boolean值到YashanDB报错

YashanDB

yashandb 崖山数据库 崖山DB

全新征程,Pencils Protocol 成首个单链 TVL 突破 3 亿美元的项目

大瞿科技

基于Java+SpringBoot+Vue前后端分离多媒体素材库设计和实现

hunter_coder

后端开发

“用友BIP成就数智企业”入选新质生产力案例库

用友BIP

观测云与传统监控:差距究竟有多大?

观测云

监控

AccessLog| 一款开源的日志分析系统

ClkLog

数据分析 日志分析 埋点 开源软件

喜报!望繁信科技CEO索强与CTO李进峰双双荣获2024上海软件企业技能人才奖

望繁信科技

人工智能 #大数据 流程智能 #流程挖掘 上海望繁信科技

高并发处理能力源码:选择体育直播软件平台开发公司的关键因素

软件开发-梦幻运营部

gin框架上手实践

FunTester

Footprint Analytics 助力 Core 区块链实现数据效率突破

Footprint Analytics

区块链 EVM

驾控更进阶 长安马自达MAZDA EZ-6树立合资新能源价值新标准

Geek_2d6073

【YashanDB知识库】列与存储过程中重名变量/别名问题

YashanDB

yashandb 崖山数据库 崖山DB

分布式系统心跳机制(一)

天翼云开发者社区

架构 分布式系统

win版4K Video Downloader(高清视频下载软件)特别版下载

iMac小白

全新A/B实验能力,火山引擎数智平台上线广告营销实验

字节跳动数据平台

大数据 A/B测试 对比实验 数字化增长

亚信安慧AntDB数据库与用友Yon BIP商业创新平台完成兼容性互认证

亚信AntDB数据库

顶尖缺陷管理工具:小型团队的最佳选择

爱吃小舅的鱼

缺陷管理 缺陷管理软件推荐

领先实践| 能源央企构建世界一流司库管理体系

用友BIP

win版Topaz Photo AI(图片降噪软件) v3.1.2 特别版

iMac小白

基于Java+SpringBoot+Vue前后端分离反欺诈平台设计和实现

hunter_coder

后端开发

TDengine 流计算实践指南:从平均风速到复杂流计算解析

TDengine

ceph数据重构原理

天翼云开发者社区

分布式系统 存储 硬盘故障

GPUStack正式发布: 为大模型而生的开源GPU集群管理器

SEAL安全

AI 大模型 AIGC LLM GenAI

基于Java+SpringBoot+Vue前后端分离大学生一体化服务平台设计和实现

hunter_coder

后端开发

Milvus × RAG助力快看多业务应用

Zilliz

人工智能 AI Milvus Zilliz 向量数据库

Git的一些基本用法

天翼云开发者社区

git 存储

店铺商品搜索API返回值中的商品标题、图片与价格解析

技术冰糖葫芦

API Explorer API 编排 api 货币化 API 文档

CBR云备份与恢复管控简介

天翼云开发者社区

云计算 云服务 云备份

Prometheus Pushgateway 协议上报观测云最佳实践

观测云

监控

GPUStack正式发布: 为大模型而生的开源GPU集群管理器

GPUStack

AI 大模型 AIGC LLM GenAI

NASA太难了:将247 PB数据放到AWS却付不起高额下载成本_服务革新_Simon Sharwood_InfoQ精选文章