Netflix 和 Airbnb 等行业领先的技术公司正在使用 AWS 构建解决方案,以解决数据生态系统最后一公里的问题。这些公司向我们展示了数据和分析技术可以实现的成果,但他们所遇问题的复杂性和规模并不常见。我们面临的日常挑战很少涉及到通过处理数十亿条记录向数百万个客户提供实时建议。更常见的情况是,我们努力整理现有数据,从中寻找并分享对数据的洞察,然后据此采取行动。现实中,专业的数据团队也可能会因缓慢的数据管道而进展困难,或者不得不改用手动处理方式以便使得相关方能够更容易地理解这些数据洞察。
商业智能 (BI) 现代化的发展各个阶段。此部分将介绍组织在没有真正对分析平台进行现代化改造的情况下采用现代 BI 工具时会出现的问题。
将使用仪表盘和 notebook 笔记本的解决方案与高效数据管道集于一体的云优先数据科学平台将会以何种方式呈现。
对上述平台进行快速复制的步骤。可以将协作分析解决方案(例如 Mode,Amazon Redshift 合作伙伴之一)与基于 AWS 数据仓库、ETL 和数据探索服务的强大分析基础工具相结合。
BI 现代化的各个阶段
BI 的发展分为两个主要阶段:使用 Microsoft Excel 创建报告,以及使用仪表盘工具通过易于理解的方式共享对数据的洞察。
第 1 阶段:Excel 工作流
AWS 和 Mode 与数千家公司进行了交流,这些公司都希望从自身数据中获得更多价值。我们询问了他们目前处理数据的方式,以下是几种最常见的回答:
大多数公司都认为上图中的工作流有问题。数据管道无法管理,分析则需要人工来重现。最后,我们无法保证“budget_analysis_v3_final_revised_FINAL.xls”是否真的能够反映出最终的真实情况。
第 2 阶段:启用可视化 BI 工具
公司在寻求更高效的解决方案时,常常会转向使用 Tableau、Amazon QuickSight、PowerBI 和 Looker 等 BI 产品。这些产品要么诞生于云中,要么目前已对云技术进行了大量投资,可以使用这些工具创建和共享报告和仪表盘可以高效完成。最新的 URL 取代了电子邮件成为 KPI 的发送方式。这有助于确保所有人对整个公司的情况获得相同的数据。以下示例展示了 BI 流程:
尽管采用现代 BI 工具 是公司向前发展迈出的重要一步,但这并不是一个完整的解决方案。可视化工具(仪表盘)可以展示正在发生的情况,但是如果公司想要将这些数据用于实际行动,还必须了解这些情况背后的原因。例如,一家公司在某个国家的某个地区出现销量下滑问题,那么该公司必须先了解销量下滑的原因。由于仪表盘展示的结果无法被轻易地修改、扩展或重复用于进一步分析,因此对于负责回答开放式、探索性问题的分析师和数据科学家而言,仪表盘工具往往并不适合。结果,数据基础设施仍然零零散散,分析和数据科学工作流仍需基于手动流程。
云优先的数据科学平台
对于现代数据科学团队来说,一个理想的技术堆栈应该能做到将前文中描述的两个阶段统一起来。仪表盘应该作为分析师研究探索性问题的开始,分析师的工作成果应该易于访问,并且平台应该能够促进数据科学家和公司相关方之间的紧密协作。
在领先的技术公司中,他们的先驱数据团队已开发出可以实现这些需求的内部解决方案。Uber 构建了一个数据科学工作台,用于数据探索、数据准备、临时分析、模型探索、工作流调度、提供仪表盘和协作。Netflix 最近推出了 Netflix 数据平台,用于自动执行和分配 Jupyter Notebook。Instacart 构建了 Blazer,用于浏览和共享数据。
所有这些平台都有三个共同点:
将可视化工具、交互式分析工具(例如 R Notebook 和 Python Notebook)和协作平台相结合。
由现代数据仓库提供支持,经过扩展可以容纳任意大小的数据,供任意数量的分析师使用。
具有可靠的 ETL 管道,可以让分析师和数据科学家在需要时访问所需数据。
构建云优先的数据科学平台
幸运的是,AWS 及合作伙伴提供的解决方案可以满足上述需求,并为无法自行构建平台的数据科学团队提供这样的功能。Amazon Redshift 和 Athena 等数据仓库服务都具备快速、可扩展的特点,并且只需掌握如何编写标准 SQL 就能使用。ETL 合作伙伴(如 Fivetran、Segment 和 Matillion)可提供可靠的一键式 ETL 服务,从数百种应用程序到 Amazon Redshift 和 Amazon S3,不一而足。最后,基于云的分析平台(如 Mode)将可视化工具、完全托管的 R Notebook 和 Python Notebook 以及分发平台结合在一起。
这种现代堆栈与 Netflix 或 Airbnb 中的工具一样强大,可提供全自动的 BI 和数据科学工具。它可以在几天之内完成部署,而成本远低于传统数据科学工具。
本文转载自 AWS 技术博客。
评论