低代码到底是不是行业毒瘤?一线大厂怎么做的?戳此了解>>> 了解详情
写点什么

为共享和协作而优化的现代分析平台 –使用 Mode 和 Amazon Redshift 建设分析堆栈

2019 年 12 月 27 日

为共享和协作而优化的现代分析平台 –使用 Mode 和 Amazon Redshift建设分析堆栈

NetflixAirbnb 等行业领先的技术公司正在使用 AWS 构建解决方案,以解决数据生态系统最后一公里的问题。这些公司向我们展示了数据和分析技术可以实现的成果,但他们所遇问题的复杂性和规模并不常见。我们面临的日常挑战很少涉及到通过处理数十亿条记录向数百万个客户提供实时建议。更常见的情况是,我们努力整理现有数据,从中寻找并分享对数据的洞察,然后据此采取行动。现实中,专业的数据团队也可能会因缓慢的数据管道而进展困难,或者不得不改用手动处理方式以便使得相关方能够更容易地理解这些数据洞察。


通过本博文,您将了解:


  1. 商业智能 (BI) 现代化的发展各个阶段。此部分将介绍组织在没有真正对分析平台进行现代化改造的情况下采用现代 BI 工具时会出现的问题。

  2. 将使用仪表盘和 notebook 笔记本的解决方案与高效数据管道集于一体的云优先数据科学平台将会以何种方式呈现。

  3. 对上述平台进行快速复制的步骤。可以将协作分析解决方案(例如 ModeAmazon Redshift 合作伙伴之一)与基于 AWS 数据仓库、ETL 和数据探索服务的强大分析基础工具相结合。


BI 现代化的各个阶段

BI 的发展分为两个主要阶段:使用 Microsoft Excel 创建报告,以及使用仪表盘工具通过易于理解的方式共享对数据的洞察。


第 1 阶段:Excel 工作流

AWS 和 Mode 与数千家公司进行了交流,这些公司都希望从自身数据中获得更多价值。我们询问了他们目前处理数据的方式,以下是几种最常见的回答:



大多数公司都认为上图中的工作流有问题。数据管道无法管理,分析则需要人工来重现。最后,我们无法保证“budget_analysis_v3_final_revised_FINAL.xls”是否真的能够反映出最终的真实情况。


第 2 阶段:启用可视化 BI 工具

公司在寻求更高效的解决方案时,常常会转向使用 Tableau、Amazon QuickSight、PowerBI 和 Looker 等 BI 产品。这些产品要么诞生于云中,要么目前已对云技术进行了大量投资,可以使用这些工具创建和共享报告和仪表盘可以高效完成。最新的 URL 取代了电子邮件成为 KPI 的发送方式。这有助于确保所有人对整个公司的情况获得相同的数据。以下示例展示了 BI 流程:



尽管采用现代 BI 工具 是公司向前发展迈出的重要一步,但这并不是一个完整的解决方案。可视化工具(仪表盘)可以展示正在发生的情况,但是如果公司想要将这些数据用于实际行动,还必须了解这些情况背后的原因。例如,一家公司在某个国家的某个地区出现销量下滑问题,那么该公司必须先了解销量下滑的原因。由于仪表盘展示的结果无法被轻易地修改、扩展或重复用于进一步分析,因此对于负责回答开放式、探索性问题的分析师和数据科学家而言,仪表盘工具往往并不适合。结果,数据基础设施仍然零零散散,分析和数据科学工作流仍需基于手动流程。


云优先的数据科学平台

对于现代数据科学团队来说,一个理想的技术堆栈应该能做到将前文中描述的两个阶段统一起来。仪表盘应该作为分析师研究探索性问题的开始,分析师的工作成果应该易于访问,并且平台应该能够促进数据科学家和公司相关方之间的紧密协作。


在领先的技术公司中,他们的先驱数据团队已开发出可以实现这些需求的内部解决方案。Uber 构建了一个数据科学工作台,用于数据探索、数据准备、临时分析、模型探索、工作流调度、提供仪表盘和协作。Netflix 最近推出了 Netflix 数据平台,用于自动执行和分配 Jupyter Notebook。Instacart 构建了 Blazer,用于浏览和共享数据。


所有这些平台都有三个共同点:


  • 将可视化工具、交互式分析工具(例如 R Notebook 和 Python Notebook)和协作平台相结合。

  • 由现代数据仓库提供支持,经过扩展可以容纳任意大小的数据,供任意数量的分析师使用。

  • 具有可靠的 ETL 管道,可以让分析师和数据科学家在需要时访问所需数据。


构建云优先的数据科学平台

幸运的是,AWS 及合作伙伴提供的解决方案可以满足上述需求,并为无法自行构建平台的数据科学团队提供这样的功能。Amazon RedshiftAthena 等数据仓库服务都具备快速、可扩展的特点,并且只需掌握如何编写标准 SQL 就能使用。ETL 合作伙伴(如 Fivetran、Segment 和 Matillion)可提供可靠的一键式 ETL 服务,从数百种应用程序到 Amazon Redshift 和 Amazon S3,不一而足。最后,基于云的分析平台(如 Mode)将可视化工具、完全托管的 R Notebook 和 Python Notebook 以及分发平台结合在一起。



这种现代堆栈与 Netflix 或 Airbnb 中的工具一样强大,可提供全自动的 BI 和数据科学工具。它可以在几天之内完成部署,而成本远低于传统数据科学工具。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/build-a-modern-analytics-stack-optimized-for-sharing-and-collaborating-with-mode-and-amazon-redshift/


2019 年 12 月 27 日 11:28176

评论

发布
暂无评论
发现更多内容

助我拿到37KOffer,这份阿里巴巴890页Redis笔记可谓功不可没

Java架构之路

Java 程序员 架构 面试 编程语言

对标阿里P7Java架构师面试题,已助我拿下字节、蚂蚁、滴滴三家Offer

Java架构之路

Java 程序员 架构 面试 编程语言

【数独问题】经典面试题:解数独 ...

宫水三叶的刷题日记

LeetCode 数据结构与算法 面试数据结构与算法

超硬核!啃完这些互联网Java面试高频宝典,成功定级阿里P7

Java成神之路

Java 程序员 架构 面试 编程语言

写作的意义

ES_her0

28天写作 3月日更

WebRTC服务器模型

赖猫

音视频 WebRTC

网易游戏基于 Flink 的流式 ETL 建设

Apache Flink

flink

你的终端从未如此高效

Kareza

3月日更 Oh My Zsh

谷歌大脑团队官方推荐,用浏览器实现深度学习的「黑科技」教程来了!

图灵社区

JavaScript 人工智能 机器学习 深度学习 前端

融云即时通讯SDK集成 -- 国内厂商推送集成踩坑篇(Android平台)

融云 RongCloud

即时通讯

OpenKruise v0.8.0 版本发布:K8s 社区首个规模化镜像预热能力

阿里巴巴云原生

容器 云原生 k8s 安全 应用服务中间件

Sentinel流量控制&服务熔断降级详解

Java王路飞

Java 程序员 面试 微服务 降级

高质量、高并发的实时通信架构设计与探索

融云 RongCloud

架构 通信

技术债是什么、怎么还?你想知道的都在这一篇文章里了!

禅道项目管理

技术 技术债 问题

叹服!微软自爆虐心405页程序员面试通关手册,Github上已获赞75.6K

Java架构之路

Java 程序员 架构 面试 编程语言

并发编程-原子操作CAS

赖猫

c++ 高并发 并发 CAS Linux服务器开发

Linux 高并发服务器 select/poll实现

赖猫

Linux linux编程 linux开发 Linux服务器开发

为啥你一入场就开始跌呢?聊聊长期主义

池建强

长期主义

嵌入式技术与人工智能有什么关系?

cdhqyj

人工智能 嵌入式 系统 科技

融云集成之避坑指南-Android推送篇

融云 RongCloud

音视频

融云 IM SDK 转 AndroidX

融云 RongCloud

IM

阿里P8内部架构核心学习知识笔记在各大互联网上流传,限时开放下载

Java成神之路

程序员 架构 面试 编程语言 Javav

惊喜!Alibaba架构师终于发布“微服务架构:权威指南-第一本微服务书”文档

Java成神之路

Java 程序员 架构 面试 编程语言

DataPipeline亮相“2021科技助力湾区数字金融发展峰会”,解锁“实时数据管理”密码

DataPipeline

阿里新产Java后端面试最全总结!25个专题+十万字面试总结,金三银四刷这一份就够了!

程序员小毕

Java 程序员 面试 分布式 消息中间件

融云即时通讯SDK集成 -- FCM推送集成指南(Android平台)

融云 RongCloud

即时通讯

Java中的枚举,这一篇全了,一些不为人知的干货

程序员小毕

Java 程序员 架构 面试 枚举

Redis和Memcached的区别

赖猫

redis memcached 服务器开发 Linux服务器开发

San CLI 的实现原理

百度Geek说

cli service san command

面试其实并不难!今年金三银四我靠着这份面试题跟答案,我从14K变成了28K!

Java王路飞

Java spring 程序员 面试 分布式

知道Python中的字符串是什么吗?

华为云开发者社区

Python 编程语言 字符串 字符

2021 ThoughtWorks 技术雷达峰会

2021 ThoughtWorks 技术雷达峰会

为共享和协作而优化的现代分析平台 –使用 Mode 和 Amazon Redshift建设分析堆栈-InfoQ