抖音技术能力大揭密!钜惠大礼、深度体验,尽在火山引擎增长沙龙,就等你来! 立即报名>> 了解详情
写点什么

通过 Amazon Athena 进行无服务器架构的大数据分析

2019 年 12 月 20 日

通过 Amazon Athena 进行无服务器架构的大数据分析

互联网时代带来了数据量的海量增长,数据驱动业务决策成为大势所趋。分析人员迫切的希望能快速的交互式的从海量的数据中抓取有用的信息来辅助决策。在 AWS 上,Amazon S3 对象存储服务由于其高可用性,高持久性,可扩展性和数据格式兼容性等特点成为建设存储海量数据的数据湖的首选。Amazon Athena 可以轻松对 Amazon S3 中的数据进行交互式查询,是一款开箱即用、无需运维的全托管服务。


Amazon Athena****介绍

借助 Amazon Athena,分析人员能够轻松使用标准 SQL 分析 Amazon S3 中的数据。Athena 采用无服务器架构,因此无需管理任何基础设施,且只需按需为运行的查询付费。


Athena 简单易用。只需指向您存储在 Amazon S3 中的数据路径,定义架构并使用标准 SQL 就可以 开始查询。查询可以在数秒内获取结果,并且可以实时展示查询结果以迭代查询语句。使用 Athena,无需执行复杂的 ETL 作业来为数据分析做准备。这样一来,任何具备 SQL 技能的人员都可以轻松快速地分析大规模数据集。


Athena 可与 AWS Glue 数据目录进行开箱即用集成。AWS Glue 让您能够跨各种服务创建统一的元数据存储库、抓取数据源以发现 schema 并使用新的和修改后的表与分区定义填充数据目录,以及维护 schema 版本控制。您还可以使用 Glue 完全托管的 ETL 功能来转换数据或将其转化为列格式,以优化成本并提高性能。


Amazon Athena****工作原理

Amazon Athena 是完全的无服务器架构,用户不需要管理底层的资源只需要按照扫过的数据量付费。


用户可以通过控制台界面或者 API 的方式提交查询,查询结果会默认保存到 S3 中并返回到控制台界面。当您在后台查询现有表时,Amazon Athena 会使用 Presto,一种分布式 SQL 查询引擎。


Amazon Athena 的元数据存储在 Glue 数据目录里,如果当前区域没有 Glue 服务则元数据保存在 Athena 自带数据库中。


Athena 通过 workgroups 来限制资源的访问,可以限制每条查询最大扫过的数据量或者每个 workgroup 最大可以扫过的数据量。每个 workgroup 有单独的监控指标并可设置单独的告警。


Amazon Athena****典型应用场景

Amazon Athena 可以对 S3 里的数据进行交互式查询,常见的使用案例包括:


  • Adhoc 查询 – 一次性查询大量数据,Athena 支持 ANSI SQL 做查询和分析,可以直接查询源中的数据而不需要加载数据到 Athena。 Amazon Athena 可以处理非结构化、半结构化的和结构化的数据包括 CSV、JSON、Avro 或者列式存储 Apache Parquet 和 Apache ORC。

  • 报表和展示工具 – Amazon Athena 可以结合 Amazon QuickSight 做数据展示。Athena 可以用来生成报表并且支持用 BI 工具直接查询比如 Tableau 或者 SQL clients, 支持 ODBC 或者 JDBC 连接。

  • 数据产品 – 使用 Athena SDK 和 CLI 工具可以把 Athena 查询嵌入到应用程序里面作为数据产品提供。


Amazon Athena****客户案例

Atlassian 通过开发企业协同办公 SaaS 产品,助力提升公司员工的办公效率以期达到产出最大化,旗下产品包括 JIRA、Confluence、HipChat 等。



参考连接: https://aws.amazon.com/cn/solutions/case-studies/atlassian/?nc1=h_ls


Atlassian 的企业数据湖架构中采用了多个 AWS 服务包括 Amazon S3、Amazon Kinesis、AWS Glue 和 Amazon Athena,具体架构如下:



Athena 被用作数据探索和展示工具的查询引擎,查询存储于 S3 中的处理好的数据。这套数据湖平台赋能给 Atlassian 的分析人员,让他们可以使用熟悉的展示工具或语言来更好的发掘数据中的价值。


Athena 拥有全托管无需管理集群资源,只需要为运行的查询付费,并且可以追踪查询级别费用等优势。这些优势使得 Atlassian 决定把数据湖的查询引擎选型从 Amazon EMR 的 Presto 集群迁移到 Amazon Athena。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/big-data-analysis-with-serverless-architecture-via-amazon-athena/


2019 年 12 月 20 日 15:12249

欲了解 AWS 的更多信息,请访问【AWS 技术专区】

评论

发布
暂无评论
发现更多内容

浅析 VO、DTO、DO、PO 的概念、区别和用处!

Java小咖秀

学习 设计模式 模型 经验分享

Linux 进程必知必会

cxuan

Linux 操作系统

字节跳动面试经验分享,已拿 Offer!

伍陆柒

Java 面试 大厂

不是完成你学习的 KPI ,而是要形成指导你行动的 OKR

非著名程序员

学习 程序员 提升认知 知识管理 程序员成长

一些思考

张健

SpringBoot入门:00 - 初始化项目

封不羁

Spring Boot java 14

30 张图带你分分钟看懂进程和线程基础知识全家桶

爱嘤嘤嘤斯坦

Java 线程 进程 进程线程区别

猿灯塔:spring Boot Starter开发及源码刨析(二)

猿灯塔

Java 猿灯塔 源码刨析

带你解析MySQL binlog

Simon

MySQL Binlog

mac vmware centos7 设置静态IP

愤毛阿青

network vmware Centos 7

聊聊Spring的IOC以及JVM的类加载

小隐乐乐

​区块链技术的重要性

CECBC区块链专委会

Python类中的__new__和__init__的区别

BigYoung

Python __init__ __new__

开发者必备——IDEA配置清单

Noneplus

配置 IDEA

kubernetes集群安装(二进制)

小小文

Kubernetes 容器 容器技术

关于计划的思考

zhongzhq

图片处理不用愁,给你十个小帮手

阿宝哥

Java 前端 工具 开源项目 图片

还在划水?这个SQL你能写出来吗?

书旅

php MySQL SQL语法 sql查询

推荐一款Python开源库,技术人必备的造数据神器!

狂师

Python 开源 自动化 开发工具 开发数据

Node.js与二进制数据流

自然醒

Java node.js 前端 二进制

JVM中栈的frames详解

程序那些事

JVM 堆栈 性能调优 JIT GC

Redis进阶篇三——主从复制

多选参数

redis redis高可用 redis6.0.0 Redis项目

一文看懂 OAuth2

pingan8787

Java 前端 Web oauth2.0

漫画 | 架构设计中的那些事

码农神说

架构设计 架构师 漫画编程

Tomcat8.5源码构建

知春秋

tomcat tomcat构建 tomcat源码解读 tomcat剖析

Python中的@staticmethod和@classmethod的区别

BigYoung

Python classmethod staticmethod

信创舆情一线--《关键信息基础设施安全保护条例》纳入2020年立法计划

统小信uos

信息安全

性能碾压 POI !利用模板语法快速生成 Excel 报表

Geek_Willie

表格控件 GCExcel 服务器端开发

重学 Java 设计模式:实战访问者模式「模拟家长与校长,对学生和老师的不同视角信息的访问场景」

小傅哥

设计模式 小傅哥 重构 代码优化 访问者模式

工厂方法模式

Leetao

Python 设计模式 工厂方法模式

Rust是如何保障内存安全的

博文视点Broadview

读书笔记 rust

Study Go: From Zero to Hero

Study Go: From Zero to Hero

通过 Amazon Athena 进行无服务器架构的大数据分析-InfoQ