AWS Lake Formation 入门

2019 年 12 月 23 日

AWS Lake Formation 入门

基于 AWS Lake Formation 您可以轻松构建起安全的数据湖。 数据湖是一个集中的、有组织的、安全的数据存储环境,可以存储您的任意规模的结构化和非结构化数据。 您可以按原样存储数据,而无需先对其进行结构化。 您可以运行包括:仪表板、可视化、大数据处理、实时分析和机器学习等各种类型的分析和处理,以更好地指导决策制定。


构建数据湖面临的挑战


数据湖管理的主要挑战,源于原始数据存储内容没有被监管。为了使数据湖中的数据可用,您需要通过定义处理机制对数据进行编目和安全管理。Lake Formation提供了对数据湖实施治理、语义一致性和访问控制的机制。 Lake Formation使您的数据更容易的用于分析和机器学习,为您的业务提供更好的价值。Lake Formation 允许您控制和审计对数据湖的访问。AWS Glue Data Catalog集成了数据访问策略,无论数据来源如何,均可确保合规性。


演练


在本演练中,我将展示如何构建和使用数据湖:


  • 创建数据湖管理员。

  • 注册 Amazon S3 路径。

  • 创建数据库。

  • 授予权限。

  • 使用 AWS Glue 对数据进行爬取,以创建元数据表。

  • 授予对表数据的访问权限。

  • 使用 Amazon Athena 查询数据。

  • 添加具有受限访问权限的新用户并验证结果。


先决条****件


对于本演练,您需要以下资源:


  • AWS 账户

  • 具有 AWSLakeFormationDataAdmin 策略的 IAM 用户。有关更多信息,请参阅 IAM 访问策略

  • 名为 datalake-yourname-region 的 S3 存储桶(位于US-East (N. Virginia)

  • 新 S3 存储桶中名为 zipcode 的文件夹。


您需要下载样本数据集。在本演练中,使用纽约市统计数据。该数据可在 DATA.GOV 网站上的按邮政编码统计的纽约市人口统计数据表中找到。将文件上传到 S3 存储桶的 /zipcode 文件夹中。


确保您设置好了 S3 存储桶,并且已经将数据集上传到上述位置。现在,使用 Lake Formation 设置您的数据湖。


步骤 1:创建数据湖管理员


首先,将您自己指定为数据湖管理员,以允许访问任何 Lake Formation 资源。


步骤 2:注册 Amazon S3 路径


接下来,注册 Amazon S3 路径以将您的数据包含在数据湖中。


步骤 3:创建数据库


接下来,在 AWS Glue Data Catalog 中创建一个数据库以包含 zipcode 表定义。


  • Database: zipcode-db.

  • Location: 您的 S3 存储桶/zipcode.

  • New tables in this database: 请不要选择Grant All to Everyone.


步骤 4:授予权限


接下来,授予 AWS Glue 使用 zipcode-db 数据库的权限。对于“IAM users and roles”,选择你的用户和 AWSGlueServiceRoleDefault


授予你的用户和 AWSServiceRoleForLakeFormationDataAccess 使用数据湖的权限,该数据湖使用以下数据位置:


  • 针对“IAM users and roles”,选择你的用户和 AWSServiceRoleForLakeFormationDataAccess

  • 针对存储位置,输入 s3://datalake-yourname-region。


步骤 5:使用 AWS Glue 对数据进行爬取以创建元数据和表


在此步骤中,爬取程序将连接到数据存储,处理分类器的优先级列表以确定数据的结构,然后在 AWS Glue 数据目录中创建元数据表。


使用 AWS Glue Crawl 创建表。使用以下配置设置:


  • Crawler name: zipcodecrawler.

  • Data stores: Select this field.

  • Choose a data store: Select S3.

  • Specified path: Select this field.

  • Include path: s3://datalake-yourname-location/zipcode.

  • Add another data store: Choose No.

  • Choose an existing IAM role: Select this field.

  • IAM role: Select AWSGlueServiceRoleDefault.

  • Run on demand: Select this field.

  • Database: Select zipcode-db.


选择“Run it now? ”。 然后等到爬取程序停止运行,再继续下一步。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/getting-started-with-aws-lake-formation/


2019 年 12 月 23 日 17:40123

评论

发布
暂无评论
发现更多内容

架构师第三周总结

跨域刀

极客大学架构师训练营

架构师训练营-第三周-学习总结

狂奔嘀兔纸

极客大学架构师训练营

架构师训练营第三周总结

15359861984

游戏夜读 | 自定义爆率又何妨?

game1night

架构师训练营-第三章-总结

而立

极客大学架构师训练营

架构师-第三周-命题作业

兔狲

week03 homework

胡文强

极客大学架构师训练营

第三周作业一

安阳

week3- 作业

暖丶冬

组合模式-树状结构的优雅实现

hellohuan

极客大学架构师训练营

Week3-Homework

架构师训练营week03总结

小高

代码重构能力是架构师最基本的能力(第 3 周学习总结)

李德政

极客大学架构师训练营

架构师第三周作业

跨域刀

极客大学架构师训练营

第三周作业

嘻哈

常用的设计模式

stars

架构学习(三)总结

漫步跑小鸡

架构师训练营第 3 周学习总结

Season

设计模式 极客大学架构师训练营

架构师训练营第三周作业

15359861984

「架构师训练营」第 3 周学习总结

邓江川。

【架构师训练营】第 3 周总结

花生无翼

极客大学架构师训练营

架构师训练营学习总结3

默默

架构师训练营作业 (第三周)

小遵

架构师训练营(第 3周作业)

李德政

极客大学架构师训练营

关于代码重构的感触

极客

Docker基础修炼1--Docker简介及快速入门体验

黑马腾云

Docker Linux 运维 容器技术

架构师训练营week03 summary

胡文强

极客大学架构师训练营

设计模式的一些感想

紫极

第3周作业

uangguan

架构师训练营作业 (第三周)

默默

小结3

Kiroro

AWS Lake Formation 入门-InfoQ