速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

  • 2019-12-20
  • 本文字数:1971 字

    阅读完需:约 6 分钟

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

数据湖是一种用于聚合、存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。


在本博文系列的第 1 部分中


,您学习了如何使用 Lake Formation 来创建和探索数据湖。本博文将引导您使用控制台中的 Lake Formation 的元数据搜索功能来发现数据,并了解受列权限限制的元数据搜索结果。


## 先决条件
对于本博文,您需要:
* [](https://signin.aws.amazon.com/signin?redirect_uri=https%3A%2F%2Fportal.aws.amazon.com%2Fbilling%2Fsignup%2Fresume&client_id=signup)。* 可以访问 [](https://amazonaws-china.com/s3/)、[](https://amazonaws-china.com/glue/) 和 AWS Lake Formation 的 AWS Identity and Access Management (IAM) 用户。
## 控制台中的元数据搜索
在本博文中,我们将演示 Lake Formation 控制台提供的目录搜索功能:
* 按分类搜索* 按关键字搜索* 按“标记:属性”搜索* 多个筛选器搜索
### 按分类搜索
使用元数据目录搜索功能,在数据湖内的所有表中进行搜索。两个表共享名称 **amazon_reviews**,但分别属于模拟的“生产”数据库和“测试”数据库,第三个表是 **trip-data**。
1. 在 Lake Formation 控制台的**数据目录**下,选择**表**。2. 在搜索栏中的**资源属性**下,选择**分类**,键入 **CSV**,然后按 Enter。您应该只会看到 **trip_data** 表,该表在数据湖中格式化为 CSV。**amazon_reviews** 表未显示,因为它们采用 Parquet 格式。3. 在**名称**列中,选择 **trip_data**。在**表详细信息**下,您可以看到元数据搜索筛选器正确识别了分类 **CSV**。
### 按关键字搜索
接下来,按关键字搜索整个数据湖,以筛选元数据。
1. 要刷新表列表,请在**数据目录**下再次选择**表**。2. 在搜索栏中键入 `star_rating`,然后按 Enter**。**现在您已经应用了筛选器,您应该只会看到 **amazon_reviews** 表,因为它们都包含名为 **star_rating** 的列。3. 通过选择两个表中的任何一个,您可以向下滚动到**架构**部分,并确认它们包含 **star_rating** 列。
### 多个筛选器搜索
最后,尝试一次使用多个筛选器搜索整个数据湖。
1. 要刷新表列表,请在**数据目录**下选择**表**。2. 在搜索栏中,选择**位置**,键入 `S3`,然后按 Enter。对于本博文,所有目录表都位于 S3 中,因此将显示所有三个表。3. 在搜索栏中,选择**分类**,键入 `parquet`,然后按 Enter。您应该只会看到 **amazon_reviews** 表,因为它们是 S3 中唯一以 Parquet 格式存储的表。4. 从显示的 **amazon_reviews** 表中任意选择一个表。在**表详细信息**下,您可以看到以下信息。
* **位置**:S3* **分类**:parquet
## 受列权限限制的元数据搜索结果
元数据搜索功能基于在 Lake Formation 中指定的权限来返回结果。如果用户或角色无权访问特定的数据库、表或列,则该元素不会显示在该用户的搜索结果中。
要对此进行演示,请先[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console) **dataResearcher**,该用户可访问 AWS 管理控制台。确保将密码存储在安全位置。
为了简化本博文,为用户附加**管理员访问权限**策略。此策略授予对您的 AWS 账户的完全访问权限,这是过度宽松的访问权限。建议您在学完本博文后删除该用户,或者删除此策略,然后启用多重身份验证 (MFA)。有关更多信息,请参阅[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console)。
[](https://amazonaws-china.com/blogs/big-data/discovering-metadata-with-aws-lake-formation-part-1/),您允许**任何人**查看由 AWS Glue 爬网程序创建的表。现在,请撤销对 **ny-taxi** 数据库的这些权限。
1. 在 Lake Formation 控制台的**权限**下,选择**数据权限**。2. 向下滚动或搜索,直到看到 **trip_data** 表的**任何人**记录。3. 选择记录,然后选择**撤销**、**撤销**。
现在,**dataResearcher** IAM 用户无法查看 **ny-taxi** 数据库或 **trip_data** 表。通过设置 Lake Formation 权限来解决此问题。
1. 在**权限**下,依次选择**数据权限**、**授予**。2. 选择 **dataResearcher** 用户、**ny-taxi** 数据库和 **trip_data** 表。3. 在**表权限**下,选中**选择**,然后选择**授予**。4. 注销控制台,然后使用您先前创建的 **dataResearcher** IAM 用户重新登录。5. 在 Lake Formation 控制台中,依次选择**表**、**trip_data** 表**,**然后查看其属性:![](https://d2908q01vomqb2.awsstatic-china.com/b6692ea5df920cad691c20319a6fffd7a4a766b8/2019/08/15/MetadataLakeFormation1.png)</section>
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discover-metadata-with-aws-lake-formation-part-2/


2019-12-20 15:13596

评论

发布
暂无评论
发现更多内容

【Redis缓存】- Redis数据结构、基本命令操作、持久化

Java 程序员 后端

用APaaS平台落地高校闲置资产调剂业务

明道云

【Spring 工厂】工厂设计模式、第一个Spring程序细节分析、整合日志框架

Java 程序员 后端

【springcloud】eureka服务治理入门

Java 程序员 后端

大数据中必须要掌握的 Flink SQL 详细剖析

五分钟学大数据

flink 11月日更

墨天轮国产数据库沙龙 | 张晓庆:GoldenDB分布式数据库的自动安装与备份恢复

墨天轮

数据库 技术沙龙

【Java面经】阿里三面被挂!幸获内推,历经5轮终于拿到口碑offer

Java 程序员 后端

【Redis面试题】Redis的字符串是怎么实现的?

Java 程序员 后端

【Java面经】阿里三面被挂!幸获内推,历经5轮终于拿到口碑offer(1)

Java 程序员 后端

区块链食品溯源平台,给食品定制数字“身份证”

电微13828808271

【MyBatis系列4】一对一,一对多,多对多查询及延迟加载(N+1问题)分析

Java 程序员 后端

【Spring Cloud 12】分布式架构下的高可用设计与可伸缩设计

Java 程序员 后端

【springcloud合集】02:微服务架构理论基础

Java 程序员 后端

【Java设计模式实战系列】好的单例模式是怎样的?

Java 程序员 后端

【Java设计模式系列】装饰器模式(Decorator Pattern)

Java 程序员 后端

【MyBatis系列2】最全MyBatis核心配置文件总结,可以作为工具先收藏了

Java 程序员 后端

技术干货 | Flutter在线编程实践总结

有道技术团队

flutter 大前端 #技术干货#

【备战秋招冲击大厂】Java面试题系列—Java集合

Java 程序员 后端

【备战秋招冲击大厂】Java面试题系列—数据库

Java 程序员 后端

基于etcd实现大规模服务治理应用实战

百度Geek说

百度 架构 后端 etcd 服务治理

【Java面试题】常见Java面试知识点总结

Java 程序员 后端

【Java面试题总结 4】Java Web、网络、设计模式综合篇

Java 程序员 后端

【SpringBoot搭建个人博客】- 后台登录(四)

Java 程序员 后端

【增强】(注解)SSM之配置多数据源

Java 程序员 后端

【Java知识点详解 7】装箱和拆箱

Java 程序员 后端

【Spring 工厂】注入详解 — Set注入(JDK内置类型

Java 程序员 后端

万文讲解实时数仓架构演进

大数据技术指南

11月日更

【大厂技术内幕】字节跳动原来是这么做数据迁移的!

Java 程序员 后端

【Spring Boot 8】Okhttp实现GitHub第三方登录

Java 程序员 后端

质量基础设施一站式综合服务平台,NQI一站式服务线上平台

电微13828808271

【Redis系列2】Redis字符串对象之SDS(简单动态字符串)实现原理分析

Java 程序员 后端

利用 AWS Lake Formation 探索元数据:第 2 部分(一)_文化 & 方法_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章