数据湖是一种用于聚合、存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。
## 先决条件
对于本博文,您需要:
* [](https://signin.aws.amazon.com/signin?redirect_uri=https%3A%2F%2Fportal.aws.amazon.com%2Fbilling%2Fsignup%2Fresume&client_id=signup)。
* 可以访问 [](https://amazonaws-china.com/s3/)、[](https://amazonaws-china.com/glue/) 和 AWS Lake Formation 的 AWS Identity and Access Management (IAM) 用户。
## 控制台中的元数据搜索
在本博文中,我们将演示 Lake Formation 控制台提供的目录搜索功能:
* 按分类搜索
* 按关键字搜索
* 按“标记:属性”搜索
* 多个筛选器搜索
### 按分类搜索
使用元数据目录搜索功能,在数据湖内的所有表中进行搜索。两个表共享名称 **amazon_reviews**,但分别属于模拟的“生产”数据库和“测试”数据库,第三个表是 **trip-data**。
1. 在 Lake Formation 控制台的**数据目录**下,选择**表**。
2. 在搜索栏中的**资源属性**下,选择**分类**,键入 **CSV**,然后按 Enter。您应该只会看到 **trip_data** 表,该表在数据湖中格式化为 CSV。**amazon_reviews** 表未显示,因为它们采用 Parquet 格式。
3. 在**名称**列中,选择 **trip_data**。在**表详细信息**下,您可以看到元数据搜索筛选器正确识别了分类 **CSV**。
### 按关键字搜索
接下来,按关键字搜索整个数据湖,以筛选元数据。
1. 要刷新表列表,请在**数据目录**下再次选择**表**。
2. 在搜索栏中键入 `star_rating`,然后按 Enter**。**现在您已经应用了筛选器,您应该只会看到 **amazon_reviews** 表,因为它们都包含名为 **star_rating** 的列。
3. 通过选择两个表中的任何一个,您可以向下滚动到**架构**部分,并确认它们包含 **star_rating** 列。
### 多个筛选器搜索
最后,尝试一次使用多个筛选器搜索整个数据湖。
1. 要刷新表列表,请在**数据目录**下选择**表**。
2. 在搜索栏中,选择**位置**,键入 `S3`,然后按 Enter。对于本博文,所有目录表都位于 S3 中,因此将显示所有三个表。
3. 在搜索栏中,选择**分类**,键入 `parquet`,然后按 Enter。您应该只会看到 **amazon_reviews** 表,因为它们是 S3 中唯一以 Parquet 格式存储的表。
4. 从显示的 **amazon_reviews** 表中任意选择一个表。在**表详细信息**下,您可以看到以下信息。
* **位置**:S3
* **分类**:parquet
## 受列权限限制的元数据搜索结果
元数据搜索功能基于在 Lake Formation 中指定的权限来返回结果。如果用户或角色无权访问特定的数据库、表或列,则该元素不会显示在该用户的搜索结果中。
要对此进行演示,请先[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console) **dataResearcher**,该用户可访问 AWS 管理控制台。确保将密码存储在安全位置。
为了简化本博文,为用户附加**管理员访问权限**策略。此策略授予对您的 AWS 账户的完全访问权限,这是过度宽松的访问权限。建议您在学完本博文后删除该用户,或者删除此策略,然后启用多重身份验证 (MFA)。有关更多信息,请参阅[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console)。
[](https://amazonaws-china.com/blogs/big-data/discovering-metadata-with-aws-lake-formation-part-1/),您允许**任何人**查看由 AWS Glue 爬网程序创建的表。现在,请撤销对 **ny-taxi** 数据库的这些权限。
1. 在 Lake Formation 控制台的**权限**下,选择**数据权限**。
2. 向下滚动或搜索,直到看到 **trip_data** 表的**任何人**记录。
3. 选择记录,然后选择**撤销**、**撤销**。
现在,**dataResearcher** IAM 用户无法查看 **ny-taxi** 数据库或 **trip_data** 表。通过设置 Lake Formation 权限来解决此问题。
1. 在**权限**下,依次选择**数据权限**、**授予**。
2. 选择 **dataResearcher** 用户、**ny-taxi** 数据库和 **trip_data** 表。
3. 在**表权限**下,选中**选择**,然后选择**授予**。
4. 注销控制台,然后使用您先前创建的 **dataResearcher** IAM 用户重新登录。
5. 在 Lake Formation 控制台中,依次选择**表**、**trip_data** 表**,**然后查看其属性:![](https://d2908q01vomqb2.awsstatic-china.com/b6692ea5df920cad691c20319a6fffd7a4a766b8/2019/08/15/MetadataLakeFormation1.png)</section>
本文转载自 AWS 技术博客。
原文链接:https://amazonaws-china.com/cn/blogs/china/discover-metadata-with-aws-lake-formation-part-2/
更多内容推荐
AWS Support Plan
介绍AWS Support Plan
2022-07-18
开发中遇到跨域我选择这么做
大家好,我是小鑫同学。一位从事过 Android 开发、混合开发,现在长期从事前端开发的编程爱好者,我觉得在编程之路上最重要的是知识的分享,所谓三人行必有我师。所以我开始在社区持续输出我所了解到、学习到、工作中遇到的各种编程知识,欢迎有想法、有同感
2022-10-13
比亚迪新能源汽车战略布局研究
汽车电子报告。
2023-01-31
开源工具系列 3:Prowler
Prowler 是一个命令行工具,可帮助您进行 AWS 安全评估、审计、强化和事件响应。
2023-02-06
大中华区联合企业捷成集团在 AWS 上使用 F5 防御恶意 Web 攻击
为了确保在当今竞争激烈的商业环境中占据领先地位,集团在 AWS 环境中利用 F5 高级 Web防火墙(F5 Advanced Web Application Firewall, WAF) 来实现快速扩展和增强安全性,同时显著降低了成本
2023-02-27
2. 字典树实战应用
2023-09-27
11.Jenkins 实战 - CICD(中)
2023-09-30
ElasticSearch 深度分页详解
ElasticSearch是一个实时的分布式搜索与分析引擎,常用于大量非结构化数据的存储和快速检索场景,具有很强的扩展性。纵使其有诸多优点,在搜索领域远超关系型数据库,但依然存在与关系型数据库同样的深度分页问题,本文就此问题做一个实践性分析探讨
2022-11-15
29. 应收账款和固定资产的管理技巧
2023-10-17
【小程序项目开发 -- 京东商城】uni-app 之自定义搜索组件(上)-- 组件 UI
🤵♂️ 个人主页: @计算机魔术师👨💻 作者简介:CSDN内容合伙人,全栈领域优质创作者。
2022-08-30
一起学习集合框架之 TreeSet
TreeSet 是一个具有唯一元素的二叉树的集合。该数据结构的元素按自然顺序排序。下面来看一下 TreeSet 如何创建、往其中插入元素、如何搜索和字符串化操作。
2022-08-05
30|PPT 创意进度条制作
2023-09-03
AWS CEO Adam Selipsky 演讲 Keynote @ re:Levent2022
Join Adam Selipsky, CEO of Amazon Web Services, as he looks at the ways that forward-thinking builders are transforming industries and even future, powered by AWS. He highlights innovations in data, infrastructure, security, and more that
2022-12-05
1.1 PPT 课程开篇语
2023-10-17
兆骑科创创新创业大赛,双创活动,赛事承办,三招三引
兆骑科创创新创业大赛,双创活动,赛事承办,三招三引
2022-08-17
使用 QuTrunk+Amazon ParallelCluster3 进行并行计算
1.丘秉宜;2.邵伟;3.黄文;4.郭梦杰;5.刘利;6.刘波
2022-12-27
60|类的继承:如何解决代码重用的问题?
2022-12-21
微信红包实现原理
微信红包实现原理
2022-10-14
推荐阅读
Amazon EC2 使用测评
2023-11-13
轻松玩转 70 亿参数大模型!借助 Walrus 在 AWS 上部署 Llama2
2023-08-23
FaceFusion:探索无限创意,创造独一无二的面孔融合艺术!
2023-10-10
致谢
2023-12-01
AWS CodeWhisperer 上手初体验安装与使用
2023-06-06
12. 如何通过 3UMEMO 表改善问题点?
2023-10-17
看完了
2023-12-01
电子书
大厂实战PPT下载
换一换 宋东辉 | 网易云音乐 资深测试开发工程师
康杨 | 京东科技 金融科技群/架构师
栾小凡 | Zilliz 合伙人
评论