数据湖是一种用于聚合、存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。
## 先决条件
对于本博文,您需要:
* [](https://signin.aws.amazon.com/signin?redirect_uri=https%3A%2F%2Fportal.aws.amazon.com%2Fbilling%2Fsignup%2Fresume&client_id=signup)。
* 可以访问 [](https://amazonaws-china.com/s3/)、[](https://amazonaws-china.com/glue/) 和 AWS Lake Formation 的 AWS Identity and Access Management (IAM) 用户。
## 控制台中的元数据搜索
在本博文中,我们将演示 Lake Formation 控制台提供的目录搜索功能:
* 按分类搜索
* 按关键字搜索
* 按“标记:属性”搜索
* 多个筛选器搜索
### 按分类搜索
使用元数据目录搜索功能,在数据湖内的所有表中进行搜索。两个表共享名称 **amazon_reviews**,但分别属于模拟的“生产”数据库和“测试”数据库,第三个表是 **trip-data**。
1. 在 Lake Formation 控制台的**数据目录**下,选择**表**。
2. 在搜索栏中的**资源属性**下,选择**分类**,键入 **CSV**,然后按 Enter。您应该只会看到 **trip_data** 表,该表在数据湖中格式化为 CSV。**amazon_reviews** 表未显示,因为它们采用 Parquet 格式。
3. 在**名称**列中,选择 **trip_data**。在**表详细信息**下,您可以看到元数据搜索筛选器正确识别了分类 **CSV**。
### 按关键字搜索
接下来,按关键字搜索整个数据湖,以筛选元数据。
1. 要刷新表列表,请在**数据目录**下再次选择**表**。
2. 在搜索栏中键入 `star_rating`,然后按 Enter**。**现在您已经应用了筛选器,您应该只会看到 **amazon_reviews** 表,因为它们都包含名为 **star_rating** 的列。
3. 通过选择两个表中的任何一个,您可以向下滚动到**架构**部分,并确认它们包含 **star_rating** 列。
### 多个筛选器搜索
最后,尝试一次使用多个筛选器搜索整个数据湖。
1. 要刷新表列表,请在**数据目录**下选择**表**。
2. 在搜索栏中,选择**位置**,键入 `S3`,然后按 Enter。对于本博文,所有目录表都位于 S3 中,因此将显示所有三个表。
3. 在搜索栏中,选择**分类**,键入 `parquet`,然后按 Enter。您应该只会看到 **amazon_reviews** 表,因为它们是 S3 中唯一以 Parquet 格式存储的表。
4. 从显示的 **amazon_reviews** 表中任意选择一个表。在**表详细信息**下,您可以看到以下信息。
* **位置**:S3
* **分类**:parquet
## 受列权限限制的元数据搜索结果
元数据搜索功能基于在 Lake Formation 中指定的权限来返回结果。如果用户或角色无权访问特定的数据库、表或列,则该元素不会显示在该用户的搜索结果中。
要对此进行演示,请先[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console) **dataResearcher**,该用户可访问 AWS 管理控制台。确保将密码存储在安全位置。
为了简化本博文,为用户附加**管理员访问权限**策略。此策略授予对您的 AWS 账户的完全访问权限,这是过度宽松的访问权限。建议您在学完本博文后删除该用户,或者删除此策略,然后启用多重身份验证 (MFA)。有关更多信息,请参阅[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console)。
[](https://amazonaws-china.com/blogs/big-data/discovering-metadata-with-aws-lake-formation-part-1/),您允许**任何人**查看由 AWS Glue 爬网程序创建的表。现在,请撤销对 **ny-taxi** 数据库的这些权限。
1. 在 Lake Formation 控制台的**权限**下,选择**数据权限**。
2. 向下滚动或搜索,直到看到 **trip_data** 表的**任何人**记录。
3. 选择记录,然后选择**撤销**、**撤销**。
现在,**dataResearcher** IAM 用户无法查看 **ny-taxi** 数据库或 **trip_data** 表。通过设置 Lake Formation 权限来解决此问题。
1. 在**权限**下,依次选择**数据权限**、**授予**。
2. 选择 **dataResearcher** 用户、**ny-taxi** 数据库和 **trip_data** 表。
3. 在**表权限**下,选中**选择**,然后选择**授予**。
4. 注销控制台,然后使用您先前创建的 **dataResearcher** IAM 用户重新登录。
5. 在 Lake Formation 控制台中,依次选择**表**、**trip_data** 表**,**然后查看其属性:![](https://d2908q01vomqb2.awsstatic-china.com/b6692ea5df920cad691c20319a6fffd7a4a766b8/2019/08/15/MetadataLakeFormation1.png)</section>
本文转载自 AWS 技术博客。
原文链接:https://amazonaws-china.com/cn/blogs/china/discover-metadata-with-aws-lake-formation-part-2/
更多内容推荐
使用 QuTrunk+Amazon ParallelCluster3 进行并行计算
1.丘秉宜;2.邵伟;3.黄文;4.郭梦杰;5.刘利;6.刘波
2022-12-27
10 | 总结:工欲善其事,必先利其器
2023-03-16
安全合规不触礁,企业出海如何才能“不踩坑”?
在“大咖说出海”第二期,我们将围绕“安全合规不触礁,企业出海如何才能“不踩坑”展开。
【7.15-7.22】写作社区精彩技术博文回顾
Hello 大家好呀,为了让更多的优质的内容和创作者被看见,我们决定不定时地向大家推荐近期优质的社区文章和新入驻的创作者们。
2022-07-22
去中心化 NFT 交易平台开发
去中心化NFT交易平台开发,hkkf5566,可加薇
2022-06-08
盲盒开发
盲盒软件源码开发,盲盒软件源码开发,盲盒app原生开发,盲盒系统开发,盲盒小程序开发,盲盒模式开发,盲盒平台搭建,盲盒功能详解,盲盒源码搭建,一番赏小程序,芒趣app小程序
2021-11-17
轻松玩转 70 亿参数大模型!借助 Walrus 在 AWS 上部署 Llama2
Llama 2 是 Meta 的下一代开源大语言模型。它是一系列经过预训练和微调的模型,参数范围从 70 亿到 700 亿个。Meta Llama 2 可免费用于研究和商业用途并且提供了一系列具有不同大小和功能的模型,因此一经发布备受关注。在之前的文章中,我们详细地介绍了Lla
2023-08-23
云中白鹤——AWS 云中的身份管理与访问控制之伟大的角色
2022-08-30
2022 第十四届南京国际智慧工地展览会|智慧工地展
2022第十四届南京国际智慧工地展览会|智慧工地展
2022-07-20
10 分钟带你彻底搞懂 Spring Cloud Config 配置信息自动更新原理
2022-03-29
大模型基础学习
大模型基础
2023-07-18
做了六年 Android,终于熬出头了,15K 到 31K 全靠这份高级面试题
在博主认为,对于Android面试以及进阶的最佳学习方法莫过于刷题+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现面试并不难,其次就是在刷题的过程中有没有去思考,刷题只是次之,这又是一个层次了,
2021-11-05
Elasticsearch 聚合学习之四:结果排序
《Elasticsearch聚合学习之四:结果排序》;
2021-11-11
Ionic 用于构建跨平台移动应用程序的开源框架
Ionic是一个用于构建跨平台移动应用程序的开源框架。它结合了HTML、CSS和JavaScript等技术,帮助开发者创建具有原生应用体验的移动应用程序。Ionic提供了一套用户界面组件和工具,可用于构建高度交互和美观的移动应用界面。
2023-06-25
四年 Android,终于咸鱼翻身!8K 到 25K 全靠这份高级面试题
在博主认为,对于Android面试以及进阶的最佳学习方法莫过于刷题+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现面试并不难,其次就是在刷题的过程中有没有去思考,刷题只是次之,这又是一个层次了,
2021-11-02
远程桌面连接如何设置?远程桌面连接的设置方法
远程桌面连接如何设置?远程桌面连接的设置方法
2023-03-23
10|如何利用洞察打造产品卖点?
2022-10-20
11. 结构型 - 组合模式 Compose
2023-02-15
如何成为 Apache 基金会的 Committer?
2022-03-22
Apache Doris 2.0.2 版本正式发布!
亲爱的社区小伙伴们,Apache Doris 2.0.2 版本已于 2023 年 10 月 6 日正式发布,该版本对多个功能进行了更新优化,旨在更好地满足用户的需求。
2023-10-13
推荐阅读
17|HuggingFace 与 Pre-trained Model:借助 AI 社区的力量
2023-10-25
12.compose vs swarm
2023-09-30
一篇学会 cron 表达式
2023-11-29
HTX 与 Zebec Protocol 展开深度合作,并将以质押者的身份参与 ZBC Staking
2023-10-17
OpenAI“政变”进行时,“百模大战”接下来该战什么?
2023-11-21
05. 找竞争蓝海,用竞争优势抢占高地
2023-10-17
架构实战营 - 模块七作业
2023-11-14
电子书
大厂实战PPT下载
换一换 祝海林 | Kyligence 技术合伙人、Byzer PMC
高琳 | Red Hat 高级软件工程师
姜天意 | 腾讯云 前端技术专家
推荐阅读
17|HuggingFace 与 Pre-trained Model:借助 AI 社区的力量
2023-10-25
12.compose vs swarm
2023-09-30
一篇学会 cron 表达式
2023-11-29
HTX 与 Zebec Protocol 展开深度合作,并将以质押者的身份参与 ZBC Staking
2023-10-17
OpenAI“政变”进行时,“百模大战”接下来该战什么?
2023-11-21
05. 找竞争蓝海,用竞争优势抢占高地
2023-10-17
架构实战营 - 模块七作业
2023-11-14
评论