数据湖是一种用于聚合、存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。
## 先决条件
对于本博文,您需要:
* [](https://signin.aws.amazon.com/signin?redirect_uri=https%3A%2F%2Fportal.aws.amazon.com%2Fbilling%2Fsignup%2Fresume&client_id=signup)。
* 可以访问 [](https://amazonaws-china.com/s3/)、[](https://amazonaws-china.com/glue/) 和 AWS Lake Formation 的 AWS Identity and Access Management (IAM) 用户。
## 控制台中的元数据搜索
在本博文中,我们将演示 Lake Formation 控制台提供的目录搜索功能:
* 按分类搜索
* 按关键字搜索
* 按“标记:属性”搜索
* 多个筛选器搜索
### 按分类搜索
使用元数据目录搜索功能,在数据湖内的所有表中进行搜索。两个表共享名称 **amazon_reviews**,但分别属于模拟的“生产”数据库和“测试”数据库,第三个表是 **trip-data**。
1. 在 Lake Formation 控制台的**数据目录**下,选择**表**。
2. 在搜索栏中的**资源属性**下,选择**分类**,键入 **CSV**,然后按 Enter。您应该只会看到 **trip_data** 表,该表在数据湖中格式化为 CSV。**amazon_reviews** 表未显示,因为它们采用 Parquet 格式。
3. 在**名称**列中,选择 **trip_data**。在**表详细信息**下,您可以看到元数据搜索筛选器正确识别了分类 **CSV**。
### 按关键字搜索
接下来,按关键字搜索整个数据湖,以筛选元数据。
1. 要刷新表列表,请在**数据目录**下再次选择**表**。
2. 在搜索栏中键入 `star_rating`,然后按 Enter**。**现在您已经应用了筛选器,您应该只会看到 **amazon_reviews** 表,因为它们都包含名为 **star_rating** 的列。
3. 通过选择两个表中的任何一个,您可以向下滚动到**架构**部分,并确认它们包含 **star_rating** 列。
### 多个筛选器搜索
最后,尝试一次使用多个筛选器搜索整个数据湖。
1. 要刷新表列表,请在**数据目录**下选择**表**。
2. 在搜索栏中,选择**位置**,键入 `S3`,然后按 Enter。对于本博文,所有目录表都位于 S3 中,因此将显示所有三个表。
3. 在搜索栏中,选择**分类**,键入 `parquet`,然后按 Enter。您应该只会看到 **amazon_reviews** 表,因为它们是 S3 中唯一以 Parquet 格式存储的表。
4. 从显示的 **amazon_reviews** 表中任意选择一个表。在**表详细信息**下,您可以看到以下信息。
* **位置**:S3
* **分类**:parquet
## 受列权限限制的元数据搜索结果
元数据搜索功能基于在 Lake Formation 中指定的权限来返回结果。如果用户或角色无权访问特定的数据库、表或列,则该元素不会显示在该用户的搜索结果中。
要对此进行演示,请先[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console) **dataResearcher**,该用户可访问 AWS 管理控制台。确保将密码存储在安全位置。
为了简化本博文,为用户附加**管理员访问权限**策略。此策略授予对您的 AWS 账户的完全访问权限,这是过度宽松的访问权限。建议您在学完本博文后删除该用户,或者删除此策略,然后启用多重身份验证 (MFA)。有关更多信息,请参阅[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console)。
[](https://amazonaws-china.com/blogs/big-data/discovering-metadata-with-aws-lake-formation-part-1/),您允许**任何人**查看由 AWS Glue 爬网程序创建的表。现在,请撤销对 **ny-taxi** 数据库的这些权限。
1. 在 Lake Formation 控制台的**权限**下,选择**数据权限**。
2. 向下滚动或搜索,直到看到 **trip_data** 表的**任何人**记录。
3. 选择记录,然后选择**撤销**、**撤销**。
现在,**dataResearcher** IAM 用户无法查看 **ny-taxi** 数据库或 **trip_data** 表。通过设置 Lake Formation 权限来解决此问题。
1. 在**权限**下,依次选择**数据权限**、**授予**。
2. 选择 **dataResearcher** 用户、**ny-taxi** 数据库和 **trip_data** 表。
3. 在**表权限**下,选中**选择**,然后选择**授予**。
4. 注销控制台,然后使用您先前创建的 **dataResearcher** IAM 用户重新登录。
5. 在 Lake Formation 控制台中,依次选择**表**、**trip_data** 表**,**然后查看其属性:![](https://d2908q01vomqb2.awsstatic-china.com/b6692ea5df920cad691c20319a6fffd7a4a766b8/2019/08/15/MetadataLakeFormation1.png)</section>
本文转载自 AWS 技术博客。
原文链接:https://amazonaws-china.com/cn/blogs/china/discover-metadata-with-aws-lake-formation-part-2/
更多内容推荐
AWS 亚马逊云科技 1 亿美金入局 AIGC,哪些 AI 云服务已经可以对标微软、谷歌?
撰文|宇婷
2023-06-25
使用 QuTrunk+Amazon ParallelCluster3 进行并行计算
1.丘秉宜;2.邵伟;3.黄文;4.郭梦杰;5.刘利;6.刘波
2022-12-27
最好精准计划导师带赚——玩家经验分享
最好精准计划导师带赚✅郑凯<企鵝 Q>⎝5310129⎠ ✅「網」⎝37qy.cc⎠✅自 带 邀 请 码 ✅输入惘芷主彻来微聊好友找我✅行业第一✅疯狂彩金天天派送✅2 顶级信誉✅顶级体验✅平台微`聊✅联.系郑荖溮✅ “十年经验,都是专业的指导/规划/技巧✅没有做不到的事
2023-09-05
【1.27-2.3】写作社区优秀技术博文一览
为了让更多的创作者有展示自己的舞台,为了让更多优质内容有发光发热的机会,InfoQ 官方写作社区会时不时向大家推荐近期发布在社区的优质作品和入驻的新创作者们。
2023-02-03
Programming abstractions in C 阅读笔记:p184-p195
《Programming Abstractions In C》学习第61天,p184-p195总结。
2023-11-06
大模型驱动云计算创新变革
大模型将驱动云计算的创新,并重塑云计算的产业格局。大模型的发展不同于以往的AI技术迭代,它同时驱动了底层IT基础设施的重构,也带来了上层应用开发模式的变革。
2023-09-08
web 前端培训程序员学习什么呢
近年来IT行业发展的迅速,同时IT行业的发展向着众多领域的开发方向,不同领域的开发技术程序员所根据行业的不同,需要学习的开发技术知识是不同的,小伙伴在选择程序员开发技术学习的时候,可以根据自身的爱好兴趣来选择一个比较适合自己的学习方向,选择一个
2022-12-01
云中白鹤——AWS 云中的身份管理与访问控制之伟大的角色
2022-08-30
云屯雨集——云厂商如何保证我们的云服务安全性和高可用性?
2022-05-20
手把手教你使用 JConsole
讲师介绍: 白芷,复星金服高级研发工程师,中国计算机学会会员,擅长互联网应用、金融支付平台等架构设计和研发,精通高并发、分布式、微服务系统的架构设计,有自己独特的见解和体会。 问题背景: 目前市面上有多种 JVM 监控工具供我们选择,其中 JConsole 是 JDK 官方的监控工具,也是最简单的。我们工作中遇到的大多数问题使用 JDK 自带的命令工具 +JConsole 是足够的。实际上 一直以来,JConsole 都是被低估的工具,今天我们通过一些例子来看看如何用 JConsole 实现一些常规的监控。 内容看点: 利用 JConsole 实现死锁检测实例 利用 JConsole 监控 JVM 实例
2022-01-25
如何赋能企业数字化转型?华为云有妙招
近年来,全球疫情的蔓延加速了企业数字化转型的步伐,数字化的浪潮席卷了各行各业。作为一种新型的生产组织方式,“云时代”正在改变人们对传统行业的认知。许多企业在逆流中寻求新的办公和管理模式,混合办公和泛办公模式越来越普遍,每个人的工作、学习和生
2023-09-12
【1.6-1.13】写作社区优秀技术博文一览
为了让更多的创作者有展示自己的舞台,为了让更多优质内容有发光发热的机会,InfoQ 官方写作社区会时不时向大家推荐近期发布在社区的优质作品和入驻的新创作者们。
2023-01-13
第 9 期 | GPTSecurity 周报
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。
2023-10-24
数据通信网络之使用 eNSP 组网
数据通信网络之使用 eNSP 组网
2023-09-07
Fashion MNIST 数据集介绍
2020-06-11
轻松玩转 70 亿参数大模型!借助 Walrus 在 AWS 上部署 Llama2
Llama 2 是 Meta 的下一代开源大语言模型。它是一系列经过预训练和微调的模型,参数范围从 70 亿到 700 亿个。Meta Llama 2 可免费用于研究和商业用途并且提供了一系列具有不同大小和功能的模型,因此一经发布备受关注。在之前的文章中,我们详细地介绍了Lla
2023-08-23
云净天空——浅谈云中负载均衡器(上)
作为服务端承上启下的云端负载均衡器,有了基于当代发展的 PaaS 级现象级产品,每个云厂商对负载均衡器都进行了针对性的配置和封装,让它更加符合当代开发运维的使用习惯。今天我来介绍一下当下几种主流的几种负载均衡器,带你熟悉不同负载均衡器的作用、适用范围及其适用场景,这会对我们的业务有很大的帮助。 讲师介绍 吕蕴偲,SRE 工程师,就职于国内某云服务商,负责 DevOps 及云上解决方案架构设计,具有多年云行业相关领域经验。熟悉 AWS 亚马逊云、阿里云等公有云,对多云云上架构设计部署有相关经验。 内容看点 云负载均衡器的类型与特性 云负载均衡器的组件工作原理
2022-06-28
接口测试|Fiddler 弱网测试
搜索微信公众号: 霍格沃兹测试学院,学习更多测试开发前沿技术
2023-06-26
博睿数据 Bonree ONE 秋季产品发布会,即将震撼启幕!
明天(10月20日下午2点)博睿数据 Bonree ONE 秋季产品发布会,即将震撼启幕!
2023-10-19
每周一起背 10 句 | week 09
本周我们进入了最后一篇语料。我把本周一起读过的句子放在这里,你可以试试背诵这些句子,感受下和之前背诵的句子有什么不同。
2020-07-11
推荐阅读
Lakehouse is ALL you need
2024-12-17
现身说法:2023 中级程序员进阶之路
2023-11-20
重写 equals 后为什么要重写 hashcode 方法
2023-11-27
加餐|基础模型:AI 时代的新篇章
2023-05-17
新网的机房写的是 BGP 链路,什么是 BGP 链路啊?
2023-11-18
4、利用 ShardingSphere 实现敏感数据的加解密
2023-09-26
深入人心的单人深访(IDI)
2022-11-23
电子书
大厂实战PPT下载
换一换 赵军平 | 蚂蚁集团 基础智能-AI Infra 异构计算负责人
任玉泉 | 字节跳动 编排调度团队/架构师
张登 | 前圆通 科技架构负责人
评论