写点什么

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

  • 2019-12-20
  • 本文字数:1971 字

    阅读完需:约 6 分钟

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

数据湖是一种用于聚合、存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。


在本博文系列的第 1 部分中


,您学习了如何使用 Lake Formation 来创建和探索数据湖。本博文将引导您使用控制台中的 Lake Formation 的元数据搜索功能来发现数据,并了解受列权限限制的元数据搜索结果。


## 先决条件
对于本博文,您需要:
* [](https://signin.aws.amazon.com/signin?redirect_uri=https%3A%2F%2Fportal.aws.amazon.com%2Fbilling%2Fsignup%2Fresume&client_id=signup)。* 可以访问 [](https://amazonaws-china.com/s3/)、[](https://amazonaws-china.com/glue/) 和 AWS Lake Formation 的 AWS Identity and Access Management (IAM) 用户。
## 控制台中的元数据搜索
在本博文中,我们将演示 Lake Formation 控制台提供的目录搜索功能:
* 按分类搜索* 按关键字搜索* 按“标记:属性”搜索* 多个筛选器搜索
### 按分类搜索
使用元数据目录搜索功能,在数据湖内的所有表中进行搜索。两个表共享名称 **amazon_reviews**,但分别属于模拟的“生产”数据库和“测试”数据库,第三个表是 **trip-data**。
1. 在 Lake Formation 控制台的**数据目录**下,选择**表**。2. 在搜索栏中的**资源属性**下,选择**分类**,键入 **CSV**,然后按 Enter。您应该只会看到 **trip_data** 表,该表在数据湖中格式化为 CSV。**amazon_reviews** 表未显示,因为它们采用 Parquet 格式。3. 在**名称**列中,选择 **trip_data**。在**表详细信息**下,您可以看到元数据搜索筛选器正确识别了分类 **CSV**。
### 按关键字搜索
接下来,按关键字搜索整个数据湖,以筛选元数据。
1. 要刷新表列表,请在**数据目录**下再次选择**表**。2. 在搜索栏中键入 `star_rating`,然后按 Enter**。**现在您已经应用了筛选器,您应该只会看到 **amazon_reviews** 表,因为它们都包含名为 **star_rating** 的列。3. 通过选择两个表中的任何一个,您可以向下滚动到**架构**部分,并确认它们包含 **star_rating** 列。
### 多个筛选器搜索
最后,尝试一次使用多个筛选器搜索整个数据湖。
1. 要刷新表列表,请在**数据目录**下选择**表**。2. 在搜索栏中,选择**位置**,键入 `S3`,然后按 Enter。对于本博文,所有目录表都位于 S3 中,因此将显示所有三个表。3. 在搜索栏中,选择**分类**,键入 `parquet`,然后按 Enter。您应该只会看到 **amazon_reviews** 表,因为它们是 S3 中唯一以 Parquet 格式存储的表。4. 从显示的 **amazon_reviews** 表中任意选择一个表。在**表详细信息**下,您可以看到以下信息。
* **位置**:S3* **分类**:parquet
## 受列权限限制的元数据搜索结果
元数据搜索功能基于在 Lake Formation 中指定的权限来返回结果。如果用户或角色无权访问特定的数据库、表或列,则该元素不会显示在该用户的搜索结果中。
要对此进行演示,请先[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console) **dataResearcher**,该用户可访问 AWS 管理控制台。确保将密码存储在安全位置。
为了简化本博文,为用户附加**管理员访问权限**策略。此策略授予对您的 AWS 账户的完全访问权限,这是过度宽松的访问权限。建议您在学完本博文后删除该用户,或者删除此策略,然后启用多重身份验证 (MFA)。有关更多信息,请参阅[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console)。
[](https://amazonaws-china.com/blogs/big-data/discovering-metadata-with-aws-lake-formation-part-1/),您允许**任何人**查看由 AWS Glue 爬网程序创建的表。现在,请撤销对 **ny-taxi** 数据库的这些权限。
1. 在 Lake Formation 控制台的**权限**下,选择**数据权限**。2. 向下滚动或搜索,直到看到 **trip_data** 表的**任何人**记录。3. 选择记录,然后选择**撤销**、**撤销**。
现在,**dataResearcher** IAM 用户无法查看 **ny-taxi** 数据库或 **trip_data** 表。通过设置 Lake Formation 权限来解决此问题。
1. 在**权限**下,依次选择**数据权限**、**授予**。2. 选择 **dataResearcher** 用户、**ny-taxi** 数据库和 **trip_data** 表。3. 在**表权限**下,选中**选择**,然后选择**授予**。4. 注销控制台,然后使用您先前创建的 **dataResearcher** IAM 用户重新登录。5. 在 Lake Formation 控制台中,依次选择**表**、**trip_data** 表**,**然后查看其属性:![](https://d2908q01vomqb2.awsstatic-china.com/b6692ea5df920cad691c20319a6fffd7a4a766b8/2019/08/15/MetadataLakeFormation1.png)</section>
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discover-metadata-with-aws-lake-formation-part-2/


2019-12-20 15:13608

评论

发布
暂无评论
  • AWS 亚马逊云科技 1 亿美金入局 AIGC,哪些 AI 云服务已经可以对标微软、谷歌?

    撰文|宇婷

    2023-06-25

  • 使用 QuTrunk+Amazon ParallelCluster3 进行并行计算

    1.丘秉宜;2.邵伟;3.黄文;4.郭梦杰;5.刘利;6.刘波

    2022-12-27

  • 最好精准计划导师带赚——玩家经验分享

    最好精准计划导师带赚✅郑凯<企鵝 Q>⎝5310129⎠ ✅「網」⎝37qy.cc⎠✅自 带 邀 请 码 ✅输入惘芷主彻来微聊好友找我✅行业第一✅疯狂彩金天天派送✅2 顶级信誉✅顶级体验✅平台微`聊✅联.系郑荖溮✅ “十年经验,都是专业的指导/规划/技巧✅没有做不到的事

    2023-09-05

  • 【1.27-2.3】写作社区优秀技术博文一览

    为了让更多的创作者有展示自己的舞台,为了让更多优质内容有发光发热的机会,InfoQ 官方写作社区会时不时向大家推荐近期发布在社区的优质作品和入驻的新创作者们。

    2023-02-03

  • Programming abstractions in C 阅读笔记:p184-p195

    《Programming Abstractions In C》学习第61天,p184-p195总结。

    2023-11-06

  • 大模型驱动云计算创新变革

    大模型将驱动云计算的创新,并重塑云计算的产业格局。大模型的发展不同于以往的AI技术迭代,它同时驱动了底层IT基础设施的重构,也带来了上层应用开发模式的变革。

    2023-09-08

  • web 前端培训程序员学习什么呢

    近年来IT行业发展的迅速,同时IT行业的发展向着众多领域的开发方向,不同领域的开发技术程序员所根据行业的不同,需要学习的开发技术知识是不同的,小伙伴在选择程序员开发技术学习的时候,可以根据自身的爱好兴趣来选择一个比较适合自己的学习方向,选择一个

    2022-12-01

  • 云中白鹤——AWS 云中的身份管理与访问控制之伟大的角色

    2022-08-30

  • 云屯雨集——云厂商如何保证我们的云服务安全性和高可用性?

    2022-05-20

  • 手把手教你使用 JConsole

    讲师介绍: 白芷,复星金服高级研发工程师,中国计算机学会会员,擅长互联网应用、金融支付平台等架构设计和研发,精通高并发、分布式、微服务系统的架构设计,有自己独特的见解和体会。 问题背景: 目前市面上有多种 JVM 监控工具供我们选择,其中 JConsole 是 JDK 官方的监控工具,也是最简单的。我们工作中遇到的大多数问题使用 JDK 自带的命令工具 +JConsole 是足够的。实际上 一直以来,JConsole 都是被低估的工具,今天我们通过一些例子来看看如何用 JConsole 实现一些常规的监控。 内容看点: 利用 JConsole 实现死锁检测实例 利用 JConsole 监控 JVM 实例

    2022-01-25

  • 如何赋能企业数字化转型?华为云有妙招

    近年来,全球疫情的蔓延加速了企业数字化转型的步伐,数字化的浪潮席卷了各行各业。作为一种新型的生产组织方式,“云时代”正在改变人们对传统行业的认知。许多企业在逆流中寻求新的办公和管理模式,混合办公和泛办公模式越来越普遍,每个人的工作、学习和生

    2023-09-12

  • 【1.6-1.13】写作社区优秀技术博文一览

    为了让更多的创作者有展示自己的舞台,为了让更多优质内容有发光发热的机会,InfoQ 官方写作社区会时不时向大家推荐近期发布在社区的优质作品和入驻的新创作者们。

    2023-01-13

  • 第 9 期 | GPTSecurity 周报

    GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。

    2023-10-24

  • 数据通信网络之使用 eNSP 组网

    数据通信网络之使用 eNSP 组网

    2023-09-07

  • Fashion MNIST 数据集介绍

    2020-06-11

  • 轻松玩转 70 亿参数大模型!借助 Walrus 在 AWS 上部署 Llama2

    Llama 2 是 Meta 的下一代开源大语言模型。它是一系列经过预训练和微调的模型,参数范围从 70 亿到 700 亿个。Meta Llama 2 可免费用于研究和商业用途并且提供了一系列具有不同大小和功能的模型,因此一经发布备受关注。在之前的文章中,我们详细地介绍了Lla

    2023-08-23

  • 云净天空——浅谈云中负载均衡器(上)

    作为服务端承上启下的云端负载均衡器,有了基于当代发展的 PaaS 级现象级产品,每个云厂商对负载均衡器都进行了针对性的配置和封装,让它更加符合当代开发运维的使用习惯。今天我来介绍一下当下几种主流的几种负载均衡器,带你熟悉不同负载均衡器的作用、适用范围及其适用场景,这会对我们的业务有很大的帮助。 讲师介绍 吕蕴偲,SRE 工程师,就职于国内某云服务商,负责 DevOps 及云上解决方案架构设计,具有多年云行业相关领域经验。熟悉 AWS 亚马逊云、阿里云等公有云,对多云云上架构设计部署有相关经验。 内容看点 云负载均衡器的类型与特性 云负载均衡器的组件工作原理

    2022-06-28

  • 接口测试|Fiddler 弱网测试

    搜索微信公众号: 霍格沃兹测试学院,学习更多测试开发前沿技术

    2023-06-26

  • 博睿数据 Bonree ONE 秋季产品发布会,即将震撼启幕!

    明天(10月20日下午2点)博睿数据 Bonree ONE 秋季产品发布会,即将震撼启幕!

    2023-10-19

  • 每周一起背 10 句 | week 09

    本周我们进入了最后一篇语料。我把本周一起读过的句子放在这里,你可以试试背诵这些句子,感受下和之前背诵的句子有什么不同。

    2020-07-11

发现更多内容

应用实践 | 数仓体系效率全面提升!同程数科基于 Apache Doris 的数据仓库建设

SelectDB

数据库 数据仓库 架构演进 Doris

Http响应头处理

急需上岸的小谢

7月月更

LinkedBlockingQueue源码分析-新增和删除

zarmnosaj

7月月更

Java 代码中数字中间带下划线是几个意思

HoneyMoose

大话云原生之灰度发布篇-从步行到坐缆车的自动化服务升级

字母哥哥

灰度发布 #Kubernetes#

小程序多种开发方式对比-跨端?低代码?原生?还是云开发?

字母哥哥

小程序

聊聊 Dart 的空安全 (null safety) 特性

岛上码农

flutter ios 安卓 跨平台开发 7月月更

第四期SFO销毁,Starfish OS如何对SFO价值赋能?

BlockChain先知

解读《深入理解计算机系统(CSAPP)》第2章 信息的表示和处理

小明Java问道之路

好书推荐 csapp 信息处理 7月月更 好书解读

5G NR 系统消息

柒号华仔

5G 7月月更

消息队列与快递柜之间妙不可言的关系

字母哥哥

消息队列

Java 9 缩小字符串( Compact String)

HoneyMoose

每日一题——PAT乙级1002题

武师叔

7月月更

Java多线程案例之任务定时执行器

未见花闻

7月月更

Binder核心API

北洋

binder 7月月更

接口测试要测试什么?

Xd

Java 后端 接口测试

Service Mesh的基本模式

阿泽🧸

Service Mesh 7月月更

Java 6 压缩字符串(Compressed String)

HoneyMoose

kafka批量发送数据源码解析

字母哥哥

kafka 消息队列 源码解读

java Reactive Streams响应式流式编程

字母哥哥

Java 响应式编程

redis你到底懂不懂之list

zxhtom

7月月更

攻防演练中沙盘推演的4个阶段

穿过生命散发芬芳

7月月更 沙盘推演

tauri+vue开发跨操作系统的桌面应用

字母哥哥

rust Vue tauri

C++中的STL库函数之万能图——map

KEY.L

7月月更

解读《深入理解计算机系统(CSAPP)》第3章程序的机器级表示

小明Java问道之路

汇编 指令 指令集 7月月更

牛客基础语法必刷100题之基本类型

京与旧铺

7月月更

docker镜像分层原理及容器写时复制

字母哥哥

Docker 镜像

【刷题记录】3. 无重复字符的最长子串

WangNing

7月月更

玩转Sonar

sean77

【愚公系列】2022年7月 Go教学课程 006-自动推导类型和输入输出

愚公搬代码

7月月更

接口测试进阶接口脚本使用—apipost(预/后执行脚本)

Xd

Java 数据库 接口测试工具

利用 AWS Lake Formation 探索元数据:第 2 部分(一)_文化 & 方法_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章