写点什么

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

  • 2019-12-20
  • 本文字数:1971 字

    阅读完需:约 6 分钟

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

数据湖是一种用于聚合、存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。


在本博文系列的第 1 部分中


,您学习了如何使用 Lake Formation 来创建和探索数据湖。本博文将引导您使用控制台中的 Lake Formation 的元数据搜索功能来发现数据,并了解受列权限限制的元数据搜索结果。


## 先决条件
对于本博文,您需要:
* [](https://signin.aws.amazon.com/signin?redirect_uri=https%3A%2F%2Fportal.aws.amazon.com%2Fbilling%2Fsignup%2Fresume&client_id=signup)。* 可以访问 [](https://amazonaws-china.com/s3/)、[](https://amazonaws-china.com/glue/) 和 AWS Lake Formation 的 AWS Identity and Access Management (IAM) 用户。
## 控制台中的元数据搜索
在本博文中,我们将演示 Lake Formation 控制台提供的目录搜索功能:
* 按分类搜索* 按关键字搜索* 按“标记:属性”搜索* 多个筛选器搜索
### 按分类搜索
使用元数据目录搜索功能,在数据湖内的所有表中进行搜索。两个表共享名称 **amazon_reviews**,但分别属于模拟的“生产”数据库和“测试”数据库,第三个表是 **trip-data**。
1. 在 Lake Formation 控制台的**数据目录**下,选择**表**。2. 在搜索栏中的**资源属性**下,选择**分类**,键入 **CSV**,然后按 Enter。您应该只会看到 **trip_data** 表,该表在数据湖中格式化为 CSV。**amazon_reviews** 表未显示,因为它们采用 Parquet 格式。3. 在**名称**列中,选择 **trip_data**。在**表详细信息**下,您可以看到元数据搜索筛选器正确识别了分类 **CSV**。
### 按关键字搜索
接下来,按关键字搜索整个数据湖,以筛选元数据。
1. 要刷新表列表,请在**数据目录**下再次选择**表**。2. 在搜索栏中键入 `star_rating`,然后按 Enter**。**现在您已经应用了筛选器,您应该只会看到 **amazon_reviews** 表,因为它们都包含名为 **star_rating** 的列。3. 通过选择两个表中的任何一个,您可以向下滚动到**架构**部分,并确认它们包含 **star_rating** 列。
### 多个筛选器搜索
最后,尝试一次使用多个筛选器搜索整个数据湖。
1. 要刷新表列表,请在**数据目录**下选择**表**。2. 在搜索栏中,选择**位置**,键入 `S3`,然后按 Enter。对于本博文,所有目录表都位于 S3 中,因此将显示所有三个表。3. 在搜索栏中,选择**分类**,键入 `parquet`,然后按 Enter。您应该只会看到 **amazon_reviews** 表,因为它们是 S3 中唯一以 Parquet 格式存储的表。4. 从显示的 **amazon_reviews** 表中任意选择一个表。在**表详细信息**下,您可以看到以下信息。
* **位置**:S3* **分类**:parquet
## 受列权限限制的元数据搜索结果
元数据搜索功能基于在 Lake Formation 中指定的权限来返回结果。如果用户或角色无权访问特定的数据库、表或列,则该元素不会显示在该用户的搜索结果中。
要对此进行演示,请先[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console) **dataResearcher**,该用户可访问 AWS 管理控制台。确保将密码存储在安全位置。
为了简化本博文,为用户附加**管理员访问权限**策略。此策略授予对您的 AWS 账户的完全访问权限,这是过度宽松的访问权限。建议您在学完本博文后删除该用户,或者删除此策略,然后启用多重身份验证 (MFA)。有关更多信息,请参阅[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console)。
[](https://amazonaws-china.com/blogs/big-data/discovering-metadata-with-aws-lake-formation-part-1/),您允许**任何人**查看由 AWS Glue 爬网程序创建的表。现在,请撤销对 **ny-taxi** 数据库的这些权限。
1. 在 Lake Formation 控制台的**权限**下,选择**数据权限**。2. 向下滚动或搜索,直到看到 **trip_data** 表的**任何人**记录。3. 选择记录,然后选择**撤销**、**撤销**。
现在,**dataResearcher** IAM 用户无法查看 **ny-taxi** 数据库或 **trip_data** 表。通过设置 Lake Formation 权限来解决此问题。
1. 在**权限**下,依次选择**数据权限**、**授予**。2. 选择 **dataResearcher** 用户、**ny-taxi** 数据库和 **trip_data** 表。3. 在**表权限**下,选中**选择**,然后选择**授予**。4. 注销控制台,然后使用您先前创建的 **dataResearcher** IAM 用户重新登录。5. 在 Lake Formation 控制台中,依次选择**表**、**trip_data** 表**,**然后查看其属性:![](https://d2908q01vomqb2.awsstatic-china.com/b6692ea5df920cad691c20319a6fffd7a4a766b8/2019/08/15/MetadataLakeFormation1.png)</section>
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discover-metadata-with-aws-lake-formation-part-2/


2019-12-20 15:13619

评论

发布
暂无评论
  • 手把手教你使用 JConsole

    讲师介绍: 白芷,复星金服高级研发工程师,中国计算机学会会员,擅长互联网应用、金融支付平台等架构设计和研发,精通高并发、分布式、微服务系统的架构设计,有自己独特的见解和体会。 问题背景: 目前市面上有多种 JVM 监控工具供我们选择,其中 JConsole 是 JDK 官方的监控工具,也是最简单的。我们工作中遇到的大多数问题使用 JDK 自带的命令工具 +JConsole 是足够的。实际上 一直以来,JConsole 都是被低估的工具,今天我们通过一些例子来看看如何用 JConsole 实现一些常规的监控。 内容看点: 利用 JConsole 实现死锁检测实例 利用 JConsole 监控 JVM 实例

    2022-01-25

  • 接口测试|Fiddler 弱网测试

    搜索微信公众号: 霍格沃兹测试学院,学习更多测试开发前沿技术

    2023-06-26

  • Programming abstractions in C 阅读笔记:p184-p195

    《Programming Abstractions In C》学习第61天,p184-p195总结。

    2023-11-06

  • 博睿数据 Bonree ONE 秋季产品发布会,即将震撼启幕!

    明天(10月20日下午2点)博睿数据 Bonree ONE 秋季产品发布会,即将震撼启幕!

    2023-10-19

  • Fashion MNIST 数据集介绍

    2020-06-11

  • web 前端培训程序员学习什么呢

    近年来IT行业发展的迅速,同时IT行业的发展向着众多领域的开发方向,不同领域的开发技术程序员所根据行业的不同,需要学习的开发技术知识是不同的,小伙伴在选择程序员开发技术学习的时候,可以根据自身的爱好兴趣来选择一个比较适合自己的学习方向,选择一个

    2022-12-01

  • 轻松玩转 70 亿参数大模型!借助 Walrus 在 AWS 上部署 Llama2

    Llama 2 是 Meta 的下一代开源大语言模型。它是一系列经过预训练和微调的模型,参数范围从 70 亿到 700 亿个。Meta Llama 2 可免费用于研究和商业用途并且提供了一系列具有不同大小和功能的模型,因此一经发布备受关注。在之前的文章中,我们详细地介绍了Lla

    2023-08-23

  • 云中白鹤——AWS 云中的身份管理与访问控制之伟大的角色

    2022-08-30

  • 使用 QuTrunk+Amazon ParallelCluster3 进行并行计算

    1.丘秉宜;2.邵伟;3.黄文;4.郭梦杰;5.刘利;6.刘波

    2022-12-27

  • 每周一起背 10 句 | week 09

    本周我们进入了最后一篇语料。我把本周一起读过的句子放在这里,你可以试试背诵这些句子,感受下和之前背诵的句子有什么不同。

    2020-07-11

  • 【1.6-1.13】写作社区优秀技术博文一览

    为了让更多的创作者有展示自己的舞台,为了让更多优质内容有发光发热的机会,InfoQ 官方写作社区会时不时向大家推荐近期发布在社区的优质作品和入驻的新创作者们。

    2023-01-13

  • 最好精准计划导师带赚——玩家经验分享

    最好精准计划导师带赚✅郑凯<企鵝 Q>⎝5310129⎠ ✅「網」⎝37qy.cc⎠✅自 带 邀 请 码 ✅输入惘芷主彻来微聊好友找我✅行业第一✅疯狂彩金天天派送✅2 顶级信誉✅顶级体验✅平台微`聊✅联.系郑荖溮✅ “十年经验,都是专业的指导/规划/技巧✅没有做不到的事

    2023-09-05

  • 云净天空——浅谈云中负载均衡器(上)

    作为服务端承上启下的云端负载均衡器,有了基于当代发展的 PaaS 级现象级产品,每个云厂商对负载均衡器都进行了针对性的配置和封装,让它更加符合当代开发运维的使用习惯。今天我来介绍一下当下几种主流的几种负载均衡器,带你熟悉不同负载均衡器的作用、适用范围及其适用场景,这会对我们的业务有很大的帮助。 讲师介绍 吕蕴偲,SRE 工程师,就职于国内某云服务商,负责 DevOps 及云上解决方案架构设计,具有多年云行业相关领域经验。熟悉 AWS 亚马逊云、阿里云等公有云,对多云云上架构设计部署有相关经验。 内容看点 云负载均衡器的类型与特性 云负载均衡器的组件工作原理

    2022-06-28

  • 云屯雨集——云厂商如何保证我们的云服务安全性和高可用性?

    2022-05-20

  • 【1.27-2.3】写作社区优秀技术博文一览

    为了让更多的创作者有展示自己的舞台,为了让更多优质内容有发光发热的机会,InfoQ 官方写作社区会时不时向大家推荐近期发布在社区的优质作品和入驻的新创作者们。

    2023-02-03

  • 如何赋能企业数字化转型?华为云有妙招

    近年来,全球疫情的蔓延加速了企业数字化转型的步伐,数字化的浪潮席卷了各行各业。作为一种新型的生产组织方式,“云时代”正在改变人们对传统行业的认知。许多企业在逆流中寻求新的办公和管理模式,混合办公和泛办公模式越来越普遍,每个人的工作、学习和生

    2023-09-12

  • 大模型驱动云计算创新变革

    大模型将驱动云计算的创新,并重塑云计算的产业格局。大模型的发展不同于以往的AI技术迭代,它同时驱动了底层IT基础设施的重构,也带来了上层应用开发模式的变革。

    2023-09-08

  • 数据通信网络之使用 eNSP 组网

    数据通信网络之使用 eNSP 组网

    2023-09-07

  • AWS 亚马逊云科技 1 亿美金入局 AIGC,哪些 AI 云服务已经可以对标微软、谷歌?

    撰文|宇婷

    2023-06-25

  • 第 9 期 | GPTSecurity 周报

    GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。

    2023-10-24

发现更多内容

进销存软件排行榜前十名!

优秀

进销存管理系统 进销存系统

java培训 | Java设计模式之装饰者设计模式

@零度

JAVA开发

想学习eTS开发?教你开发一款IQ-EQ测试应用

HarmonyOS开发者

HarmonyOS

大数据培训 | Flink如何监控恶意登录

@零度

大数据

Selenium Edge的IE模式

IT蜗壳-Tango

IT蜗壳教学 6月月更

Gartner最新报告:低代码应用开发平台在国内的发展

明道云

Vone新闻 | 旺链科技赋能众享链网自组织管理,打造企业级联盟DAO

旺链科技

区块链 产业区块链 DAO 自组织协作

并购增资或将有望启动东软越通新动能?

E科讯

navicat定时任务无效

源字节1号

Rancher 2.6 全新 Monitoring 快速入门

Rancher

Kubernetes k8s rancher

得物多活架构设计之路由服务设计

得物技术

架构 高可用 架构设计 双活 路由

基因检测,如何帮助患者对抗疾病?

阿里云弹性计算

高性能计算 生命科学 EHPC 基因检测

直播间源码在开发前期必须做的工作及开发步骤

开源直播系统源码

软件开发 直播源码

Go 语言使用 MySQL 的常见故障分析和应对方法

百度Geek说

Go MySQL

大数据培训 | 电商用户行为分析之订单支付实时监控

@零度

大数据 flink

首次曝光!唯一全域最高等级背后的阿里云云原生安全全景图

阿里巴巴云原生

阿里云 云原生 安全 可信云

图解OneFlow的学习率调整策略

OneFlow

前沿技术 学习率 调整策略

用OBS做直播推流简易教程

boshi

直播 OBS

CRMEB知识付费如何二开阿里云短信功能

CRMEB

等保备案是什么意思?应该去哪里办理备案?

行云管家

等保 等级保护 等保备案 等级测评

【二级等保】过二级等保用哪个堡垒机品牌好?

行云管家

网络安全 堡垒机 等级保护 二级等保 等保安全

技术分享| WVP+ZLMediaKit实现摄像头GB28181推流播放

anyRTC开发者

音视频 推流 摄像头 GB28181 播放

MySQL使用ReplicationConnection导致的连接失效分析与解决

转转技术团队

MySQL JDBC Java’ 数据库·

基于Vite+React构建在线Excel

葡萄城技术团队

SpreadJS vite

“芯”有灵“蜥”,万人在线!龙蜥社区走进 Intel MeetUp 精彩回顾

OpenAnolis小助手

开源 直播 Meetup 龙蜥社区 走进 Intel

冷板式、浸没式、喷淋式液冷散热能否引领高性能计算发展?

GPU算力

数据中台稳定性的“四高” | StartDT Tech Lab 18

奇点云

数据库 大数据 数据中台 云原生

Wallys/DR6018-S/ 802.11AX MU-MIMO OFDMA / 2* GE PORTS/WIFI 6e / BAND DUAL CONCURRENT

wallys-wifi6

web前端培训redux的理解与应用

@零度

前端开发

如何解决 Iterative 半监督训练 在 ASR 训练中难以落地的问题丨RTC Dev Meetup

声网

RTC Dev Meetup 生态专栏 语音处理

如何用 Redis 实现一个分布式锁

Ayue、

redis 分布式锁

利用 AWS Lake Formation 探索元数据:第 2 部分(一)_文化 & 方法_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章