写点什么

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

  • 2019-12-20
  • 本文字数:1604 字

    阅读完需:约 5 分钟

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

数据湖是一种用于创建单个存储库以存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。本博文将引导您使用 Lake Formation 来创建和探索数据湖:


  • 创建数据湖


o 将数据添加到数据湖


o 创建目录数据库


o 将表从 Amazon S3 添加到目录数据库


  • 在目录中编辑和添加元数据


o 编辑标准元数据


o 添加自定义元数据

先决条件

对于本博文,您需要:



创建数据湖

AWS Lake Formation 控制台的左侧导航窗格中,选择注册并提取、**数据湖位置。选择一个 S3 存储桶以在您的数据湖中容纳几个独立的数据源。有关更多信息,请参阅什么是 AWS Lake Formation?


**

将数据添加到数据湖

现在,您已经将 S3 存储桶配置为 Lake Formation 的存储资源,您必须将数据添加到数据湖。您可以使用 AWS SDK、AWS CLI、S3 控制台或 Lake Formation 蓝图将数据添加到数据湖的 S3 存储桶存储资源中。


借助 Lake Formation,您可以发现并设置源数据的提取。添加用于加载或更新数据湖的工作流时,可以选择要添加的导入程序类型的蓝图或模板。Lake Formation 在 Lake Formation 控制台上为通用源数据类型提供了多个蓝图,旨在简化工作流的创建。工作流指向您的数据源和目标,并且指定了它们运行的频率。


对于本博文,请使用 AWS CLI 下载示例数据,然后将其上传到您的 S3 存储后端。其他导入方法(例如 Lake Formation 数据导入程序)不在本文讨论范围内。


AWS 开放数据注册表上提供的以下两个数据集中的示例:



在数据湖中制作两份 Amazon 客户评论数据集副本。您可以使用它们来模拟“生产”数据集和“测试”数据集,并了解在搜索元数据目录时如何定位其中一个或两个数据集。


为了演示 AWS 数据湖的灵活性,请将 CSV 和 Parquet 数据集都添加到您的数据湖。在这两种情况下,请为 S3 对象使用以下命名约定:


s3://BUCKET_NAME/DATABASE_NAME/TABLE_NAME/<data files>

将 Amazon 客户评论添加到数据湖

AWS 托管了一个注册表,可帮助用户共享和发现各种数据集。对于本博文,请将 Amazon 客户评论数据集的子集添加到数据湖。您无须复制完整的评论数据集,只需复制观看评论中较小的 226 MB 部分。您需要在数据湖中添加此数据的两个副本,以模拟单独的“生产”数据库和“测试”数据库。


  1. 如果尚未添加,请使用 IAM 用户访问密钥安装和配置 AWS CLI,该密钥包含从 S3 中读取并写入 Lake Formation S3 存储桶的权限。

  2. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-prod/amazon-reviews/ --recursive
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-test/amazon-reviews/ --recursive
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶现在包含两个 Amazon 评论数据集。

  2. 检查文件夹的内容。数据集采用 Parquet 格式。

将纽约出租车行车历史记录添加到数据湖

按照您对 Amazon 客户评论数据集所执行的操作,将纽约出租车行车历史记录的一个小子集从 AWS 开放数据注册表复制到数据湖:


  1. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ “s3://nyc-tlc/trip data/green_tripdata_2018-02.csv” \ “s3://$YOUR_BUCKET/ny-taxi/trip-data/green_tripdata_2018-02.csv”
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶包含纽约出租车行程的 CSV 数据。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discovering-metadata-with-aws-lake-formation-part-1/


2019-12-20 15:13829

评论

发布
暂无评论
发现更多内容

Steinberg Dorico Pro for Mac 破解补丁 及安装包

Rose

功能强大、简单易用的视频下载工具 4K Video Downloader for mac

Rose

EndNote 21 for mac 授权破解版 EndNote下载安装包

Rose

cdr 2023 mac破解版 附激活码 CorelDRAW Graphics Suite 2023中文安装包

Rose

探索新机遇:当跨境外贸独立站挑战重重,反向海淘代购模式成为新蓝海

代码忍者

反向海淘

CrossOver 24 for Mac(windows 虚拟机) 附激活补丁

Rose

强大防护软件 Deep Freeze(冰点还原精灵),释放电脑潜能!

Rose

从方言对话这枚“落子”,看AI手机“棋局”的尴尬赛点

脑极体

AI

技术与市场预测不确定性:企业应对指南

爱吃小舅的鱼

技术与市场预测不确定性 应对策略

大型复杂项目管理中传统与敏捷的有效结合

爱吃小舅的鱼

项目管理 敏捷开发

字节码文件解剖

不在线第一只蜗牛

3D摄影棚布光工具 Set A Light 3D Studio for Mac 永久版

Rose

基于微服务SDK框架与JavaAgent技术,低成本助力应用高效发布

华为云开发者联盟

微服务 灰度发布 java-agent Java Chassis 3

实验室辅助管理系统(源码+文档+部署+讲解)

深圳亥时科技

大数据集群搭建,CDH让你事半功倍!

敏捷调度TASKCTL

cloudera CDH 集群搭建 CDH 大数据 Hadoop 集群迁移

管理上层期望:与干系人保持同步

爱吃小舅的鱼

管理上层期望

一文读懂什么是RAG,如何搭建多模态RAG降低大模型幻觉

Zilliz

Milvus LLM 大模型幻觉 多模态rag RAG搭建

AnyToISO Pro mac破解版:ISO镜像文件制作工具

Rose

Acrobat Pro DC 2024,打造顶级文档处理平台

Rose

商协会管理系统(源码+文档+部署+讲解)

深圳亥时科技

GreptimeDB vs. SQLite —— 高通 8155 平台上的性能对比报告

Greptime 格睿科技

sqlite 数据库 边缘计算 嵌入式 性能报告

Llama 3.2 Vision & Molmo:多模态开源生态系统基础

Baihai IDP

程序员 AI Baihai IDP Llama 3.2 Vision Molmo

Nginx性能优化的几个方法

江南一点雨

.NET 9 AOT的突破 - 支持老旧Win7与XP环境

沙漠尽头的狼

Omi录屏专家 Screen Recorder by Omi Mac v1.3.9激活版

Rose

DataWorks:新一代 Data+AI 数据开发与数据治理平台演进

阿里云大数据AI技术

大数据 Serverless 云原生 Dataworks

利用 AWS Lake Formation 探索元数据:第 1 部分(一)_行业深度_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章