数据湖是一种用于创建单个存储库以存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。本博文将引导您使用 Lake Formation 来创建和探索数据湖:
创建数据湖
o 将数据添加到数据湖
o 创建目录数据库
o 将表从 Amazon S3 添加到目录数据库
在目录中编辑和添加元数据
o 编辑标准元数据
o 添加自定义元数据
先决条件
对于本博文,您需要:
创建数据湖
在 AWS Lake Formation 控制台的左侧导航窗格中,选择注册并提取、**数据湖位置。选择一个 S3 存储桶以在您的数据湖中容纳几个独立的数据源。有关更多信息,请参阅什么是 AWS Lake Formation?
**
将数据添加到数据湖
现在,您已经将 S3 存储桶配置为 Lake Formation 的存储资源,您必须将数据添加到数据湖。您可以使用 AWS SDK、AWS CLI、S3 控制台或 Lake Formation 蓝图将数据添加到数据湖的 S3 存储桶存储资源中。
借助 Lake Formation,您可以发现并设置源数据的提取。添加用于加载或更新数据湖的工作流时,可以选择要添加的导入程序类型的蓝图或模板。Lake Formation 在 Lake Formation 控制台上为通用源数据类型提供了多个蓝图,旨在简化工作流的创建。工作流指向您的数据源和目标,并且指定了它们运行的频率。
对于本博文,请使用 AWS CLI 下载示例数据,然后将其上传到您的 S3 存储后端。其他导入方法(例如 Lake Formation 数据导入程序)不在本文讨论范围内。
AWS 开放数据注册表上提供的以下两个数据集中的示例:
在数据湖中制作两份 Amazon 客户评论数据集副本。您可以使用它们来模拟“生产”数据集和“测试”数据集,并了解在搜索元数据目录时如何定位其中一个或两个数据集。
为了演示 AWS 数据湖的灵活性,请将 CSV 和 Parquet 数据集都添加到您的数据湖。在这两种情况下,请为 S3 对象使用以下命名约定:
s3://BUCKET_NAME/DATABASE_NAME/TABLE_NAME/<data files>
将 Amazon 客户评论添加到数据湖
AWS 托管了一个注册表,可帮助用户共享和发现各种数据集。对于本博文,请将 Amazon 客户评论数据集的子集添加到数据湖。您无须复制完整的评论数据集,只需复制观看评论中较小的 226 MB 部分。您需要在数据湖中添加此数据的两个副本,以模拟单独的“生产”数据库和“测试”数据库。
如果尚未添加,请使用 IAM 用户访问密钥安装和配置 AWS CLI,该密钥包含从 S3 中读取并写入 Lake Formation S3 存储桶的权限。
将源数据复制到数据湖:
在 S3 控制台中,确认您的 S3 存储桶现在包含两个 Amazon 评论数据集。
检查文件夹的内容。数据集采用 Parquet 格式。
将纽约出租车行车历史记录添加到数据湖
按照您对 Amazon 客户评论数据集所执行的操作,将纽约出租车行车历史记录的一个小子集从 AWS 开放数据注册表复制到数据湖:
将源数据复制到数据湖:
在 S3 控制台中,确认您的 S3 存储桶包含纽约出租车行程的 CSV 数据。
本文转载自 AWS 技术博客。
原文链接:https://amazonaws-china.com/cn/blogs/china/discovering-metadata-with-aws-lake-formation-part-1/
评论