将近十年前,我的同事 Deepak Singh 在为研究、分析和开发人员分页一文中介绍了 AWS 公用数据集的概念。我很高兴地告诉大家 Deepak 仍然是 AWS 团队的重要成员,公用数据集项目仍在不断发展壮大!
而今天我们宣布推出新的开放和公用数据利器,这就是 Registry of Open Data on AWS,简称 RODA。此注册表包含现有的公用数据集,任何人都可添加自己的数据集,从而在 AWS 上访问和分析。
注册表探秘
首页列举了注册表中的所有数据集:
输入搜索词以仅显示匹配的数据集,从而缩小列表:
每个数据集都有关联的详情页,包括使用情况举例、许可证信息以及在 AWS 上找到和访问数据集所需的信息:
在此例中,我可以使用简单的 CLI 命令访问数据:
此外我还可以通过编程访问数据,或将数据下载到我的 EC2 实例。
将数据添加到存储库
如果您拥有可供公开访问的数据集,并且希望将它添加到 RODA,您只需向我们发送一条 Pull 请求。转至 open-data-registry 存储库,读取 CONTRIBUTING 文档,然后使用 datasets 目录中的一个现有文件为模型,创建描述您的数据集的 YAML 文件:
我们会定期审核 Pull 请求;您可以“添加星标”或关注存储库以跟踪添加和更改。
欢迎让我震撼
我欢迎新数据集的蜂拥而入,也欢迎展示如何以强大而有意思的方式使用数据的博客和应用程序。立即尝试,将您的收获分享给我吧!
评论