Stack Overflow近日宣布,通过谷歌 BigQuery 提供它的数据集。开发人员可以使用平常的 SQL 语句查询完整的 Stack Overflow 数据集,包括帖子、投票、标签和徽章。使用 BigQuery 的 REST API ,开发人员可以根据需要使用他们自选的工具导出数据。BigQuery 上的数据集支持联合查询,开发人员使用普通的 SQL 就可以跨领域获得有用的见解。
除了 Stack Overflow 的数据集以外,BigQuery 还支持对 Hacker News 数据集和 GitHub 数据集的访问,这两个数据集连同 Stack Overflow 数据集可以提供有用的见解。BigQuery 近日还围绕纽约市的数据增加了三个数据集,分别是关于机动车碰撞、城市自行车旅行及311 非紧急市政服务电话请求。BigQuery 之前已经有一个数据集,其中包含2009 年到2015 年纽约市的每一次出租车和豪华轿车旅行,上述三个数据集对此是一个补充。
当前,BigQuery 还有其他可用的数据集,其中包括气象信息(部分数据远至1763 年)、医疗数据、350 万数字化图书、一个包含元数据并标注了900 万URL 的图像数据集、美国国税局及美国职棒大联盟的数据。还有一个数据集包含了世界各地的新闻和事件,每15 分钟更新一次。该数据集是由 GDELT 项目提供的。此外,BigQuery 还包含 Personal Genome 项目提供的 Genomics 数据集、 Wikipedia 页面访问量数据以及将近 20 亿条 Reddit 评论。
感兴趣的读者可以通过 BigQuery 控制台获取 Stack Overflow 数据集,也可以通过 reddit 社区参与进一步的讨论。
评论