近日,谷歌发布了 Google Cloud Dataproc 服务 Beta 测试版。Cloud Dataproc 是一个托管的 Spark 与 Hadoop 服务,可以帮助用户快速创建集群、简化集群管理及降低使用成本。借助该服务,用户无需考虑部署、扩展、监控等管理工作,可以将全部精力都集中到数据处理上。
与传统的本地产品或其它存在竞争关系的云服务相比,Cloud Dataproc 有如下优势:
- 成本低:Cloud Dataproc 的定价为每颗虚拟 CPU 每小时 1 美分。它还可以包含可抢占实例,使使用成本进一步降低。另外,Cloud Dataproc 按分钟计费,最小计费周期为 10 分钟。
- 速度快:在本地或 IaaS 提供商那里创建 Spark 与 Hadoop 集群需要 5 到 30 分钟不等。相比之下,Cloud Dataproc 启动、扩展和关闭都非常快,每个操作平均大约只需要 90 秒。
- 一体化:Cloud Dataproc 内置集成了其它谷歌云平台服务,如 BigQuery 、 Cloud Storage 、 Cloud Bigtable 、 Cloud Logging 和 Cloud Monitoring 。这相当于提供了一个完整的数据平台。
- 托管:Cloud Dataproc 使用户可以在没有系统管理员或专门软件的协助下就可以使用 Spark 与 Hadoop 集群。用户可以通过谷歌开发者控制台、 Google Cloud SDK 或 Cloud Dataproc REST API 管理集群和 Spark 或 Hadoop 任务。
- 简单熟悉:用户不用为了使用 Cloud Dataproc 学习新的工具或 API。现有的项目无需重新开发就可以迁移到 Cloud Dataproc 上。Spark、Hadoop、 Pig 及 Hive 都会经常更新。目前,Spark 的版本为 1.5,而 Hadoop 的版本为 2.7.1。
总之,正如 Cloud Dataproc 项目经理 James Malone 所言:
Cloud Dataproc 让你可以随时访问简单、快速但功能强大的、托管的 Spark 与 Hadoop 集群。
感兴趣的读者可以查看 Cloud Dataproc官方网站,按照入门指南试用,或者在 Stack Overflow 上提问及反馈。
感谢郭蕾对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。
评论