Google 曾在 2016 年 11 月 16 日宣布,将于 2017 年初通过其云端( Google Cloud Platform )的公共云发布图形处理器( GPU )支持的虚拟机(VM)实例。
当时的市场背景是亚马逊网络服务(AWS),IBM SoftLayer 和微软 Azure 过去都推出了支持 GPU 的虚拟机实例。谷歌希望凭借其按分钟而非小时计费的机制,和它提供的 GPU 多元化脱颖而出。用户可选择的 GPU 包括 NVIDIA Tesla P100 和 Tesla K80,以及 AMD FirePro S9300 x2。
而今天(2017 年 2 月 21 日,InfoQ 注),Google 宣布,其云计算平台推出了支持云端 GPU 加速服务的公开测试版,目前支持的 GPU 是 NVDIA Tesla K80,凭借 GPU 超强的计算力,云端的性能获得了大幅度的提升。
目前,用户现在可以使用 gcloud 命令行工具在云平台上的三个地区(us-east1、asia-east1 和 eurpo-west1)上创建基于 NVIDIA GPU 的虚拟机。
Google 表示,下周他们将支持使用 Cloud Console 创建 GPU 虚拟机。
据在 Google官网了解到的信息,如果用户需要额外的计算能力进行深度学习,最多可以将8 个GPU(4 块K80 的板子)连接到自定义的Google Compute Engine 虚拟机。GPU 可以加速多种类型的计算分析,例如:视频和图像转码、地震分析、分子建模、基因组学、计算金融、模拟、高性能数据分析、计算化学、金融、流体动力学和可视化等等。
Google Compute Engine 上的 GPU 是直接连接到虚拟机上的,提供了与裸机相同的性能。它不需要用户在自己的数据中心构建 GPU 集群,只需添加 GPU 到 Google 的云中的虚拟机即可。用户可以灵活地选择 1、2、4 或 8 块 NVIDIA GPU 来构建自己的服务器形态,从而使得服务器上的自定义虚拟机实例获得最佳性能。
用户可灵活构建服务器形态。
每块 NVIDIA K80 配有 2,496 个流处理器、12GB 的 GDDR5 内存。
据称,这些实例支持流行的机器学习和深度学习的框架,如 TensorFlow、Theano、Torch、MXNet 和 Caffe,以及 NVIDIA 流行的 CUDA 软件(用于构建 GPU 加速应用)。
费用也是用户很关心的问题。Google 的云 GPU 很有竞争力,按分钟(至少 10 分钟)进行计费。在美国,连接到虚拟机的每个 K80 GPU 的价格为每小时 0.70 美元;在亚洲和欧洲,每个 GPU 每小时 0.77 美元。
用户选择 Google 云 GPU 的好处是,只需按使用的量支付费用,不需自己构建、维护一个 GPU 集群,就可以进行快速的深度学习和机器学习训练,而这些都是零资本投资的结果。
Google 云 GPU 集成了 Google 云机器学习(Google Cloud Machine Learning,简写 Cloud ML),帮助用户节省大规模使用 TensorFlow 框架训练机器学习模型所需的时间。现在,用户不需要花费几天时间在单台机器上用大量的图像数据集训练一个图像分类器,就可以在云机器学习中使用多个GPU 执行分布式训练,大大缩短开发周期并快速迭代模型。
Google ML 是一项托管服务,通过云计算工具(如 Google Cloud Dataflow 、 Google BigQuery 、 Google Cloud Storage 和 Google Cloud Datalab )提供端到端培训和预测工作流。
Google 建议用户先在小数据集上并训练 TensorFlow 模型开始,然后启动更大的云机器学习,用整个数据集训练模型,以充分利用 Google 云 GPU 的规模和性能。有关 Cloud ML 的更多信息,请参阅《快速入门指南》并开始使用,查看《 Using GPUs for Training Models in the Cloud 》这篇文档以深入了解 Google 云 GPU。用户还可以使用 gcloud 命令行来创建 VM,并开始尝试 TensorFlow 加速机器学习。
感谢冬雨对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论