今年 10 月份,Cloudera 宣布与 Hortonworks 合并,这两家 Hadoop 领域的头部厂商为了抗住主流云供应商亚马逊、微软和谷歌的压力不得不走到一起,根据当时的报道,双方之后会将重心转移到云上。在预计与 Hortonworks 合并之前的最后一份季度报告中,Cloudera 终于向云平台出手,公开 DSW 的全新云原生预览版并附带原生机器学习服务 Cloudera ML,这是 Cloudera 的首个百分百 Kubernetes 产品。
Cloudera 认为市场的一个重要趋势是迁移到云端,虽然只有大约 25-30%的 Cloudera 基础服务在云中运行工作负载,但云采用的趋势是明确无误的。Ovum 预测,明年将有一半新大数据服务在云上运行;第二个趋势是 AI,更具体地说是机器学习。Cloudera 最初发布 DSW 就是为了构建、更改和部署数据科学模型,只是最初的 DSW 没有云端版本。
传统意义上,机器学习服务通常运行在 Hadoop 之上,但 Apache Hadoop 社区已着手将 Hadoop 与 HDFS 分离,以便云对象存储也可成为一流公民。由于 Hadoop 不再是运行大数据或机器学习的唯一场所,所以 Cloudera ML 无论是在 Kubernetes 集群、本地还是公有云上运行都可以。
考虑到 Databricks(适用于 Spark),Amazon SageMaker,Azure 机器学习和 Google Cloud AutoML 等服务早已大规模推广,Cloudera 现在推出该服务也是有些晚。Cloudera ML 通过基于 Kubernetes 的新架构运行,该架构绕过了内部部署 Hadoop 集群时的资源调度工具 Yarn。需要说明的是,这并不能取代在 Hadoop 和 YARN 上运行现有 DSW 的方式,只是提供了另一个在 Kubernetes 环境中运行的版本。
这不是 Cloudera 第一次支持数据科学或 ML 工作的容器,通过使用容器,Cloudera 可以打包物理部署所需的相互依赖性。鉴于最初的 DSW 针对运行 Hadoop 集群的用户,因此云原生版本同样如此,其实在 YARN 上运行 Spark 也可适应相同的部署,但随着 Kubernetes 成为云原生计算的事实标准,如果 Cloudera 真的想向云下手必须接受 Kubernetes,而不是 Yarn。
Cloudera ML 目前处于有限的预览状态,且不对所有人开放预览版本,支持访问云对象存储、HDFS 和外部数据库中的数据,部署在公有云中或最终通过 OpenShift 部署在私有云中均可。
显然,Cloudera 还将继续支持内部部署的大数据服务,毕竟这是当前服务的核心。作为一个向云计算扩展的内部部署供应商,Cloudera 将通过类似的混合支持开始,并逐渐向云平台过渡。支持混合就意味着添加云原生选项,数据仓库等其他工作也可能从运行 Kubernetes 集群中受益。
这就不禁激起用户对 Hadoop 问题的讨论,其实 Apache 社区也在努力让 Hadoop 平台更加适合云平台,从分离存储到容纳容器化工作负载,这些都需要一定时间才可以完成。一旦你用云对象存储替代 HDFS,用 Spark 替换 MapReduce,也没有什么是无法在云平台上运行的,这就是云对多种类型工作负载的管理和支持。
评论 1 条评论