今年10月份，Cloudera宣布与Hortonworks合并，这两家Hadoop领域的头部厂商为了抗住主流云供应商亚马逊、微软和谷歌的压力不得不走到一起，根据当时的报道，双方之后会将重心转移到云上。在预计与Hortonworks合并之前的最后一份季度报告中，Cloudera终于向云平台出手，公开DSW的全新云原生预览版并附带原生机器学习服务Cloudera ML，这是Cloudera的首个百分百Kubernetes产品。

Cloudera认为市场的一个重要趋势是迁移到云端，虽然只有大约25-30％的Cloudera基础服务在云中运行工作负载，但云采用的趋势是明确无误的。Ovum预测，明年将有一半新大数据服务在云上运行；第二个趋势是AI，更具体地说是机器学习。Cloudera最初发布DSW就是为了构建、更改和部署数据科学模型，只是最初的DSW没有云端版本。

传统意义上，机器学习服务通常运行在Hadoop之上，但Apache Hadoop社区已着手将Hadoop与HDFS分离，以便云对象存储也可成为一流公民。由于Hadoop不再是运行大数据或机器学习的唯一场所，所以Cloudera ML无论是在Kubernetes集群、本地还是公有云上运行都可以。

考虑到Databricks（适用于Spark），Amazon SageMaker，Azure机器学习和Google Cloud AutoML等服务早已大规模推广，Cloudera现在推出该服务也是有些晚。Cloudera ML通过基于Kubernetes的新架构运行，该架构绕过了内部部署Hadoop集群时的资源调度工具Yarn。需要说明的是，这并不能取代在Hadoop和YARN上运行现有DSW的方式，只是提供了另一个在Kubernetes环境中运行的版本。

这不是Cloudera第一次支持数据科学或ML工作的容器，通过使用容器，Cloudera可以打包物理部署所需的相互依赖性。鉴于最初的DSW针对运行Hadoop集群的用户，因此云原生版本同样如此，其实在YARN上运行Spark也可适应相同的部署，但随着Kubernetes成为云原生计算的事实标准，如果Cloudera真的想向云下手必须接受Kubernetes，而不是Yarn。

Cloudera ML目前处于有限的预览状态，且不对所有人开放预览版本，支持访问云对象存储、HDFS和外部数据库中的数据，部署在公有云中或最终通过OpenShift部署在私有云中均可。

显然，Cloudera还将继续支持内部部署的大数据服务，毕竟这是当前服务的核心。作为一个向云计算扩展的内部部署供应商，Cloudera将通过类似的混合支持开始，并逐渐向云平台过渡。支持混合就意味着添加云原生选项，数据仓库等其他工作也可能从运行Kubernetes集群中受益。

这就不禁激起用户对Hadoop问题的讨论，其实Apache社区也在努力让Hadoop平台更加适合云平台，从分离存储到容纳容器化工作负载，这些都需要一定时间才可以完成。一旦你用云对象存储替代HDFS，用Spark替换MapReduce，也没有什么是无法在云平台上运行的，这就是云对多种类型工作负载的管理和支持。

创作场景

Cloudera 果然向云出手了！新机器学习服务采用云原生路径！