Databricks（Apache Spark数据分析引擎的母公司）最近发布了统一数据分析平台，其中包括一个名为AutoML Toolkit的自动化机器学习工具。

通过自动化数据科学工作流的各个步骤——包括特征工程、超参数调优、模型搜索和部署——以获得完全受控和透明的增强ML体验。该工具包可用于帮助数据科学团队提高生产效率。这是Databricks实验室提供的面向公民和专家数据科学家的定制化解决方案。在MLflow中，AutoML工具包的执行会被自动跟踪。

Databricks实验室项目是一个实验性的端到端监督学习解决方案，用于自动化特征清理、特征向量化、模型选择和训练、超参数优化和选择、批量预测以及记录模型结果和训练运行等步骤。

统一分析平台主要包括以下三个组件：

Databricks工作区：以统一数据科学和工程为目标，工作区利用共享交互式笔记本、工具和API处理所有分析过程（从ETL到模型训练和部署）。
Databricks运行时：运行时组件帮助进行数据准备，并持续训练和部署AI/ML应用程序的模型。它支持Hyperopt、MLlib和MLflow之间的集成，从而支持分布式有条件的超参数调优、自动跟踪和增强的可视化。开始时，用户可以使用预配置的集群，包括一些流行的ML框架，如Hadoop、Kafka、Spark、Parquet、TensorFlow、Keras和Scikit Learn。
Databricks云服务：云服务通过在云上提供完全托管的服务来帮助管理基础设施的复杂性。云服务包括微软Azure集成和Amazon Web Services（AWS）。

Databricks还提供与第三方机器学习工具的集成，如H2O的Sparkling Water、DataRobot和XGBoost。

要了解有关新的分析平台和AutoML toolkit的更多信息，请查看以下资源：

原文链接：

Databricks 统一分析平台提供 AutoML Toolkit