编者按:本文节选自华章科技智能系统与技术丛书 《深入理解 AutoML 和 AutoDL:构建自动化机器学习与深度学习平台》一书中的部分章节。
谷歌 Cloud AutoML
1.简介
Cloud AutoML(https://cloud.google.com/automl)是一套机器学习产品,通过利用 Google 最先进的元学习、迁移学习和神经架构搜索技术,使机器学习专业知识有限的开发人员也能根据业务需求训练高质量模型。Cloud AutoML 主要提供以下 3 个领域的 AutoML 服务:图像分类、文本分类以及机器翻译。在图像分类领域,谷歌提供了大量标注良好的人类图像供开发者使用,同时提供了标注工具允许开发者自行对图像进行标注。
2.使用方式
谷歌 Cloud AutoML 系统提供了图像用户界面,以及 Python API、Java API 和 Node.js API 等使用方式。
首先来看看图形用户界面(见图 1),它按照数据准备、训练、评估、预测等步骤进行组织,使用者只需要按照规定执行一步就可以完成整个过程。
图 1 Cloud AutoML 图形用户界面
再来看看通过 API 的方式进行接口调用,以 Python 为例,如图 2 所示。
图 2 Cloud AutoML 的 API 调用
使用者可以根据自身的习惯和需要,选择图形界面方式或者 API 方式并使用自己熟悉的语言去完成整个流程,从而保证该平台的通用性。从这个角度而言,该平台既可以有效服务入门级使用者,也可以服务专家级算法工程师并与大型项目对接。
Cloud AutoML 中重要的一环 Cloud AutoML Vision 代表了深度学习去专业化的关键一步。企业不再需要招聘人工智能专家来训练深度学习模型,只需要有简单基础的人通过 Web 图像用户界面上传几十个示例图像,点击一个按钮即可完成整个深度神经网络的构建与训练,同时完成后可以立即部署于谷歌云上进入生产环境。
3.迁移学习与元学习的运用
Cloud AutoML 利用了元学习与迁移学习。元学习与迁移学习可以有效利用过去的训练经验与训练数据,这意味着用户不再像过往那样需要提供海量的数据进行模型训练,而只需要提供较少的数据就可以完成一个图像分类器的训练并应用于特定场景。这背后是谷歌大量的基础训练数据源和训练经验与记录的支撑。
另外,迁移学习与元学习的应用涉及用户数据隐私与平台性能的权衡问题。如果 Cloud AutoML 可以将用户的数据与训练经验都积累起来并提供给其他用户使用,那么该平台的底层数据积累便会越来越雄厚,其使用效果也会越来越好。但是,大多数客户都不会希望自己的数据被泄漏,因此上述的美好愿景也不一定能实现。
百度 EasyDL
1.简介
不同于传统意义上的 AutoML,EasyDL 是一个专门针对深度学习模型训练与发布的平台。在 EasyDL 之前,百度就已经有了深度学习计算引擎 PaddlePaddle。PaddlePaddle 是一个类似于谷歌 TensorFlow 的专业级计算平台,目标群体是有一定计算机与算法基础的专业 AI 算法工程师。
除此之外,百度还有百度 AI 开放平台,用户可以通过平台提供的 API 付费调用百度的 AI 算法能力实现自己的需求。但是 AI 开放平台的算法模型很多时候难以覆盖全部的场景,因此对于很多企业而言,还存在着大量等待被满足的定制化需求。
EasyDL 平台的出现是为了解决 AI 赋能行业的这个痛点,以一种便捷高效的方式满足这些定制化深度学习模型需求以及伴随而来的其他需求。用户上传自己的数据,在平台上进行数据标注、加工、训练、部署和服务,最终得到云端独立的 REST API 或一个离线 SDK,从而方便地将模型部署到自己的业务场景中。
目前该平台提供图像识别、文本分类、声音分类等服务分类(见图 3)。图像识别领域支持图像分类以及物体检测,文本分类领域支持广泛的文本分类,而声音分类领域提供音频定制化识别服务。
图 3 EasyDL 的 3 个主要服务领域
目前 EasyDL 的各项定制能力在业内得到广泛应用,用户累计过万,在零售、安防、互联网内容审核、工业质检等数十个行业都有应用落地,并提升了这些行业的智能化水平和生产效率。
2.使用方式
由于目标群体主要为没有相关专业知识但又想要利用 AI 进行行业赋能的外行使用者,EasyDL 提供了一个流水线式的可视化界面(见图 4)。其功能分为数据中心与模型中心:数据中心负责数据集的管理与标注,模型中心负责训练与部署。
使用者基本上无需机器学习的专业知识,只需要对过程有简单的了解,跟随界面的流程执行模型创建—数据上传—模型训练—模型发布等流程,中间的过程平台会通过迁移学习、自动化建模技术等方式完成。
3.自动化建模技术
在自动化建模上,EasyDL 平台有两种不同的方法:一种是基于迁移学习的 Auto Model Search,另一种是基于神经架构搜索的模型自动生成方法。
图 4 EasyDL 的可视化界面
基于迁移学习的 Auto Model Search 方法是针对用户数据集的类型,在适用于该类型数据集的过去被证明优秀的预训练模型中进行搜索,如 Inception、ResNet、DenseNet 等,并结合不同的超参数组合进行训练与选择;每一个模型都会结合其配置的超参组合进行训练,这个过程可以通过百度的 workflow 等高性能底层计算平台进行并行加速。
对于某些对性能需求更高的用户而言,上述方式不一定能够把模型性能推到极致;因此还需要基于神经架构搜索 NASNet 的方法,该方法能够针对用户的数据集从零开始生成一个最适配的模型,从而确保性能可以达到最优,但是相对的计算成本也会更高;在本书的后续章节会对 NASNet 等神经架构搜索方法进行讲解。
这些过程都是在底层自动完成的,用户完全不需要操心中间的细节问题。
阿里云 PAI
1.简介
阿里云机器学习 PAI(Platform of Artificial Intelligence)是一款一站式的机器学习平台,包含数据预处理、特征工程、常规机器学习算法、深度学习框架、模型的评估以及预测这一整套机器学习相关服务(见图 5)。
2.面向大规模计算与多场景多业务的产品架构
PAI 包含数据预处理、特征工程、机器学习算法等基本组件;所有算法组件全部脱胎于阿里巴巴集团内部成熟的算法体系,经受过 PB 级别业务数据的锤炼。阿里巴巴内部的搜索系统、推荐系统、蚂蚁金服等项目在进行数据挖掘时,都是依赖机器学习平台产品。如图 6 所示,PAI 平台的业务十分广泛,支持多种计算框架。算法层不仅包含数据预处理、特征工程等基本算法,也涵盖各种机器学习算法、文本分析和关系网络分析等。
图 5 阿里云 PAI 工作流程图
图 6 阿里云 PAI 产品架构图
3.丰富的机器学习模块库
阿里云可以快速搭建数据预处理、特征工程、算法训练、模型预测和评估的整个链路,提供百余种机器学习算法组件,深耕深度学习计算架构,底层支持 GPU 分布式集群计算,功能可覆盖数据导入与处理、数据特征工程、机器学习深度学习、商品推荐、金融数据预测与风控、文本分析、统计分析、网络图分析等常见场景。
4.拖曳式可视化建模—PAI Studio
PAI 提供了 3 种不同的模式:为新手设计的可视化 PAI Studio 模式、为高级使用者设计的 PAI Notebook 模式,以及专门针对生产部署的 PAI EAS 模式。
PAI Studio 可视化模式允许客户通过拖曳组件的方式完成整个机器学习的流程(见图 7),用户无须过多关注底层的代码和算法,简单使用与测试即可。
图 7 阿里云 PAI 拖曳式组件
数据导入:首先将数据存入阿里云的 MaxCompute 系统中,接着就可以轻松导入数据。
数据预处理与建模全流程:全流程都可以通过拖曳完成,拖曳后简单设置一下相应的参数与属性即可。图 8 是一个简单的建模流程示例。
图 28 阿里云 PAI 建模流程示例
5.工业级机器学习自动调参与部署服务
PAI 提供了从模型自动调参到一键部署,再到线上的流式计算服务等一条龙的工业级模型部署方案;打通了从模型调参到部署的环节,通过自动化的手段大幅提高各个环节与阶段的生产效率。
PAI-AutoML 支持几种调参方法,如自定义参数、网格搜索、随机搜索以及进化算法等,也支持不同情况下的调参需求。
PAI 自动调参功能对于资深算法工程师以及入门者都有很大价值。针对入门用户,该类用户不清楚算法原理,因此无法高效调参,所以自动调参可以快速帮助这部分用户解决这个困扰。针对资深算法工程师,尽管其对于调参有一定经验,但是这种经验往往只能在大方向上指导调参,对于一些细节参数仍需要不断重复尝试,而自定义调参功能可以代替这部分重复性劳动。
在生成模型后,可以在 PAI 平台一键将模型发布成 API 服务。只要点击部署按钮,就会列出当前实验可部署的模型,选择需要的模型就可以一键完成部署,图 9 所示的是一个心脏病预测案例的模型在线部署示例。
图 9 阿里云 PAI 模拟在线部署示例图
探智立方 DarwinML
1.简介
探智立方是一家开发人工智能相关技术和解决方案的科技公司,公司主要基于 AutoML 理念,开发人工智能模型自动设计平台 DarwinML,降低人工智能的应用门槛,让各行业的 IT 人员、行业专家能更便捷地将人工智能相关技术落地于各种适合并需要的场景中,解决广大企业面临的人工智能人才及能力不足的问题。
DarwinML 是以机器学习及基因演化理论为基础的人工智能模型自动设计平台,是一种基于进化算法的神经架构搜索方法。谷歌在 2018 年发表的一篇基于进化算法的论文证明了采用进化算法也可以取得超越专家工程师的效果,本书后续章节也会有相关内容的介绍。
图 10 为探智立方的 roadmap 规划。
图 10 探智立方 roadmap 规划图
由于该公司没有 AI 开放平台与试用产品,因此无法提供使用调研信息。
2.进化架构搜索
进化架构搜索是基于进化算法一代又一代进行搜索与升级的方法,如图 11 所示。每一次模型的生成都会从最简单的网络开始,逐渐通过交叉与变异等算子形成复杂的大型网络。
3.统计进化
DarwinML 还采用了基于统计分析的进化算法的元学习思路,在不断的模型演化过程中,可以保存发现的好的模型基因和高效的模型演化路径形成基因库。有了这些经验与积累,平台的算法能力就会不断提高,进而提高模型演化的效率和演化出模型的质量。
图 11 进化架构搜索图
第四范式 AI Prophet AutoML
1.简介
AI Prophet AutoML 是一款覆盖了机器学习全流程的自动化产品,帮助企业低门槛、规模化拥有自主可控的 AI 能力,从而在广告营销、风险控制等高价值、高难度决策类场景中拥有出色的决策能力。 AI Prophet AutoML 通过简洁、易理解、易操作的方式覆盖了从模型调研到应用的机器学习全流程,打通了机器学习的闭环。用户只需“手机行为数据、手机反馈数据、模型训练、模型应用”4 步,无须深入理解算法原理和技术细节,即可实现全流程、端到端的 AI 平台构建。在降低门槛的同时,其构建编码方式也与传统人工智能方法不同,AI Prophet AutoML 提供了“傻瓜式”的交互界面,即让企业免去编码定义建模的过程,将开发 AI 应用的周期从以半年为单位缩短至周级别。
2.应用场景与数据处理
AI Prophet AutoML 还展现出了比较高的模型水准。在疾病预测、金融反欺诈、互联网推荐、广告营销、风险控制等高价值、高难度的决策类场景测试下,该平台做出了接近甚至超过顶级数据科学家的模型数倍的效果,让 AI 拥有出色的决策能力。另外,模型可一键上线,生成预测 API,也可根据需求自动上线。系统支持资源自动弹性伸缩。
在数据管理方面,该产品针对 AI 应用设计数据治理流程,包括数据自动推断、自动清洗、预处理、自动标记等,由此将数据分为行为数据与反馈数据的管理,更符合 AI 应用的场景,有目的性地让数据为 AI 服务。
在企业数据方面,从历史数据的利用到模型上线后新产生数据的自动回流,再到新数据的自动训练,一系列的过程使得企业数据变为活水,不断产生与使用,常用常新,越来越精准。如图 12 所示,是一个在线广告投放的案例,该企业的过程数据不仅可用于投放在线广告,还可以实现个性化推荐和实时反欺诈功能。
第四范式致力于提供通用的平台能力,降低 AI 应用的门槛,为企业打造一套自动化、流程化的工具。AutoML 平台,是第四范式在先知系统的基础上进一步降低企业 AI 落地应用门槛和 TCO 成本,拓展衍生平台专业应用能力和生态产业链的成果。
图 12 企业数据应用
智易科技
1.简介
智易科技通过一站式的 AI 研发与应用云服务平台,帮助零售、制造、金融、教育、医疗等各行各业的企业更加简单便捷地进行 AI 应用的开发与部署,低成本拥有人工智能,从而获得更大的商业价值。智易深思平台可以帮助任何企业用户快速开发出可应用与实际生产环境的 AI 模型,用户只需要将数据导入并选择预测目标,平台即可给出最优模型。如图 13 所示,深思平台定位零门槛和全程可视化的人工智能应用开发平台,用户不需要掌握任何 AI 相关的理论和知识,就可以轻松上手。
图 13 智易深思平台架构图
2.平台介绍
深思平台是一个庞大的系统集合,包括底层的分布式集群、云基础设施;上层的 AI 模型研发、分布式训练架构以及大数据引擎,如 Hadoop、Spark 等;同时拥有 ETL 层,可对数据进行处理,有可视化和 BI 等功能;并在面向前端用户时,搭建了基于浏览器的可视化操作页面,大幅降低了使用门槛。AutoML 是深思平台中的关键技术之一。目前,深思平台主要应用在金融业、零售业以及工业中,支持结构化数据和图像数据,可以帮助客户完成反欺诈、销量预测以及产品缺陷检测等一系列 AI 应用。平台具有应用门槛低、高度自动化的工具链、多场景模型训练支持、大规模的分布式系统管理等优点。
图书简介:https://item.jd.com/12685946.html
相关阅读
深入理解AutoML和AutoDL(一):AutoML的研究意义
评论