QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

伯克利开源 Ray Tune:大规模 AI 实验利器

  • 2020-02-26
  • 本文字数:3744 字

    阅读完需:约 12 分钟

伯克利开源Ray Tune:大规模AI实验利器

在本文中,我们将跟大家分享开发两个重要软件库Ray TuneRay Cluster Launcher 的经验, 这两个库现在支持很多流行的开源 AI 库,很多BAIR研究人员用它们来执行大规模 AI 实验。



随着 AI 研究变得越来越注重计算,很多 AI 研究人员的时间和资源都越来越紧缺。现在,很多研究人员依赖 AWS 或谷歌计算平台等云供应商,以获取训练大型模型所需的大量计算资源。

理解研究基础设施

为了更全面地理解这些内容,我们首先来看看业界的标准机器学习工作流(图 1)。



图 1 展示了业界典型的机器学习模型开发工作流


典型的“研究”工作流实际是步骤 2 和 3 之间的紧密循环,大致如图 2 所示。



图 2 展示了用于研究的典型机器学习模型开发工作流。该研究工作流通常是业界工作流的一个分支。


该研究工作流在很大程度上是个迭代的过程,通常受到实验执行步骤(如图 2 中的 B 所示)的制约。通常,一个“实验”包括多个训练作业或“试验”,其中每个试验都是训练单个模型的任务。每个试验可能使用一组不同的配置参数(超参数)或不同的种子来训练一个模型。


在伯克利,我们看到转向云的 AI 研究人员花费大量时间来编写自己的实验执行工具,这些工具整理云供应商的 API 以启动实例、设置依赖项和启动实验。


不幸的是,除了开发这些工具所要投入的大量时间以外,这些临时的解决方法还常常在功能上受到限制:


  • 简化的架构:每个试验通常在单独的节点上启动,没有任何集中控制逻辑。这让研究人员难以实施优化技术,如基于群体的训练(Population-based Training)贝叶斯优化(Bayesian Optimization),这些技术需要在不同的运行之间进行协调。

  • 缺乏故障处理:如果实例失败,那么训练作业的结果会永远丢失。研究人员常常在电子表格上跟踪实时实验来手动管理故障转移,但是,这么做既费时又容易出错。

  • 没有竞价性实例折扣(Spot Instance Discount):缺乏容错能力也意味着放弃云供应商提供的竞价性实例折扣(最高可达90%)。


总之,在云资源上测试和管理分布式实验既费力又容易出错。因此,采用易于使用的框架以在执行和研究之间架起桥梁可以大大加快研究过程。来自 BAIR 的几个实验室成员协作构建了两个互补的工具,用于在云中进行 AI 实验:


Ray Tune:用于训练和超函数调优的容错框架。具体来说,Ray Tune(或简称“Tune”):


  1. 协调并行作业以支持并行超参数优化

  2. 自动检查点,并在机器有故障时恢复训练作业。

  3. 提供了很多最先进的超参数搜索算法,如基于群体的训练( Population-based Training)和HyperBand


Ray Cluster Launcher:一个实用程序,用于管理 AWS、GCP 和 Kubernetes 之间的资源调配和集群配置。

Ray Tune

为了克服这些临时实验执行工具的缺点,我们构建了 Tune,利用了 Ray Actor API 并添加故障处理来解决问题。

基于 Actor 的训练

很多用于超参数优化的技术需要一个框架来监视所有并发训练作业的指标并控制训练执行。为了解决这个问题,Tune 使用一种 master-worker 架构来集中决策,并使用 Ray Actor API 的分布式 worker 来通信。


什么是 Ray Actor API?Ray 提供一个API从一个 Python 类来创建一个“actor”。这使得类和对象可以在并行和分布式设置中使用 。



Tune 使用一个可训练的(Trainable)类接口来定义一个 actor 类,这个类专门用于训练模型。该接口公开了如_train、_stop、_save 和_restore 等方法,这些方法允许 Tune 监视中间的训练指标并杀死效果不佳的试验。


class NewTrainable(tune.Trainable):    def _setup(self, config):        ...    def _train(self):        """Run 1 step of training (e.g., one epoch).        Returns:            A dict of training metrics.        """        ...    def _save(self, checkpoint_dir):        ...    def _restore(self, checkpoint_path):        ...
复制代码


更重要的是,通过利用 Actor API,我们可以在 Tune 中实施并行超参数优化模式,如HyperBand和并行贝叶斯优化,而这些是研究人员以前使用的实验执行工具无法做到的。

容错

云供应商常常以很大的折扣提供“可抢占的实例”(如,竞价型实例)。大幅度的折扣使得研究人员可以显著地降低其云计算成本。但是,缺点是云供应商可以在任何时候终止或停止运转我们的机器,导致我们丢失训练进度。


为了可以使用竞价型实例,我们构建了 Tune 以在集群不同的机器中自动地建立检查点并恢复训练作业,这样,实验将对抢占和集群大小的调整具有弹性。


# Tune will resume training jobs from the last checkpoint# Tune将从最新的检查点恢复训练作业# even if machines are removed.#即使机器已被删除。analysis = tune.run(    NewTrainable,    checkpoint_freq=5,  # Checkpoint every 5 epochs    config={"lr": tune.grid_search([0.001, 0.01, 0.1])},)
复制代码

它是如何工作的?


如果在某个节点丢失的时候,有个训练作业仍在其上执行且该训练作业(试验)的检查点存在,那么,Tune 将一直等到有可用资源可用,以再次执行该试验。


如果该试验被放置在一个不同的节点上,那么,Tune 将自动把之前的检查点文件推送到那个节点并恢复状态,即使失败,该试验也可以从最新的检查点恢复。

Ray Cluster Launcher

上面,我们描述了为自动化集群设置过程而整理云供应商 API 的痛苦之处。但是,即使有了用于分解集群的工具,研究人员还是必须经过繁琐的工作流才能进行实验:



为了简化一下这个过程,我们构建了 Ray Cluster Launcher,这个工具会调配资源并自动调整资源大小,并且在 AWS EC2、GCP 和 Kubernetes 上启动一个 Ray 集群。然后,我们把以上用于进行一个实验的步骤抽象成一个简短的配置文件和一个命令:


# CLUSTER.yamlcluster_name: tune-defaultprovider: {type: aws, region: us-west-2}auth: {ssh_user: ubuntu}min_workers: 0max_workers: 2# Deep Learning AMI (Ubuntu) Version 21.0head_node: {    InstanceType: c4.2xlarge,    ImageId: ami-0b294f219d14e6a82}worker_nodes: {    InstanceType: c4.2xlarge,    ImageId: ami-0b294f219d14e6a82}setup_commands: # Set up each node.    - pip install ray numpy pandasfile_mounts: {  '/home/ubuntu/files':'my_files/',}
复制代码


下面的命令用来启动一个集群、上传并运行一个用于分布式超参数调整的脚本,然后关闭该集群。


$ ray submit CLUSTER.yaml --start --stop tune_experiment.py \--args="--address=auto"
复制代码


研究人员现在使用 Ray Tune 和 Ray Cluster Launcher 同时在数十台 GPU 机器上启动数百个并行作业。Ray Tune的分布式实验文档页面展示了如何执行该操作。

总结

在过去的一年中,我们一直和 BAIR 不同的团队合作,以更好地让研究人员利用云。我们必须让 Ray Tune 和 Ray Cluster Launcher 变得足够通用,以支持大量研究代码库,与此同时,要把上手门槛降到人人可以在几分钟内尝试一下的程度。


# An example Ray Tune script for PyTorch.import torch.optim as optimfrom ray import tunefrom ray.tune.examples.mnist_pytorch import (    get_data_loaders, ConvNet, train, test)class TrainMNIST(tune.Trainable):    def _setup(self, config):        self.train_loader, self.test_loader = get_data_loaders()        self.model = ConvNet()        self.optimizer = optim.SGD(            self.model.parameters(), lr=config.get("lr", 0.01))    def _train(self):        train(self.model, self.optimizer, self.train_loader)        acc = test(self.model, self.test_loader)        return {"mean_accuracy": acc}    def _save(self, checkpoint_dir):        checkpoint_path = os.path.join(checkpoint_dir, "model.pth")        torch.save(self.model.state_dict(), checkpoint_path)        return checkpoint_path    def _restore(self, checkpoint_path):        self.model.load_state_dict(torch.load(checkpoint_path))analysis = tune.run(    TrainMNIST,    stop={"training_iteration": 50},    config={"lr": tune.grid_search([0.001, 0.01, 0.1])})print("Best hyperparameters: ", analysis.get_best_config(    metric="mean_accuracy"))# Get a dataframe for analyzing trial results.df = analysis.dataframe()
复制代码


Tune 已经成长为一个流行的超参数调整开源项目。很多其他流行的研究项目也在使用它,从基于群体的数据增强( Population-based Data Augmentation)项目到用于AllenNLP的超参数调整( Hyperparameter Tuning)以及 AnalyticsZoo 的AutoML


BAIR 的很多开源项目现在都依赖 Ray Tune 和 Ray Cluster Launcher 的组合来编排和执行分布式实验,其中包括 rail-berkeley 的softlearning、HumanCompatibleAI 的对抗策略(adversarial-policies),以及流项目(flow-project)的流。


来,动手尝试一下Ray Tune和 Ray Cluster Launcher 吧!

相关链接


原文链接:


Large Scale Training at BAIR with Ray Tune


2020-02-26 19:004112

评论

发布
暂无评论
发现更多内容

排查dubbo接口重复注销问题,我发现了一个巧妙的设计

捉虫大师

dubbo

IT 专业高校大学生就业方向状况调查问卷

架构精进之路

调查报告 4月日更 InfoQ 写作平台 1 周年

Jcenter 停止服务,说一说我们的迁移方案

Antway

android maven Gradle

软件 IT 专业的高校学生有关在线课程的问卷调查

程序员历小冰

LeetCode题解:151. 翻转字符串里的单词,栈,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

如何通过openLooKeng更高效访问HBase?

openLooKeng

Java 大数据 Bigdata MySQL 高可用

百度智能云成中国跳水队独家AI合作伙伴圆梦东京!

百度大脑

百度智能云

智能小车系列-串口设置

波叽波叽啵😮一口盐汽水喷死你

串口 树莓派串口 ttyAMA0

生命中的无奈

小天同学

读书 读后感 生命 4月日更

特斯拉行车数据被篡改?专家称车企很难自证清白,保留“数据指纹”的区块链技术在路上

CECBC

指纹

浪潮云再次入围央采2021年云计算服务采购名单

云计算

SCA工具:开源安全威胁一手掌控

华为云开发者联盟

开源 安全 测试 SCA 软件成分分析

云信技术系列课 | RTC 系统音频弱网对抗技术发展与实践

网易云信

WebRTC 音频

微信小程序登录流程详解

frank-say

Linux 上 定时备份postgresql 数据库

Yang

数据库 postgresql

最新、最全、最详细的 Git 学习笔记总结(2021最新版)

民工哥

后端 Git Submodule linux运维 代码管理

面向软件 IT 专业的高校大学生课余时间自学情况调查

xiezhr

大学生日常 IT 高校学院 问卷调查

如何从 0 到 1 开发 PyFlink API 作业

Apache Flink

flink pyflink python 3.5+

基于Kubernetes Operator的网易数帆生产级云原生中间件实践

网易数帆

架构 Kubernetes 云原生 operator 中间件

Kubernetes入门——Kubernetes实现应用的高可用

百度开发者中心

Kubernetes k8s入门 #技术课程#

赋能制造产业智能化转型 百度大脑开放日福州解密

百度大脑

百度大脑 开放日 智能化

C盘内存杀手,原来是这款出人意料的被闲置的软件|iTunes

彭宏豪95

效率 工具 4月日更 iTunes

【XXX高校】软件IT专业学生(恋爱观)调查问卷

洛神灬殇

调查报告 大学生 恋爱

2021高校IT专业大学生就业意向调查问卷

黑马腾云

ArrayList 与 LinkedList 底层结构

Kori Lin

Java

被遗弃的 Vector 和 Stack

Kori Lin

Java

智能小车系列-动力系统(ezPWM)

波叽波叽啵😮一口盐汽水喷死你

pwm ezPWM PWM信号

获取chrome80谷歌浏览器存储的指定网站Cookie数据方法详解

老猿Python

Python chrome 爬虫 Cookie

UT之最后一测

好好学习,天天向上

音视频编解码--编码参数CRF

Fenngton

ffmpeg 视频编解码 视频压缩 码率控制 CRF

容器 & 服务: 扩容(二)

程序员架构进阶

Kubernetes 28天写作 弹性扩容 4月日更

伯克利开源Ray Tune:大规模AI实验利器_开源_伯克利BAIR博客_InfoQ精选文章