写点什么

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(一)

  • 2020-01-02
  • 本文字数:1537 字

    阅读完需:约 5 分钟

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(一)

摘要:Cromwell-on-AWS-Batch 是 AWS 在生命科学领域联合 Broad 研究院推出的解决方案,已有很多 AWS 海外区域的客户在使用该解决方案进行基因分析。AWS Batch 服务于 2019 年 10 月在 AWS 中国区域上线之后,我们随即根据 AWS 中国区域的特点对该解决方案进行了适应修改和优化提升,本文通过一个测试示例和一个 GATK 实际例子来演示在中国区域一键部署的过程,为国内基因分析客户快速上手使用该解决方案加速分析效率提供参考。

1、基本介绍

Cromwell 是由 Broad 研究院面向科研领域开发的一套工作流管理框架,目前在基因分析领域更为常用。Cromwell 目前已支持对接 AWS Batch 作为其集群管理后端,云端基础资源的调度管理由 AWS Batch 完成。


Cromwell-on-AWS-Batch 的组成架构图如下图所示。由生信工程师编写 wdl 或 cwl 格式的基因分析工作流脚本,作为 Cromwell 的输入,通过 API 调用(或图形管理界面)的方式提交任务,分析过程中可通过 AWS Batch 服务的控制面板和 CloudWatch-Log 记录可以查看任务的执行状态,分析的结果保存在 Amazon S3 存储上。分析中支持调用 Spot 竞价实例来降低样本分析的成本。此外 Cromwell 还支持通过 Amazon Aurora 数据库服务来管理作业数据记录。


2、一键部署的过程及测试示例

部署过程通过 CloudFormation 模板导入,非常方便。进入 AWS 控制台,右上角选择宁夏区域,并通过左上角服务菜单进入 CloudFormation 服务界面,点击“创建堆栈”,在堆栈模板的 URL 信息栏中填入:https://awshcls.s3.cn-northwest-1.amazonaws.com.cn/cromwellcn/templates/cromwell-aio.template.yaml,如图所示。



进入下一步,为堆栈指定名称。在堆栈参数栏中,下拉选择 EC2 密钥对(如果下拉列表为空,可进入 EC2 服务界面左侧密钥对菜单中建好再返回此处),该密钥对是后续 SSH 登录的凭据;并输入 S3 存储桶的名称,该名称需符合 S3 桶名规范并保证唯一(亦可通过指定 Existing 选项为 true 来使用已有存储桶名)。在 AWS Batch 参数中,指定 Spot 竞价实例在所有 vCPU 的使用比例,并指定最小最大 vCPU 数量,后续会建 Default 和 High Priority 两个不同优先级的任务队列,故最小最大数量可分别指定。此处两个最小值均填 4。其他可保持默认值,进入下一步。



在权限参数中需要指定一个 IAM 权限角色用于授权 CloudFormation 来启动资源用,如果为空,参考右上角“了解更多”的步骤新建一个角色(简便起见可先建一个管理员权限的)再返回此处设置。



进入下一步,勾选两个确认框。



点击创建堆栈,即开始自动新建整个框架堆栈。等待十几分钟后堆栈建立完成,堆栈状态可看到均为 CREATE_COMPLETE 状态(该模板自动嵌套 7 个子模板)。



在 EC2 实例列表里也可以查看到对应的实例信息,选中 cromwell-server 实例点击上方“连接”查看 SSH 登录方式。



SSH 登录进 cromwell-server 实例后,输入以下命令即可提交一个简单的测试示例。


Bash


wget https://awshcls.s3.cn-northwest-1.amazonaws.com.cn/cromwellcn/scripts/simple-hello.wdl   curl -X POST "http://localhost:8000/api/workflows/v1" -H "accept: application/json" -F "workflowSource=@simple-hello.wdl"
复制代码


其中 simple-hello.wdl 的内容如下,是一个只执行一个 task 的测试脚本(wdl 的规范参考文末链接)。``


Bash


task echoHello{    command {        echo "Hello AWS!"    }    runtime {        docker: "amazonlinux:latest"    }}workflow printHelloAndGoodbye {    call echoHello}
复制代码


测试示例很快完成,在 CloudWatch Log 中有详细记录信息,如下图所示。



本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/one-click-deployment-of-cromwell-on-aws-batch-solution-for-genetic-analysis-in-aws-china/


2020-01-02 14:41748

评论

发布
暂无评论
发现更多内容

多功能音乐制作 Steinberg Cubase Pro 13 mac下载安装教程

Rose

UltraCompare 24 v24.0.0.19中文激活版 mac文本对比工具 支持M1/M2/M3

Rose

端午节,来看看这本应景的“龙舟书”吧!

博文视点Broadview

专家解读 | NIST网络安全框架(3):层级配置

权说安全

深度体验与测评openGauss 6.0.0新版本

华为云开发者联盟

数据库 开源 华为云 华为云开发者联盟 企业号2024年6月PK榜

Excite Audio Motion Dimension 双重延迟和适应性混响的复杂融合

Rose

Reunion 14 for Mac 家族图谱记录工具 含注册激活工具

Rose

Steinberg Nuendo for mac(音频后期制作软件)v13.0.40激活版

Rose

Zap高性能日志库实践

FunTester

macOS电脑超级好看的动态壁纸和屏保:Screen Wonders

Rose

Xcode 15 :MacOS上的集成开发工具(IDE)

Rose

蓝易云 - Docker的应用包含Sandbox、PaaS、Open Solution以及IT运维概念的详细讲解

百度搜索:蓝易云

Docker PaaS IT Sandbox Open Solution

蓝易云 - 如何解决git clone http/https仓库失败(403错误)

百度搜索:蓝易云

git 云计算 运维 服务器 云服务器

[最新永久激活版]JetBrains 2024.1.3 全系列更新 含中文设置教程

Rose

蓝易云 - 如何给Nginx配置访问IP白名单

百度搜索:蓝易云

nginx 云计算 Linux Web IP

Microsoft Outlook 2021 mac永久版 v16.85.2中文正式版

Rose

PS/LR滤镜插件套装:Nik Collection 6 by DxO中文版

Rose

华为云短信服务教你用C++实现Smgp协议

华为云开发者联盟

c++ 物联网 华为云 华为云开发者联盟 企业号2024年6月PK榜

Bankless:为什么 AI 需要 Crypto 的技术?

TechubNews

web3

奇怪!应用的日志呢??

京东科技开发者

互联网大厂的缓存策略:抵抗超高并发的秘密武器,已开源!

冰河

程序员 并发编程 多线程 高并发 架构师

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(一)_文化 & 方法_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章