3、运行一个 GATK 基因分析处理的实际例子
本例子是基于 hg38 公开数据进行 GATK 分析流程中 HaplotypeCaller 步骤处理。(提示:本实验会产生一定运行费用根据运行实例类型和 Spot 比例设置有所不同)
SSH 登录进 cromwell-server 实例后,输入以下命令获取工作流脚本 HaplotypeCaller.aws.wdl 和配置文件 HaplotypeCaller.aws.json。``
Bash
其中配置文件 HaplotypeCaller.aws.json 的内容格式如下,其中的 s3://开头的地方是用到的 bam/fastq 等资源文件,您也可以指定到自己 S3 存储桶的文件链接。``
Bash
提交如下命令启动分析流程。``
Bash
分析完成后,可在 CloudWatch Log 中查看每个任务的日志,如下图所示。结果数据文件存放在 s3://yourbucket/cromwell-execution/HaplotypeCallerGvcf_GATK4/{UUID}/call-HaplotypeCaller/shard-xx/路径下。
实验完成后,在 CloudFormation 界面中选择模板删除即可释放堆栈相关资源避免产生不必要的费用,其中 S3 存储桶和 CloudWatch Log 记录可在对应服务内手动删除。
4、参考资源链接
Cromwell 快速教程:
https://cromwell.readthedocs.io/en/stable/tutorials/FiveMinuteIntro/
Cromwell-on-AWS-Batch 海外区域部署指南:
https://docs.opendata.aws/genomics-workflows/orchestration/cromwell/cromwell-overview/
AWS 基因分析参考资料:
https://docs.opendata.aws/genomics-workflows/
AWS CloudFormation 使用指南:
https://amazonaws-china.com/cn/cloudformation/getting-started/
wdl 参考链接:
https://github.com/openwdl/wdl
Github 参考链接:
https://github.com/iwillsky/cromwellcn/
AWS 中国区域帐号申请:
作者介绍:
本文转载自 AWS 技术博客。
评论