根据 Cloudera 上月报道,他们将会与博德研究所共同合作研究博德研究所的Genome Analysis Toolkit 第四代产品Hellbender(GATK4)。InfoQ 之前对其进行过相关报道。
Cloudera 的生命科学部门负责人 Shawn Dolley 称 GATK4 可以节约成本,并减少了研发时间,并同时宣布有关博德研究所与各种云 IaaS 提供商的广泛合作,但不提供定量的标准。Dooley 提到了合作工作所能带来的优势,
2014 年 Cloudera 与 Spark 之间的合作,推动我们成为首个可以交付、支持并提供 Spark 培训的 Hadoop 供应商。我们很荣幸可以将我们的专业知识运用到多 omic 生物标志分析领域,投资基于 Spark 的生物信息学标准,并与博德研究所合作创造下一代 GATK 产品。这种低成本的基因组测序和大数据技术的领先技术相结合,代表着我们可以更广泛地对患者的基因组进行测序,并产生之前从未得到过的数据集。
云平台的用例和架构注重于避免重复的基础设施,并推进最佳实践,使用户可以深入理解观察疾病和治疗方法,而不仅仅是管理基础设施。博德研究所数据科学和数据工程高级总监、GATK 软件包创始人 Eric Banks 博士说,
博德研究所的 GATK 产品目前有超过 31000 名注册用户。绝大多数用户建立了本地计算存储基础设施,以处理需要进行基因分析的庞大信息。这些合作将为我们消除传统技术的限制,同时给予相同高质量数据处理水平提供新的机会。
关于 GATK 之前的版本到 GATK4 之间性能的提升,Bank 表示,
在 Cloudera 企业版中使用 Spark 计算框架,给予了我们在 GATK3 上因其计算复杂程度无法实现的工具。在 Cloudera
企业版上,我们现在可以以快于先前版本的 GATK 两个数量级的速度来运行基因数据分析,加速反复分析,推进基因创新。
博德研究所与 laaS 提供商的广泛合作旨在让下一代 GATK Spark 可以基于 SaaS 模型使用,让用户可以通过不同的 laaS 登录 GATK4,而不受特定提供商的限制。GATK4 最早将在今年发布,根据提供商不同价格也会不同。免费的许可证将会提供给学术研究,而收费的许可证将可以供给商业用户使用。
查看英文原文: Cloudera Announces Partnership with the Broad Institute
感谢张龙对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论