由华为云基因容器服务(GCS)赞助的 2019 第一届生物信息人才发展论坛已经顺利的落下帷幕。该论坛是由生信技能树发起、医学中文网协办的聚焦生信人未来发展的大会。汇聚了国内基因领域各大厂商参展,包括华大基因、海普洛斯、古奥基因、微基因、艾吉泰康、基云惠康、精准家、烈冰生物、拓普基因、崭晴生物等齐聚珠海横琴.澳门创业谷。共同探讨生物信息学发展前沿与就业前景。
来自华为云基因容器服务(GCS)的产品经理 Nan.Zhou 与参会者分享了《云厂商眼中的生信发展趋势》议题,与大家探讨云时代生信从业人员需要关注的发展方向。随着生物信息在众多课题组的逐步普及,如果降低开展生物信息学分析的难度就变得更加重要。而云服务器就是一个最有前景和最简单的方式。
以下为分享实录
大家知道,二代测序的短读长,大片段的结构变异、微卫星串联重复以及单体型信息,在过去都是临床检测上的难点甚至盲点。而以 PacBio 和 Oxford Nanopore 为代表的三代测序技术在读长和测序速度上都占据优势,尤其是 Oxford 纳米孔测序仪,其读长甚至可以超过 1Mb(一百万碱基对),并且在测序的过程中还能同时检测 DNA 的甲基化修饰。三代测序由于读长更长,它的出现将完美填补之前临床检测上的这些空白。目前已有多家基因容器的客户开始在云上运行三代测序业务,相信这会是一个比较明显的趋势信号。
然而,由于三代测序仪的限制,单碱基精度一直是最大的问题。如果没有特殊的算法处理,数据是很难用的。当前普遍的做法是在进数据分析之前,首先校正 Reads 本身的精度。一般实现是通过序列之间两两互相比较纠错来得到高可信度的 Reads,这样一来,会大大的增加三代测序的数据计算量。整体而言,三代测序的计算量大约是二代测序的 100~200 倍。
针对这样的状况,传统基因公司自建机房的方式将难以继续。你想,让 IT 人员管理 50 台服务器没问题,扩大 100 倍,到 5000 台服务器的时候,不是一个 IT 人员可以维护的。这只是最直接的原因,更深层次的是这么大的重资产投入,并不符合基因厂商的商业逻辑,而是应该更加地专注于业务开发。那么云计算就是一个不错的选择,新的问题是什么样的技术能够保持云上云下流程的一致性呢?答案就是 Docker 容器技术。
毫无疑问,生信领域的基础 IT 技术在向 Docker 容器靠拢,目前由 GA4GH 制定的工具标准也都是使用 Docker 镜像的。不仅如此,容器技术在整个 IT 领域,也是发展迅猛。据 IDC 最新云服务市场报告(2019 年第一季度)显示,IaaS 市场增速有所减缓,PaaS(容器)市场依然保持高增长,增速为 101.9%。同时 CNCF 云原生基金会也正是迅速的壮大,围绕容器的生态圈也逐步完善。
Docker 是一个开源引擎,可以自动将应用程序部署到容器中,同时又是独立于 Host 系统的。这样您就可以随时改变容器中的软件和执行的命令,而不用担心破坏主机系统。这是一个令人难以置信的轻量,快速和高效的环境,可以方便地运行你的代码,这也是为什么 Docker 技术迅速火遍全球的原因。Docker 已然是计算机科学家和开发人员的热门话题之一。它虽然刚刚开始被生物学领域使用,但它具有巨大的潜力。每一个和生信分析相关的人都应该知道 Docker 技术。
华为云基因容器服务(GCS)将基因测序和容器技术完美地结合在了一起,为广大基因测序厂商提供了“更省、更快、更轻松”的云计算平台。GCS 是一个三层架构,最底层是 Docker 层,这层主要解决基因测序相关软件的安装升级问题;中间层是 Kubernetes 层,主要解决在大规模集群中部署 &运行 Docker 的问题;最上层是流程管理层,主要负责基因测序的流程控制,同时提供精细粒度的监控运维管理能力。
基因容器(GCS)在提供全容器化能力的同时,还支持一键创建 SGE 集群,并根据投递的任务控制 sge 队列的自动扩缩容,做到真正的 Serverless+按需使用。此外基因容器(GCS)还支持 Cromwell 引擎,提供运行 WDL 流程的能力。基因容器服务(GCS)做到基因业务上云使用更灵活,性价比更高,运维更简单。如果有兴趣可以关注了解更多。
评论