【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

基因测序性能提升 5 倍,华为云是怎么做到的?

  • 2020-04-01
  • 本文字数:1591 字

    阅读完需:约 5 分钟

基因测序性能提升5倍,华为云是怎么做到的?

近期,华为云携手峰科计算(以下简称“峰科”)发布基于 FPGA 的基因加速云解决方案,该方案采用 GATK(The Genome Analysis Toolkit)标准分析流程,将全基因组测序(WGS)性能提升 5 倍,从传统模式下的 30 个小时降低到 5~6 个小时,同时测序精度可达 99.95%以上,在大幅缩短测序时间的同时实现 TCO 大幅降低。

基因测序数据分析加速面临的挑战

  • 基因测序分析流程 BWT+GATK 当前被业界广泛采纳,但采用此流程的传统测序方法需要消耗高额算力及存储资源,且耗时较长。

  • 针对基因测序中高算力需求的 smith-waterman,pair-hmm 等算法处理,其具有计算并行性,不连续,非规则的存储访问,低 bit 操作等特性,计算依赖不规则区域的操作会对 CPU 消耗很大,性能难以提升。

华为云 FPGA 基因加速解决方案的优势

为了更好的解决基因测序行业面临的基因组分析标准流程不经济高效以及跨不同云和硬件(CPUs,FPGAs)加速实现的双重挑战,华为云和峰科计算强强联合,合作推出符合行业标准的 GATK 加速流程,通过对基因测序数据分析流程进行软、硬件联合优化实现端到端加速。


  • 华为云提供业界领先的 FPGA 加速云服务平台,采用业界领先的 Xilinx 16nm Virtex UltraScale+ VU9P FPGA,并针对基因场景推出 32 核 CPU 224GB 内存 1VU9P FPGA 和 64 核 CPU 448GB 内存 2VU9P FPGA 规格的实例,实现了 GATK 软件处理流程和 FPGA 加速流程的完美结合,从而将加速效率提升 3~5 倍;

  • 峰科采用 GATK 标准分析流程,精准性与 GATK 标准流程完全吻合,精度可达 99.95%以上;

  • 不修改 GATK 标准流程,可访问读取从原始测序数据到生成 vcf 文件整个过程中的中间数据,便于科研用户使用比对。

华为云 FPGA 基因加速解决方案解析

华为云 FPGA 基因加速解决方案集成峰科的加速 IP,为用户提供一种易于使用,经济实惠的基于 FPGA 的基因组分析流程加速服务,在该方案中,华为云配备了 32 核 CPU,单个 VU9P FPGA 的实例。


华为云 FPGA 基因加速解决方案使用 GATK 最佳方案对种系突变和体细胞突变进行变异检测,将计算密集型算法如 Smith-Waterman、PairHMM 等确定为加速对象。每种算法都经过 FPGA 内核优化,并且实现 CPU-FPGA 协同执行和资源分配。


如图 1 所示,用户通过分析应用程序,把每个流程的数据传给华为云峰科加速平台,平台里的 Kestrel 运行时管理工具来管理 CPU-FPGA 协同执行和资源分配。利用多线程,I / O 优化和扩展使用 FPGA 加速器,华为云 FPGA 基因加速服务的基因组学分析流程在保证精准度的情况下提供显著的加速。



图 1 华为云峰科 FPGA 基因加速方案结构图


与 GATK 最佳使用流程相对称,典型的基因测序数据分析流程始于原始 FASTQ 序列两端读长(paired-end reads),进一步获取一组经过滤的变体,对其进行标记以供进一步分析。图 2 描述了华为云基因加速服务种系变异调用流水线的具体流程,中间面板指示开始的通常工作流程,上下分别显示华为云 FPGA 基因加速方案中的峰科加速流程和 GATK 最佳使用流程命令实现方式的工作流程。



图 2 华为云峰科基因加速流程和 GATK 最佳使用流程对比


基于华为云 FPGA 加速服务,使用 FPGA 优化加速 GATK 流程,基因组分析流程可以实现 3~5 倍速度提升和 99.95%以上的准确度。华为云 FPGA 基因加速解决方案最快基因组序列分析标准流程可在一天内完成 5 个全基因组或 24 个整体外显子组分析。


Performance comparison for GATK 3.8 WGS from Alignment to Variant Calling using Hoplotypecaller



注:测试数据使用的是 30X 的 WGS 样本,碱基数量 103G

华为云基因加速服务“0”元体验

为了能让更多的用户体验华为云 FPGA 加速云服务器,针对基因加速场景,华为云联合峰科(Falcon)推出“基因加速服务 0 元体验套餐”,套餐规格为 32 核 CPU 224GB 内存 500GB 数据盘 5M 带宽,欢迎各企业登录华为云官网使用。


本文转载自 华为云产品与解决方案 公众号。


原文链接:https://mp.weixin.qq.com/s/D0R4pT0rgshpGEdmiPGMIQ


2020-04-01 14:53704

评论

发布
暂无评论
发现更多内容

面试不再慌!苦学这份2023最全的Java性能优化实战笔记,已涨17k

Java你猿哥

Java 面试 JVM 多线程 Java性能优化

Redis数据类型及底层大剖析

做梦都在改BUG

Java 数据库 redis 缓存

太强了!牛客网开源1240页字节算法实录,无意中掀起GitHub刷题热潮

做梦都在改BUG

Java 数据结构 算法 LeetCode

Bash脚本中的Sleep命令到底有何妙用?

wljslmz

三周年连更

程序员如何应对失业? | 社区征文

石云升

职业规划 三周年征文 三周年连更

我懵了,如果要存 IP 地址,用什么数据类型比较好?

Java你猿哥

Java MySQL 数据库 ssm IP

围绕应用的云原生转型建设

穿过生命散发芬芳

云原生 三周年连更

什么是 Intelligence Enterprise 的 Business network?

Jerry Wang

人工智能 机器学习 数字化转型 三周年连更

速通字节!阿里p8耗时6个月打造的java面试手册,看到直呼“面试有手就行”

Java你猿哥

Java spring 微服务 JVM 多线程

运行第一个程序Hello world

鸿蒙之旅

OpenHarmony 三周年连更

分布式事务的21种武器 - 4

俞凡

架构 云原生

分布式事务的21种武器 - 5

俞凡

架构 云原生

声网 Token 鉴权机制,以及常见的问题

声网

Java 数组在内存中的结构是怎样的?数组访问、遍历、复制、扩容、缩容如何编写代码?

Java架构历程

Java 数组 三周年连更

程序性能提高了5倍!开源阿里500页的Java程序优化笔记

Java你猿哥

Java 面试 性能优化 Java虚拟机 Java性能优化

MySQL面试八股文:索引篇

Java你猿哥

Java MySQL ssm 索引 八股文

为什么《魂斗罗》只有128KB却可以实现那么长的剧情?

Java你猿哥

Java 编程 程序员 汇编语言 优化技术

Alibaba内网“疯狂”传阅的P8开源出的SpringBoot入门到进阶小册

做梦都在改BUG

Java spring 微服务 Spring Boot 框架

自动化与DevOps

阿泽🧸

自动化 三周年连更

变量,常量以及与其他语言的差异

乌龟哥哥

三周年连更

Java面试题大全(2023最新版)大厂面试题附答案详解

采菊东篱下

Java 面试

2023年互联网Java面试题最新整理附答案

架构师之道

Java 面试

MATLAB与Simulink

袁袁袁袁满

三周年连更

MySQL深分页问题原理与三种解决方案

做梦都在改BUG

Java MySQL 数据库

SpringBoot核心配置全面总结

小小怪下士

Java 程序员 后端 springboot

字节速通!这份软件测试八股文还怕不能拿offer?你值得拥有

Java你猿哥

MySQL 面试 软件测试 计算机 八股文

https和http有什么区别?

海拥(haiyong.site)

三周年连更

面试官:一千万的数据,你是怎么查询的?

做梦都在改BUG

Python的常见数据结构

timerring

Python

基于Alpine制作Tomcat的Docker镜像

清康

Java8 lambda 表达式 forEach 如何提前终止?

Java你猿哥

Java ssm java8 foreach

基因测序性能提升5倍,华为云是怎么做到的?_行业深度_华为云产品与解决方案_InfoQ精选文章