11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦,立即报名! 了解详情
写点什么

大数据革命与基因组分析

  • 2014-02-18
  • 本文字数:1291 字

    阅读完需:约 4 分钟

Curoverse 和 Tute Genomics 在上个月获得了 150 万美元的种子投资,它们的目标是促进面向大众的基因序列测定。Curoverse 是一个用于生物医药的私有云平台,它基于免费的开源平台 Arvados 。Tute Genomics 提供了一个基于云的基因组分析解决方案,帮助研究人员解析从人类外显子组直至基因组的序列数据。

在过去的几年里,基因序列测定成本已经大幅度降低,使它更易于投入市场服务大众。与此同时,存储和计算能力随着摩尔定律不断地增强,就更易于分析和存储人类的全部基因组了。

但尽管如此,一个完全测序的人类基因组包含100-1,000GB 的数据量。一百万个客户的数据合计能达到1EB 或者说1,000,000TB 的数据量。来自于UC Berkeley 的研究人员提出了一个可行的方法来管理数据库,数据库采用三层存储方式,分别为100PB、1PB 和1TB,其中只有最后一个基于关系型数据库。这项工作的秘诀是个体化医疗。人类有 99.9% 的 DNA 是相同的,其假设是对许多病人进行全基因组序列分析,将会发现那 0.1% 的差异能够用来预测和治疗许多疾病,其中也包括癌症。

从计算能力这一方面来说,已经有专门的硬件用于加快基因组数据分析的速度。在过去的十年间,人类基因组的排序成本已经下降了100,000 倍,分析时间从13 年降到了三天以内

在研究领域已经有测序中心在分析并存储数据,各中心的数据分别取自少量的病人样本。我们面临的真正挑战是在不同档案间合并这些数据集,并交叉引用病人的病历、临床治疗及效果。

在过去的几年里,私营企业开始介入,并为大众提供基因组分析服务。比如 Illumina Seven Bridges Genomics Complete Genomics 以及其他一些组织,它们使研究人员和私人团体有条件去针对四张图标记映射全基因组序列。Illumina 近期发布了 HiSeq X Ten ,承诺可以用不到 1000 美元的成本完成基因组测序,这是一个盼望已久的目标。

Illumina 已经正式推出了一个名为 BaseSpace 的云计算和存储平台,它能让科学家们对存储在 Amazon Web Services 上的数据进行排序、分析和协作。大家也可以使用其 API 和 SDK 开发生物信息应用。

另一方面, Seven Bridges Genomics 在人类基因组排序和分析中综合应用了云计算和NoSQL 数据的技术,比如EC2、S3 和 MongoDB 。为了降低数据存储成本,他们还采用了 Glacier。Seven Bridges PaaS 提供了一个设置数据通道的界面,这些通道可以基于预定义的模型,也可以根据当前任务进行调整。

对于有志于从事生物信息的开发人员来说, Crossbow 是一款能够用于完整基因组重新排序分析的工具。经过对多个类库进行整合,它可以借助AWS 只花不到100 美元的成本在3 小时之内分析完一个人类基因组。Intel 为大家提供了一份详细指南,你可以从 GitHub 上获取它的源代码。

具有 150 亿美元市场前景的基因组研究产业才刚刚开始升温,技术的进步将进一步延伸自我量化( quantified self )的概念,这将远远超出我们今天的想象。

查看英文原文: Big Data Revolution and Genomics Analysis


感谢梅雪松对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-02-18 19:302110

评论

发布
暂无评论
发现更多内容

史上最全Mybatis框架入门教程,从零开始带你深入♂学习(三

Java 程序员 后端

史上最全SpringBoot教程,从零开始带你深入♂学习(九,大厂Java面试真题精选

Java 程序员 后端

史上最全SpringBoot教程,从零开始带你深入♂学习(十五

Java 后端

史上最全Spring教程,从零开始带你深入♂学习(二(1),深入实践springbootpdf百度云

Java 程序员 后端

吃透阿里大佬整理的Java面试要点手册,成功五面进阿里(二本学历

Java 程序员 后端

同事问我MySQL怎么递归查询,我懵逼了(1),阿里java技术专家评级

Java 程序员 后端

同样是程序员,本科学历凭什么就比专科学历更吃香?,mybatis常见面试题

Java 程序员 后端

双非本科毕业的我,为何能在金九银十期间斩获京东、字节

Java 程序员 后端

可爱的程序员哟,你忘掉的是这堆Java锁呢?还是这把死锁呢

Java 程序员 后端

史上最全141道大数据面试题:Redis+Linux,mongodb面试

Java 程序员 后端

史上最全499道Java面试题:JVM+分布式,Kafka的精髓全写这本“限量笔记”里了

Java 程序员 后端

同程旅行基于 RocketMQ 高可用架构实践,mysql破解版百度云

Java 程序员 后端

五面阿里、三面美团、四面字节跳动,最终拿offer入职字节!

程序员 数据结构 面试 算法

听我讲完redo log、binlog原理,面试官老脸一红,rabbitmq集群同步原理

Java 程序员 后端

吹爆!阿里高工甩出内部强推Redis全栈笔记,Github已获赞78

Java 程序员 后端

可视化编程已经能取代高级语言了吗?,docker高级面试题

Java 程序员 后端

吊打面试官!Java基础(面向对象,java入门自学书籍推荐

Java 程序员 后端

同事临走时,给了我这份多线程and高并发(面试题,小米java面试几轮

Java 程序员 后端

同事问我MySQL怎么递归查询,我懵逼了,java面试简历百度云

Java 程序员 后端

和程序员谈恋爱的7种体验,linux多线程面试题

Java 程序员 后端

怎样实现跨微服务的数据查询?

俞凡

架构 微服务

史上最全Java8日期时间工具类(1),mongodb索引原理

Java 程序员 后端

史上最全Redis数据库入门教程,从零开始带你深入♂学习(一

Java 程序员 后端

上线直接霸榜!阿里内网流传P8大牛的“满级”分布式架构笔记

Java 编程 程序员 架构

听说Lombok的@Builder不好使?快来试试这个,rocketmq原理面试题

Java 程序员 后端

双非本科怎么了,照样拿到阿里 offer! 分享阿里技术四面 + 交叉面

Java 程序员 后端

史上最全Java8日期时间工具类,史上超级详细

Java 程序员 后端

史上最全Spring教程,从零开始带你深入♂学习(二,java快速排序原理

Java 程序员 后端

反正闲的也是闲的,搞点Redis面试真题,再也不担心挂在Redis上

Java 程序员 后端

史上最全 SpringCloud入门教程,从零开始带你深入♂学习(十

Java 程序员 后端

听音乐不过瘾?自制一个音乐播放器!,java程序设计基础知识点第七章

Java 程序员 后端

大数据革命与基因组分析_数据库_Alex Giamas_InfoQ精选文章