腾讯亿级用户规模自研业务的上云实践解读,立即报名 了解详情
写点什么

陈钢:生物信息行业发展得比 IT 互联网还惊人

  • 2014-03-07
  • 本文字数:3550 字

    阅读完需:约 12 分钟

二十一世纪将迎来生物技术的时代,但是没有谁能准确预测这一行业何时迎来爆发。在云计算、大数据等 IT 技术的支撑,生物技术得到快速发展。InfoQ 专访了华大科技云平台副总监陈钢,同时作为 QCon 北京 2014 大会《大数据处理与大数据应用》专题的讲师,陈钢将会分享数据分析技术如何在医疗健康领域发挥巨大作用。以下为专访全文:

InfoQ:陈钢你好,向 InfoQ 的读者和 QCon 的听众介绍下自己吧。

陈钢:大家好,我是陈钢。2012 年毕业于中南大学计算机系。之后一直深圳华大基因工作,主要从事生物数据分析和相关技术平台搭建相关的工作。

InfoQ:你是什么时候开始学习编程的,自己写的第一个程序是什么?

陈钢:最早是读初中的时候写过很简单的 Basic 程序,后来高中的时候学习过 Visual Basic 和文曲星上的编程。系统学习编程知识是在国防科大读大学的时候了。

InfoQ:你在国防科技大学读的专业是光电工程,这似乎与你现在的研究方向毫无关系。有趣的是,本科毕业后,你选择了中南大学计算机专业。读硕士期间,你还在清华大学生物信息学暑期学校学习。本科毕业后为什么选择计算机和生物信息专业?

陈钢:众所周知,国防科大的计算机专业非常强,其实光学工程和电子通讯方面的专业也很强,对学生要求很高。学到高年级的时候,我发现我学习相关的专业课程非常费力了,但当时对计算机方面的东西很感兴趣。本科阶段主要的计算机课程我都是课代表,大四的时候偶尔跑去计算机专业蹭课。稍作纠结后就选择继续攻读计算机专业了。为了提高考研的成功率,我选择了相对比较好考的中南大学计算机系。中南大学计算机系的整体实力跟国防科大相比有些差距,但我很幸运地遇到了几位很好的导师。

我最早遇到的导师是陈建二老师,他当时在中南大学有参数计算和生物信息两个研究组。他给我介绍了两个研究方向的基本情况,我其实听得似懂非懂。但觉着生物信息是个跨学科的方向,觉着比较有意思,就选择了这个方向。陈建二老师同时也把中南大学的王建新老师介绍给我。陈建二老师不在国内的时候,就是王建新老师指导我的工作。

那个时候对生物信息学不懂,于是就找各种机会学习。清华大学的这个生物信息暑期班是教育部和国家自然科学基金委资助的,当时在全国选了 100 多个研究生参加。现在这个暑期班上的同学还有很多工作在国内外的生物信息领域,非常活跃。除了清华的这个暑期班,我还参加过巴斯德研究院和香港大学在香港举办的一个 EMBO 资助的培训班,获益很多。去年在 EMBO 的资助下,华大基因在深圳也举办了大陆第一个这样的培训班。因为感激 EMBO 曾给予的资助,所以我很积极的参与了组织和教学工作。

读了两年硕士,导师就建议直接转读博士学位了。后来潘毅老师也到中南大学指导我们的工作,他在生物信息领域的经验进一步拓展了我对这个领域的认识。

InfoQ:在加入华大基因前,你在思博奥科、中南大学和德克萨斯大学医学部 Andrzej 的实验室工作过,谈谈这段经历。

陈钢:思博奥科是之前提到清华大学暑期班的一个同学创办的生物信息公司。研究生读到高年级后,一方面是经济原因,一方面也是想了解产业界生物信息的状况,所以兼职做了一些生物信息的项目。

中南大学的工作主要是管理学院的一个小型的 HP 集群,这为我熟悉科学计算服务器的运维积累了一些经验。

去到美国学习则是得益于国家留学基金委的资助。这个申请经历很有意思。在通过基本的审批后,我就到 Linkedin 上相关的 group 去发消息,说我得到了一些资助,要去美国访问一年,有没有这方面的 PI(Principal Investigator,科研项目负责人)需要人?Andrzej 发了邮件给我,还主动提供了一些资助。于是我就去了。那一年在美国涨了很多见识,也做了一些很有意思的工作。

InfoQ:你在博客上说:“每一个跟我接触过的猎头都建议我不要来华大,但我还是来了。对错我不知道,但至少现在觉得这里是个符合我性格和喜好的地方”。现在看来,选择华大基因是多么有远见的,但当时还是很纠结的吧?

陈钢:哈哈,我依然不能确定这是不是一个很有远见的选择。这个领域发展得比 IT 和互联网还惊人,我觉得任何人都很难做到有远见。

当时猎头的建议倒不是我纠结的地方,导师和家人建议我争取留校当老师倒让我很纠结。要知道,国内高校的博士生,所谓土博,要直接进入重点大学任教是很不容易的。当时张饶学院士到中南大学任校长,让人对中南大学的计算机学科抱以很高的期望。确实纠结了很久,最终在我夫人的支持下,还是觉得到外面去看看,在学校呆得太久了。

当然,当时华大基因研究院的副院长,现在华大科技的 CEO 李英睿同学的热情忽悠也是重要原因。

InfoQ:你折腾过各种开发工具和语言,做技术书籍翻译,还在 Github 上贡献,你怎么做到精力如此旺盛?

陈钢:我精力不旺盛,我总是处于睡不够的状态。最早做技术书籍翻译是为了在读书时自己养活自己,后来这变成了我的学习手段之一。Github 上贡献非常不上档次,就不说了。

InfoQ:你的博客上列出了一些 R 语言和 Linux 大牛。包括他们在内,谁对你的影响最大?

陈钢:还是家人对我的影响大一些。如果说科研方面的话,读研期间的几位导师在研究方法和态度上对我产生了很大的影响。

InfoQ:你在设计软件架构时,有自己一套方法或原则吗?

陈钢:我并没有大型软件的架构设计经验,方法和原则就谈不上了。平时干活,坚持得比较多的原则是不重新发明轮子,仅此而已。

InfoQ:你在《程序员》杂志的文章《生命科学中的大数据》解释了为什么生命科学越来越成为大数据驱动的科学,在华大基因测序仪每天新增数十 PB 数据。仅仅搭建满足这一规模的基础设施平台就是很大的挑战。你认为在建立满足生命科学研究的基础设施与大数据平台,面临哪些难点?

陈钢:这个数字有问题,华大基因大概是一年产生数十 PB 的数据。个人觉得,跟常见的电商、社交、地质勘探等数据相比,生命科学的数据有些特点:

  1. 产生成本很高:一个人的全基因组测序的价格要数千美金,表观组、蛋白质组、代谢组等其它组学数据的价格都很高;
  2. 数据可靠性低:以测序仪为代表的高通量生物实验技术产生的原始数据都是有系统性错误的,这很麻烦。
  3. 数据不完整:生物的转录组、代谢组等数据都是不断变换的,受制于技术和成本,不可能获得完整的数据。甚至基因组也会发生变化,这是肿瘤的病因。但我们也很难检测到每个细胞的基因组。不完整的低分辨率的数据,得到的结果往往是错误的。
  4. 数据的相关性高且不确定:从实验中得到的诸如基因组、转录组等不同类型的数据之间是有很复杂的关系的,但到底是什么关系,我们不知道。甚至是只研究基因组,不同的基因或基因组上不同的位点之间也有很复杂的关系,但我们也不知道到底是什么关系。

生命科学数据的这些特点,都会给面向生命科学研究和应用的 IT 基础设施带来诸多挑战。

InfoQ:R 语言、Hadoop、Spark、AWS、Google 的 GCE,类似 Docker 的虚拟化技术,包括这些技术在内,哪些技术将给生命科学研究更大的推力?

陈钢:不知道。国外的生物信息领域吸收和利用最新 IT 技术的速度要比国内快很多,国内更多的还在竞争仪器设备,而不是 IT 技术和数据分析。

InfoQ:说说你将在 QCon 北京 2014 大会上的分享吧。

陈钢:讲点生命科学的研究和应用,讲讲背后的基本算法和所利用的 IT 设施,希望能忽悠一些高手投身这个行业,加速这个行业的发展。

InfoQ:你觉得生物信息行业的机会来了吗?学计算的同学不用一股脑往互联网巨头那里扎堆了?

陈钢:机会是来了。年初,Google 给 DNANexus 做了 1500 万美元的 C 轮投资,Seven Bridges 的首轮融资应该也快了,这是两家纯粹的生物信息公司。国内的生物信息公司还没有看到非常突出的,但我相信很快就会有了。

不过,很早就有人说“21 世纪是生物学的世纪”。这个行业什么时候爆发,谁也不知道。

InfoQ:你曾说,生命科学的发展正在从一个实验科学走向以数据驱动为主,实验为辅的理论科学。用不了 3 年在国内就很火。这个市场到底有多大?

陈钢:算不清。如果说是基于先进生物技术的医学健康市场,按照华大基因研究院院长汪建的估计,这是一个万亿级的市场。

具体到生物信息。前面提到的 Google 投资的 DNANexus 的主要业务方向之一是医学诊断。随着实验技术的标准化,各种医学健康的筛查和诊断会演变成数据分析的方法和基础设施的竞争,这个市场的想象空间是无穷的。2 月 27 日,测序仪的国际巨头 Illumina 在北京大学附近开了一个第二代测序技术创新开发者大会,吸引了很多这个行业的创业者和感兴趣的投资人。

此专题详细信息,请见专题页面。关于此次 QCon 北京其他专题的详细信息,请移步至大会官网

需要特别注明的是,每年 QCon 大会门票都会在开幕前售罄,及早预定可提前确保席位,并享受更低折扣。3 月 26 日前报名参加可享受 9 折优惠。团体购票(5 人及以上)将享有更多优惠。详请咨询 qcon【at】cn.infoq.com,或直接致电 010-64738142。报名请点击报名页面。

2014-03-07 06:375081
用户头像

发布了 45 篇内容, 共 12.7 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

致那些高考结束的同学们

小天同学

读书 读书感悟 高考

第5周总结

andy

啃碎并发(六):Java线程同步与实现

猿灯塔

单体架构知识点及单体架构的缺陷

古月木易

单体架构

架构师第五周总结

suke

极客大学架构师训练营

架构师训练营Week5总结

平淡人生

单体架构知识点及单体架构的缺陷

奈学教育

单体架构

第五周学习总结

李白

第五周作业 - 一致性 hash 实现

netbanner

极客大学架构师训练营

week5 学习总结

任小龙

架构师训练营第五周总结

架构师 极客大学架构师训练营

Week 05 总结

鱼_XueTr

缓存 分布式数据库 消息队列

十代酷睿凌云!开启游戏本新篇章的机械师“战空”F117-V

最新动态

架构0期Week5Work1

Nan Jiang

技术选型:如何构建技术选型方法论

CHEN川

极客大学架构师训练营 技术选型

架构师训练营第五周作业

James-Pang

极客大学架构师训练营

week5. 课后作业

dj_cd

LeetCode 3. Longest Substring Without Repeating Characters

liu_liu

算法 Leetc

一致性Hash

梅子黄时雨

极客大学架构师训练营

架构师训练营第五周学习总结

whiter

极客大学架构师训练营

RxJS学习总结

真嗣

RXJS

架构师训练营 Week5作业

平淡人生

第5周-总结

Dawn

大型网站技术架构--架构篇

wei

架构师训练营」第 5 周作业

edd

极客大学架构师训练营

架构师第五周作业

suke

极客大学架构师训练营

一致性哈希算法分析与go语言实现

superman

极客大学架构师训练营 一致性Hash算法 Go 语言

分布式事务精华总结篇

奈学教育

分布式 分布式事务

【获奖名单公示】仅需发布3篇+文章,极客时间每日一课 VIP 等多重礼品,免费拿~

InfoQ写作社区官方

写作平台 征稿 热门活动

第5周作业

andy

Lesson 5 分布式系统架构- 分布式缓存和队列 心得笔记

edd

陈钢:生物信息行业发展得比IT互联网还惊人_QCon_包研_InfoQ精选文章