生物学是数据科学的下一个爆发点

计算综合生物学（Computational Synthetic Biology，CSB）可能是下一个大事件，也可能是数据科学最重要的开拓领域。顾名思义，这是数据科学和生物学研究的交叉点。这个领域已经出现了重要的进展和大手笔投资，应该引起具有深度学习技能的数据科学家的注意。

数据科学领域的下一个大事件就是——生物学！实际上，计算综合生物学（CSB）有时被称为“计算系统生物学”或简称为“合成生物学”。

从生物学研究人员的角度来看，CSB 一般指在自然界中尚不存在的生物组成和系统的设计和制造，或者是指对现有生物系统的重新设计和制造。

对于数据科学家或初创公司来说，CSB 是一个新兴领域，将充分利用深度学习领域的进展。

CSB 将显著加速治愈人类某些棘手的疾病，或在 5 至 7 年时间内成为下一代独角兽的基石。

或许只有当你真正参与其中才能更好地描述这一切，比如通过面部识别技术在 Facebook 上标记你朋友的脸，或者为旅行平台创建聊天机器人，或者努力治愈癌症并延长人类的寿命。

这不就是生物信息学吗？

与大多数重要的创新一样，CSB 并非新生事物。1978 年，人们发现了限制性内切酶，并开始使用它，这被看成是第一次在生物学上使用工程概念。

就像深度学习不得不等待 MPP 和使用 GPU 来加速计算一样，从 2003 年解码人类基因组开始，随后的 15 年出现了基因组数据大爆炸，但 CSB 仍然停留在概念阶段。

早期的生物信息学试图解决基因组学初始阶段的问题。例如，如何组装全基因组模型或使用 SNP（单核苷酸多态性）来标记 DNA 的特定区域（人类基因组中有大约 1000 万个 SNP）。

CSB 不是一般的生物信息学

从两三年前的深度学习大爆发开始，第一个有远见的生物学家 / 数据科学家团队开始探索如何在看似无关的学科中利用这种新的协同增效效应。

为了让你了解这个领域的新颖性和开放性，Angel.co 网站（跟踪创业公司的形成和投资情况）列出了超过 400 万家创业公司，其中绝大多数与科技有关。有超过 5000 个公司与“大数据”有关，另外 5,000 家则被归类为“分析”。只有 222 家属于生物信息学，其中只有一部分正在研究 CSB。

这感觉就像是 2010 年前后的深度学习，距离图像分类或语音识别准确率达到 95％还有三年时间，这些技术后来被 10,000 家新的 AI 初创公司用在他们的应用程序中。

一些例子

毋庸置疑，在迄今为止发表的材料中，这一领域的创新者一直羞于过多地谈论他们的专有算法，除非它们是基于深度学习的。以下是一些正在发生的快照。

Hexagon Bio：四分之三的抗生素和一半的抗癌化合物，包括青霉素和他汀类药物均来自天然真菌。但是，新化合物的发现在很大程度上是随机的，并且依赖研究人员的直觉。

Hexagon 挖掘了 2000 多种菌菇和霉菌的真菌基因组，用以预测哪些基因簇最可能产生有用的化合物。然后他们将测试微生物与修改过的的 DNA 部分相结合，以便产生可能的化合物，用于攻击癌细胞。他们目前大约有 22 种化合物具有临床应用的前景。

除了他们的专有算法，Hexagon 已经开始使用 DNA 测序和自动化工作站这类工具。他们还使用了一种技术，通过下载和打印基因簇的拷贝，加快 DNA 的合成速度。现在只需要按下一个按钮，就可以完成酵母菌的重新设计。

在过去的 18 个月中，他们从私人投资者手中筹集了 800 万美元资金。

真菌药物开发领域特别火爆，竞争者是否能够脱颖而出，取决于他们的算法能否快速而准确地发现有用的 DNA 片段。

这一领域的其他进展包括：

LifeMine Therapeutics：一家由哈佛大学化学生物学家共同创立的初创企业，已经从大量投资者手中获得了价值 5500 万美元的 A 轮融资，这些公司包括无锡医疗保健风险投资公司、谷歌和默克风险投资公司。

Lodo Therapeutics Corp：5 月份与罗氏公司签署了一项有关基因组筛选的协议，涉及金额 9.69 亿美元。

Adapsyn Bioscience Inc：1 月份收到来自辉瑞的 1.62 亿美元投资，用于微生物挖掘。

并非所有的 CSB 都涉及实验工作

BenevolentAI 正致力于为炎症、神经退行性疾病、孤儿疾病和罕见的癌症寻找新型解决方案，但这些都没能提供足以吸引大型制药公司投资所需的大规模市场。BenevolentAI 认为，我们可能可以从药物研发机构的未开发研究中找到这些问题的答案。

他们的方法是开发一个先进的人工智能平台，他们称之为深度判断系统。这个平台可以基于人类的判断和数据进行学习和推理。

该平台使用来自科学论文、专利、临床试验信息的大量非结构化数据，试图从大量结构化数据集中识别出隐蔽的科学知识，并基于“已知”的东西推断出应该“应该”知道什么。

生成模型可能是最前沿的

哈佛大学化学教授 Alan Aspuru-Guzik 利用生成 DNN 架构提出了一种分子结构，该分子结构可能可以用于复制两种不同药物的组合特性，例如阿司匹林与布洛芬。有效药物的组合和有效方案的组合将大大提升我们有效治愈更多疾病的能力，并带来成本上的效益。

我们经常考虑如何在谷歌的智能回复等应用程序中使用生成 DNN（RNN、LSTM），为回复邮件提供建议。实际上，如果我们能够使用潜在的分子结构作为输入，AI 就能够建议潜在的组合，这些组合不仅是物理上的，而且还可能具有组合的治疗效果。

2017 年 12 月，Aspuru-Guzik 和他在哈佛大学、多伦多大学和剑桥大学的同事发表了生成模型的可喜成果，该模型是基于 250,000 种类药物分子训练出来的。

这些公司在寻找什么样的数据科学家？

对于那些可能对跨领域感兴趣的人来说，他们在 CNN、RNN、LSTM 和 QAM（Question Answering Machine，问答机）方面的深度学习技能将会成为他们的优势，当然具体要取决于公司。我们看到很多工作岗位的描述要求候选人懂 Python 和 R，但没有特别提到要懂生物信息学，或所述不多。

最多就是有些岗位要求候选人基本熟悉生物学研究。我们的猜测是，现在没有那么多数据科学家同时拥有生物学学位，并且这些公司重视数据科学多过生物学。

另一方面，如果我们建议我们的孩子在高中和大学时学些什么，数据科学和生物学的结合看起来是个不错的选择。

我们认为这个领域才刚刚开始，要像今天的 AI 那样成熟，还需要 7 到 10 年的时间。对于现在的年轻数据科学家或者在最近 10 年内从学校毕业的新数据科学家来说，这可能是一个很长的职业生涯。

现在的 CSB 大致相当于福特汽车 Model A 手工版阶段。随着这个领域的数据科学的进步和自动化程度的提高，在不久的将来，我们有望直接在计算机屏幕上设计或编辑基因组。

哈佛医学院的基因科学家 George Church 说：“我认为这可能比太空革命或计算机革命更伟大”。

查看英文原文： https://www.datasciencecentral.com/profiles/blogs/the-next-big-thing-in-data-science-is-biology

感谢蔡芳芳对本文的审校。

创作场景