每个初创企业都应该有一个崇高的目标,即使他们不能 100%地确定自己将如何实现目标。我们的公司 BenchSci 是一家加拿大生物技术初创公司,其使命是帮助科学家将新药研发速度提高 50%。自 2015 年公司成立以来,我们在建立一个平台,以帮助科学家通过挖掘和开发新药大量公共数据集,研究文章和专有客户数据集。该平台完全建立在 Google Cloud 之上,Google Cloud 为医疗技术提供功能的广度和深度为我们朝着目标迈进提供了支持。
由于制药研发效率低下,因此我们的任务迫在眉睫。以临床前研究为例:一项研究估计临床前研究支出的一半是浪费的,仅在美国每年就达到 282 亿美金,在全球达到 486 亿美金。根据我们的估计,大约 36.1%的临床前研究浪费来自科学家,他们使用了不适当的试剂,诸如生命科学实验中使用的抗体之类的材料。
因此,我们的第一款产品是 AI 辅助试剂选择工具。它收集相关的科学论文和试剂目录,使用专有的机器学习模型从中提取相关的数据点,使结果以易于使用的界面搜索方式提供。根据现有的实验证据,科学家们可以快速地预先确定一种特定的试剂是否适合他们的实验。这样,他们可以将精力集中在最有可能产生成果的实验上,并更快地为患者提供新的治疗方法。
所有这些都在 Google Cloud 上运行。我们收集论文和文章、产品目录、医学和生物学数据库以及其他数据,并将它们存储在 Cloud Storage 中。然后,我们使用 Dataflow 、BigQuery 和其他工具构建的管道来组织和提取数据的见解。接下来,我们使用机器学习算法处理数据,并将结果存储在 Cloud SQL 和 Cloud Storage 中。科学家们通过基于 Google Kubernetes Engine( GKE ), Cloud Load Balancer ,身份识别代理, Cloud CDN , Cloud DNS 和其他服务的 Web 界面访问结果。最后,我们使用多个云项目,IAM 和 Infrastructure-as-code (基础架构即代码)来确保数据安全和隔离每个客户。除了最专业的研发架构和操作之外,我们不再需要其他东西,从而大大减少了管理费用。
Google Cloud 托管服务与易于扩展的持久性容器和虚机的结合,使我们能够快速对新功能进行原型设计和测试,然后以最少的管理工作将它们投入生产。
Google Cloud 还可以根据 BenchSci 的需求进行扩展。例如,过去三年来,我们分析的数据增加了一个数量级。切换到 BigQuery (无服务器数据仓库)和 Cloud SQL (托管的关系型数据库)消除了我们的大量运营开销,还要感谢 BigQuery 在文本处理机器学习管道中设置关键步骤的灵活性以及 Cloud SQL 在数据访问方面的稳定性。
随着时间的推移,我们还改进了数据处理流程。我们从 Dataproc (托管的 Hadoop 服务)开始,后来利用 Dataflow (使用 Apache Beam )重写了该系统。数据流可以处理数百 TB 的数据,让我们专注于实现业务逻辑,而不是管理基础架构。
最近,我们扩展了平台以支持私有数据集。最初,我们为所有客户提供对同一基础公共数据的不同视图。但是,随着时间的推移,一些客户问我们是否可以在系统中包括他们专有的药理数据。我们没有使用严格的项目隔离来管理多租户系统,而是利用 GKE 和 Config Connector 为每个客户的数据创建独有的环境,而不会增加团队的运维工作量。
简而言之,Google Cloud 使我们能够专注于解决问题,而不必因构建和运营计算基础架构和服务而分心。展望未来,在 Google Cloud 上运营使我们有信心通过收集更多和更广泛的数据源来成长;使用机器学习算法从每个数据单元中提取更多信息;处理更广泛,更专有的数据;通过各种接口和访问点来满足更广泛的客户需求。我们的目标仍然雄心勃勃,但是通过与 Google Cloud 合作,感觉可以实现。
在 Google Cloud 上的知名医疗客户包括了罗氏、拜耳、赛诺菲、薛定谔等。
评论