癌症重在预防!用深度学习技术来预测肺癌

2019 年 8 月 01 日

癌症重在预防!用深度学习技术来预测肺癌


对病理学家来说,最困难的工作非判断患者是否罹患癌症莫属,诊断结果至关重要。然而病理切片的检查又极其复杂,病理学家需要经过多年的训练,再加上丰富的专业知识和经验才能胜任。尽管如此,人类病理学家也会出现误诊和漏诊。如果癌症能尽早发现并及时治疗,死亡率就可以降低。于是,人们就研究如何通过深度学习算法,训练机器学习切片检查来发现并预测癌症,从而提高诊断的效率,对病理学家和患者来说都是很大的帮助。今天,AI 前线得到原作者 Jerry Wei 授权,翻译并分享他的文章 Predicting Lung Cancer Mutations with Machine Learning(《用深度学习预测肺癌突变》),希望有所启迪。


本文最初发布于 Medium 博客,经原作者 Jerry Wei 授权由 InfoQ 中文翻译并分享。


我读了 Nature Medicine (《自然医学》)杂志上的最近一篇文章,文章作者提出了利用机器学习技术,通过深度学习预测肺癌基因突变。他们是如何做到的呢?


AI 前线注:这篇文章题目为 Classification and mutation prediction from non–small cell lung cancer histopathology images using deep learning(《利用深度学习对非小细胞肺癌组织病理学图像进行分类和突变预测》),网址为:https://www.nature.com/articles/s41591-018-0177-5


肺癌。 肺癌有两种主要亚型:腺癌和鳞状细胞癌。能否对这些亚型进行区分极其重要,因为每个亚型都有自己的治疗方案,针对腺癌和鳞状细胞癌的靶向治疗各不相同。尤其是腺癌需要进行基因突变分析;靶向的原发性突变包括表皮生长因子受体(epidermal growth factor receptor,EGFR)、间变性淋巴瘤受体酪氨酸激酶(anapestic lymphoma receptor tyrosine kinase,ALK)、肿瘤蛋白 53(tumor protein 53,TP53)和 KRAS 突变。


识别这些突变至关重要,因为每种突变都有专门的治疗方法。例如,EGFR 和 ALK 突变已经有了美国食品药品监督管理局(Food and Drug Administration,FDA)批准的靶向治疗。目前分析肺癌组织样本的方法(组织样本的人工目视检查)既详尽,又有时不准确。此外,这种方法也很难区分腺癌和鳞状细胞癌。因此,能够准确分析肺癌组织的自动化机器学习模型将是非常有益的。



每一类的全切片图像(whole-slide images,WSI)数量,其中 LUSC 代表鳞状细胞癌,LUAD 代表腺癌。图片来源:Coudray 等人,论文的原作者。


肺癌影像数据集


作者使用了来自 NCI 基因组数据共享平台(Genomic Data Commons,GDC)的数据;他们检索了大约 1700 张全切片图像,其中 609 例为鳞状细胞癌阳性,567 张为腺癌阳性,459 张为正常。他们使用滑窗(sliding-window)算法从这些全切片图像生成了大约 100 万个 512x512 像素的窗口。基本上,他们在整个组织样本上滑动一个假象的“窗口”(可以高达 100000x100000 像素),并将每个窗口用做单独的样本。然后,他们将得到的 100 万个窗口进行分割,其中 70% 用作训练集,15% 用作验证,15% 用作测试集。


AI 前线注:GDC(Genomic Data Commons)是美国国家癌症研究所(National Cancer Institute,NCI)的研究计划,使命是为癌症研究界提供统一的数据存储库,以便在癌症基因组研究中共享数据,支持精准医学。它包含几个大规模的癌症基因组研究计划的数据,包括 TCGA、OCG。而 OCG 包括两项支持癌症分子鉴定的计划,TARGET 和 CGCI。



本文采用的数据处理策略。图片来源:Coudray 等人,论文的原作者


使用 Inception v3 进行机器学习


作者的模型基于 Inception V3 架构,它使用不同内核大小的卷积和最大池化层组成的 Inception 模块。*你说的这个卷积是什么? 我主要讲的是卷积神经网络(convolutional neural networks,CNN);这些神经网络特别擅长图像处理,而这恰好是本文试图要做的事情。


AI 前线注:Inception V3 是深度神经网络的架构之一,最早由 Google 于 2014年发布 Inception V1,2015 年发布 Inception V2。Inception V3 在 Inception V2 的基础上用RMSProp 代替 SGD,替换了一个 7x7 的卷积层为 3x3 的卷积层。具体详情可参阅 What is the difference between Inception V2 and Inception V3?

(《Inception V2 与 Inception V3 的区别》:https://datascience.stackexchange.com/questions/15328/what-is-the-difference-between-inception-v2-and-inception-v3


迁移学习


本文还将迁移学习应用于腺癌和鳞状细胞癌的分类。但什么是迁移学习?迁移学习基本上是一种使用他人模型的方法。神经网络具有层间权重,这些权重有利于模型的实际运行。因此,如果你能得到这些精确的权重,那么你本质上就是复制粘贴模型。这就是所谓的迁移学习——使用他人训练的权重,然后根据你自己的目的对其进行微调。在本例中,作者使用了在 ImageNet 竞赛中表现最佳的权重,并对肺癌数据进行了微调。当然,还有一些其他超参数用于模型,损失函数(交叉熵)、学习率 (0.1)、权重衰减 (0.9)、动量 (0.9) 和优化器(RMSProp)。



热图显示了模型所观察的内容。图片来源:Coudray 等人,论文的原作者


训练


因为他们有两个不同的任务(预测腺癌和鳞状细胞癌以及预测腺癌切片的基因突变),他们训练了模型的多种变体,在第一项任务中,他们训练模型来预测正常组织与腺癌、鳞状细胞癌。对于第二项任务,他们训练模型来预测每个二元基因突变,而不是作为多类分类器 。这意味着它们的实现允许肺癌组织中的每个 512x512 切片对不止一个基因图片呈阳性。对于这两项任务,他们对模型进行了 500000 次迭代的训练。


结果


他们通过几种方法验证了模型的有效性。首先他们将模型与病理学家进行了比较。在独立的测试集上,被模型错误分类的切片中,有 50% 也被病理学家错误分类;而被病理学家错误分类的切片中,有 83% 被模型正确分类。这被视为模型表现与病理学家不相上下的证据。作者还计算了模型对每个基因突变的正确率,发现该模型比彩塑所有的突变要好得多。



该模型实现的每个突变在 ROC 曲线(Receiver Operating Characteristic,受试者工作特征曲线)面积得分。图片来源:Coudray 等人,论文的原作者。


这意味着什么?


作者创建了一种学习模型,能够以合理的正确度对肺癌基因突变进行分类,并能够识别两种肺癌亚型之间的差异。这显示了机器学习的强大功能,它的应用是如何的广泛。该模型主要用于协助病理学家进行诊断,使诊断过程仍然保持半手工的状态。那么,这个模型还能做什么呢?* 在未来,作者将应用该模型尝试对较不常见的肺癌进行分类,包括大细胞癌和小细胞癌。引入他们的模型也有可能带来高精度的肺癌组织的全自动分析,这既减少了分析时间,又减少了潜在的人为错误。


也许在未来,我们能够通过机器学习,让计算机为人类诊断疾病。


下面列出我认为人们可能感兴趣的一些其他资源:



原文链接:Predicting Lung Cancer Mutations with Machine Learning


2019 年 8 月 01 日 09:001342
用户头像

发布了 324 篇内容, 共 119.8 次阅读, 收获喜欢 800 次。

关注

评论

发布
暂无评论
发现更多内容

最近一些让我颇有感触的话

Bruce Talk

随笔

AOP的姿势之 简化 MemoryCache 使用方式

八苦-瞿昙

aop

炎币交易所APP系统开发|炎币交易所软件开发

开發I852946OIIO

系统开发

软件组件设计原则

积极&丧

用领域驱动设计驱动系统的重构

积极&丧

从场景出发,日志聚类还可以这么玩

信仰圣光吧丶

AIOPS 日志聚类 日志治理

Week10总结

lggl

总结 作业

架构师训练营 大作业(一)

netspecial

极客大学架构师训练营

Java并发底层知识,锁获取超时机制知多少?

码农架构

Java java 并发

pagerank算法

橘子皮嚼着不脆

日本准备推行AI婚配,年轻人会为“爱情算法”买单吗?

脑极体

Week10作业

lggl

作业

区块链的核心技术是什么?

CECBC区块链专委会

区块链

Flink比Spark好在哪?

数据社

flink spark 七日更

13张图彻底搞懂分布式系统服务注册与发现原理

爱笑的架构师

微服务 微服务发现 服务注册与发现 七日更

微服务过载保护原理与实战

Kevin Wan

go 微服务 go-zero

安全架构:加密与解密

积极&丧

区块链 链什么?

CECBC区块链专委会

区块链 分布式

数据仓库的前世今生

数据社

数据仓库 七日更

七周七并发模型

田维常

并发

避坑指南,Elasticsearch 分页查询的两个问题,你一定要知道

AlwaysBeta

elasticsearch python 爬虫

安全架构:反垃圾与风控

积极&丧

我家有猫

熊斌

生活方式 七日更 我家有猫

框架VS架构,看两者异同

田维常

框架

关于微服务架构

落朽

架构师训练营第五周作业

zamkai

架构师训练营 大作业(二)

netspecial

极客大学架构师训练营

架构师训练营第十周笔记

李日盛

学习 微服务 DDD

重磅!四部门联合约谈蚂蚁集团!刚刚,约谈的主要内容曝光……

CECBC区块链专委会

金融

是的,我又换工作了

Rayjun

工作

ARROW阿罗AOW币APP系统软件开发

开發I852946OIIO

系统开发

癌症重在预防!用深度学习技术来预测肺癌-InfoQ