Alexander Scarlat 博士在他的系列文章“临床医生机器学习入门”中解释了机器学习的核心内容。这些文章中的前七篇介绍了机器学习的各个方面,然后是度量机器学习模型性能的示例。这一系列文章使用动画图表代替数学,帮助读者更好地理解机器学习概念。
这一系列文章首先提出了传统基于规则的算法的不足,同时解释了机器学习可以克服这方面的挑战,包括多维问题和人类对统计计划规则的限制。
Scarlat 为读者构思了一个机器学习概念分类。从高层面看,系列文章解释了有监督、无监督和其他形式的机器学习。有监督训练包括回归和分类。无监督训练包括聚类和异常检测。其他形式的机器学习包括集合方法和生成模型。整个系列遵循类似的方法,逐步阐述定义机器学习概念的分类。
在第四篇文章中,Scarlat 解释了机器学习对数据预处理的要求,以及存在的局限性。预处理包括展平关系数据、添加缺失值、将文本转换为稀疏数组或向量、使用矢量维度中的二元值进行分类。此外,Scarlat 还提到了对数值进行标准化的必要性,以防止在量级上产生错误的意义感和维度诅咒。
第五篇文章描述了机器学习算法的原理,包括权重的使用、性能指标、损失(或成本)函数、使用优化器、前向传播和反向传播。除此之外,在第七篇文章中,还可以找到有关创建机器学习模型工作流的信息,包括欠拟合、过度拟合、训练、验证、测试、学习速率、数据增强、使用正则化器和使用丢弃。
Scarlat 给出了四个不同的现实问题和示例解决方案,以此来解释如何评估机器学习模型的性能。
这些示例涉及性能指标,包括精度、准确度、召回率、曲线下面积和 F1 得分。此外,最后一个模型显示了现有机器学习模型如何用于转移学习和最小化额外的模型培训。
其他在医疗保健领域采用机器学习的主题包括:如何将机器学习与现有电子健康记录(EHR)系统集成以及捕获护理结果。谷歌 AI 将机器学习应用于 EHR 患者记录,着重关注伸缩性、准确率和可解释性。
查看英文原文:https://www.infoq.com/news/2019/02/machine-learning-clinicians
评论