机器学习领域在过去几十年中发生了巨大的变化。不可否认,有一些方法已经存在了很长时间,并且仍然是该领域的“常青树”。例如,19世纪早期勒让德和高斯提出的最小平方概念。其他方法,如神经网络,初步形成于1958年,并在过去的几十年中名声大噪,支持向量机则是更“年轻”一些的概念。
既然有这么多的监督学习方法,我们不免产生一个疑问:什么是最好的模型?众所周知,这个问题很难回答,因为正如 George Box 所说,所有的模型是错误的,但有些是有用的。实际上,模型的有用性关键还是在于手头的数据。因此,这个问题没有标准答案。但另一个问题就容易回答得多:哪些模型最受欢迎?本文就是要解答这个疑问。
更多干货内容请关注微信公众号“AI前线”(ID:ai-front)
衡量机器学习模型的受欢迎程度
为了解答这个问题,我将使用频率论方法定义机器学习模型的受欢迎程度。更确切地说,是使用提及个人监督学习模型的科学出版物的数量来代表不同模型的受欢迎程度。当然,这种方法有一些不足之处:
也许有比出版物数量更准确表达受欢迎程度的方法。例如,出版物中批评某个模型并不一定意味着该模型很受欢迎。
搜索术语会影响分析结果。为了确保准确性,我的搜索将不包括模型的缩写,因此搜索结果不一定涵盖所有模型。此外,分析中未考虑的搜索项模型的存在感可能较低。
文献数据库并不完美:有时,出版物存储的元数据不正确(例如不正确的年份),或者可能存在重复的出版物。因此,出版频率可能会有一些水分。
这篇文章中,我将从两个方面进行分析。第一个方面是对出版频率的纵向分析,第二个方面则比较了不同领域中机器学习模型相关出版物的总数。
在第一个分析中,我使用了 Google Scholar,检索科学出版物的标题和摘要得到出版物的数量。为了确定与每种监督学习方法相关的出版物数量,我统计了 1950 年至 2017 年期间 Google Scholar 搜索的点击次数。由于 Google Scholar 的数据抓取非常困难,我依靠 ScrapeHero 提供的有用建议来收集数据。
我在分析中包括了以下 13 种监督方法:神经网络、深度学习、SVM、随机森林、决策树、线性回归、逻辑回归、泊松回归、岭回归、套索回归、k-最近邻、线性判别分析,以及对数线性模型。请注意,对于套索回归,我用了套索回归和套索模型两个术语。对于最近邻,我用了 k-nearest neighbor 和 k-nearest neighbour 。得到的数据集表示从 1950 年到目前为止,与每个监督模型相关的出版物的数量。
1950 年至今的监督模型
为了分析纵向数据,我把时间分为两个时间段:机器学习的早期阶段(1950 年至 1980 年),这段时间内几乎没有模型可用,以及形成时期(1980 年至今),人们对机器学习的兴趣激增,许多新模型被开发出来。请注意,以下可视化图仅显示了相关性最强的方法。
早期:线性回归为主流
图 1 早期机器学习
图 2 机器学习形成时期
形成时期:神经网络的多样化和兴起
图 2 表明,从 20 世纪 80 年代后期开始,科学出版物中提到的监督模型变得更加多样化。重要的是,直到 2013 年,科学文献中提到的机器学习模型的比率一直稳步增加。该图显示,线性回归、逻辑回归和神经网络的普及明显加速。正如我们之前所见,线性回归已经成为一种流行的监督学习方法。然而,1980 年,神经网络和逻辑回归的普及开始迅速增长。虽然逻辑回归的普及在 2010 年达到顶峰,受欢迎程度不亚于线性回归,2015 年,神经网络和深度学习(图 2 中的曲线神经网络/深度学习)的受欢迎程度甚至超过了线性回归。
神经网络已经变得非常受欢迎,因为其已经在机器学习应用方面取得了突破,例如图像识别(ImageNet,2012)、人脸识别(DeepFace,2014)和游戏(AlphaGo,2016)。来自 Google Scholar 的数据表明,科学文献中提到神经网络的频率在过去几年中略有下降(图 2 未显示)。这可能是因为术语“深度学习”(多层神经网络)在某种程度上取代了术语“神经网络”。使用 Google Trends 搜索结果相同。
其他受欢迎程度稍差的监督学习方法是决策树和 SVM。与前三种方法相比,提到这些方法的速率明显较小。另一方面,文献中提到这些方法的频率似乎波动也较小。值得注意的是,决策树和 SVM 的流行度都没有下降。这与其他方法(如线性和逻辑回归)形成对比,后者的提及次数在过去几年中大幅减少。决策树和 SVM 相比,SVM 的提及率增长趋势更好,因为 SVM 在现世后仅 15 年,就成功超越了决策树。
上述机器学习模型的提及次数在 2013 年达到顶峰(589803 种出版物),并且自那时起略有下降(2017 年为 462045 种出版物)。
跨领域的监督模型受欢迎程度
在第二个分析中,我想调查了解不同的社区是否依赖于不同的机器学习技术。为此,我依靠三个科学出版物库:Google Scholar 对应一般出版物,dblp 对应计算机科学出版物,PubMed 对应生物医学科学出版物。在三种类型的存储库中,我确定了 13 个机器学习模型的命中频率。结果如图 3 所示。
图 3 机器学习领域
整体使用监督学习模型
根据 Google Scholar,以下为最常用的五种监督模型:
线性回归:3,580,000(34.3%)篇论文
Logistic回归:2,330,000(22.3%)篇论文
神经网络:1,750,000(16.8%)篇论文
决策树:875,000(8.4%)篇论文
支持向量机:684,000(6.6%)篇论文
总体而言,线性模型显然占主导地位,占统计监督模型的 50%以上。非线性方法也并不落后:神经网络占所有论文的 16.8%,其次是决策树(8.4% 的论文)和 SVM(6.6% 的论文)。
在生物医学科学中使用模型
根据 PubMed,生物医学科学中最受欢迎的五种机器学习模型是:
Logistic 回归:229,956(54.5%)篇论文
线性回归:84,850(20.1%)篇论文
Cox 回归:38,801(9.2%)篇论文
神经网络:23,883(5.7%)篇论文
泊松回归:12,978(3.1%)篇论文
在生物医学科学中,我们看到线性模型相关的提及次数非常多:五种最流行的方法中有四种是线性模型。这可能是由于两个原因造成的。首先,在医疗环境中,样本数量通常太小,无法拟合复杂的非线性模型。其次,解释结果的能力对医疗应用至关重要。由于非线性方法通常难以解释,因此它们不太适合医疗应用,因为仅靠高预测性能通常是不够的。
PubMed 数据中 LogMed 回归受欢迎可能是因为大量临床研究出版物。在这些研究中,通常使用逻辑回归分析分类结果(即治疗成功),因为它非常适合于解释特征对结果的影响。请注意,Cox 回归在 PubMed 数据中非常流行,因为它经常用于分析 Kaplan-Meier 生存数据。
计算机科学使用的模型
从 dblp 中检索到的计算机科学书目中最受欢迎的五个模型是:
神经网络:63,695(68.3%)篇论文
深度学习:10,157(10.9%)篇论文
支持向量机:7,750(8.1%)篇论文
决策树:4,074(4.4%)篇论文
最近邻:3,839(2.1%)篇论文
计算机科学出版物中提到的机器学习模型的分布是截然不同的:大多数出版物似乎都提及更新的非线性方法(例如神经网络、深度学习和支持向量机)。如果我们把深度学习包含进去,检索中提及神经网络的比例超过四分之三。
社区之间情况迥异
图 4 不同领域的 ML 模型类型
图 4 总结了文献中提到的参数(包括半参数)和非参数模型的百分比。条形图表明,在机器学习研究中调查的模型(计算机科学出版物表明)和应用的模型类型(生物医学和整体出版物表明)之间存在很大差异。超过 90% 的计算机科学出版物涉及非参数模型,然而大约 90% 的生物医学出版物提及参数模型。这表明,机器学习研究主要集中在最先进的方法,如深度神经网络,而机器学习的用户往往依赖于更多可解释的参数模型。
总结
对科学文献中各种监督学习模型的提及率分析表明,人工神经网络已非常流行。但是,我们也看到,不同领域应用了不同类型的机器学习模型。特别是生物医学科学的研究人员仍然严重依赖参数模型。观察更复杂的模型是否会在生物医学领域得到广泛应用,或者这些模型是否根本不适合在该领域某些场景中应用将会是一件有趣的事(例如,模型缺乏解释性,或者样本量较小时泛化能力较弱)。
原文链接:
https://www.kdnuggets.com/2018/12/supervised-learning-model-popularity-from-past-present.html
评论