写点什么

数据模型需要多少训练数据?

  • 2015-12-10
  • 本文字数:1738 字

    阅读完需:约 6 分钟

【编者的话】毫无疑问机器学习是大数据分析不可或缺的一部分,在使用机器学习技术的时候工程师除了要选择合适的算法之外还需要选择合适的样本数据。那么工程师到底应该选择哪些样本数据、选择多少样本数据才最合适呢?来自于 Google 的软件工程师 Malay Haldar 最近发表了一篇题为《数据模型需要多少训练数据》的文章对此进行了介绍。

训练数据的质量和数量通常是决定一个模型性能的最关键因素。一旦训练数据准备好,其他的事情就顺理成章了。但是到底应该准备多少训练数据呢?答案是这取决于要执行的任务,要满足的性能,所拥有的输入特征、训练数据中的噪音、提取特征中的噪音以及模型的复杂程度等因素。而找出这些变量之间相互关系的方法就是在不同数据量的训练数据上训练模型并绘制学习曲线。但是这仅仅适合于已经有一定数量的训练数据的情况,如果是最开始的时候,或者说只有很少一点训练数据的情况,那应该怎么办呢?

与死板地给出所谓精确的“正确”答案相比,更靠谱的方法是通过估算和具体的经验法则。例如本文将要介绍的实证方法:首先自动生成很多逻辑回归问题。然后对生成的每一个问题,研究训练数据的数量与训练模型的性能之间的关系。最后通过观察这两者在这一系列问题上的关系总结出一个简单的规则。

生成一系列逻辑回归问题并研究不同数据量的训练数据所造成的影响的代码可以从 GitHub 上获取。相关代码是基于 Tensorflow 实现的,运行这些代码不需要任何特殊的软件或者硬件,用户可以在自己的笔记本上运行整个实验。代码运行之后生成的图表如下:

其中,X 轴是训练样本的数量与模型参数数量的比率。Y 轴是训练模型的得分(f-score)。不同颜色的曲线表示不同参数数量的模型。例如,红色曲线代表模型有 128 个参数,曲线的轨迹表明了随着训练样本从 128 x 1 到 128 x 2 并不断增长的过程中该模型的得分变化。

通过该图表,我们能够发现模型得分并不会随着参数规模的变化而变化。但是这是针对线性模型而言,对于一些隐藏的非线性模型并不适合。当然,更大的模型需要更多的训练数据,但是对于一个给定的训练模型数量与模型参数数量比率其性能是一样的。该图表还显示,当训练样本的数量与模型参数数量的比率达到 10:1 之后,模型得分基本稳定在 0.85,该比率便可以作为良好性能模型的一种定义。根据该图表我们可以总结出 10X 规则,也就是说一个优秀的性能模型需要训练数据的数量 10 倍于该模型中参数的数量。

10X 规则将估计训练数据数量的问题转换成了需要知道模型参数数量的问题。对于逻辑回归这样的线性模型,参数的数量与输入特征的数量相等,因为模型会为每一个特征分派一个相关的参数。但是这样做可能会有一些问题:

  • 特征可能是稀疏的,因而可能会无法直接计算出特征的数量。
  • 由于正则化和特征选择技术,很多特征可能会被抛弃,因而与原始的特征数相比,真正输入到模型中的特征数会非常少。

避免这些问题的一种方法是:必须认识到估算特征的数量时并不是必须使用标记的数据,通过未标记的样本数据也能够实现目标。例如,对于一个给定的大文本语料库,可以在标记数据进行训练之前通过生成单词频率的历史图表来理解特征空间,通过历史图表废弃长尾单词进而估计真正的特征数,然后应用10X**** 规则来估算模型需要的训练数据的数据量。

需要注意的是,神经网络构成的问题集与逻辑回归这样的线性模型并不相同。为了估算神经网络所需要的参数数量,你需要:

  • 如果输入是稀疏的,那么需要计算嵌套层使用的参数的数量。参照 word2vec 的 Tensorflow 教程示例。
  • 计算神经网络中边的数量

由于神经网络中参数之间的关系并不是线性的,所以本文基于逻辑回归所做的实证研究并不适合神经网络。但是在这种情况下,可以将10X**** 规则作为训练数据所需数据量的下限。

尽管有上面的问题,根据 Malay Haldar 的经验,10X**** 规则对于大部分问题还是适用的,包括浅神经网络。如果有疑问,可以在 Tensorflow 的代码中插入自己的模型和假设,然后运行代码进行验证研究。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-10 18:005330
用户头像

发布了 321 篇内容, 共 113.0 次阅读, 收获喜欢 17 次。

关注

评论

发布
暂无评论
发现更多内容

揭秘京东城市时空数据引擎—JUST如何助力交通流量预测

京东科技开发者

JUST 流量预测

新思科技静态应用安全测试帮助Cryptsoft公司提高软件安全和质量水平

InfoQ_434670063458

技术干货 | 中间件技术在百度云原生测试中的应用实践

百度开发者中心

底层技术 #技术干货#

批量下载,我有妙解~

Viktor

JavaScript iframe 跨域

Oracle sqlldr快速导入和sqluldr2快速导出

阳光下、慵懒的熊

数据库

高手来啦!十八般武艺保护你的Web应用

浪潮云

云计算

第一篇文章

棉花糖

云原生2.0时代:企业更应了解一下容器安全

华为云开发者联盟

容器 云原生 安全 漏洞

使用Kong作为微服务网关

行者AI

kong

话题讨论 | 在中国程序员工作是青春饭吗?

happlyfox

话题讨论 2月春节不断更 话题王者

程序员成长第十二篇:做好项目计划

石云升

项目管理 程序员 28天写作 2月春节不断更

谁手握账本?趣讲 ZK 的内存模型

HelloGitHub

Java zookeeper ZooKeeper原理

工作日志2-23

技术骨干

技术干货 | 趣谈哈希表优化:从规避 Hash 冲突到利⽤ Hash 冲突

百度开发者中心

算法 数据结构和算法

华为云“网红”语言Python课程来啦!

华为云开发者联盟

Python

魔改出一个 Encoder | Rust 学习笔记(一)

李大狗

区块链 rust 入门

厘清 I/O 模型

sakila

网络编程 I/O

Linux 入门篇 —— 重定向与管道符

若尘

Linux 管道符 linux开发

基于matlab的控制系统与仿真4-判断系统稳定性

AXYZdong

matlab 2月春节不断更

教你如何在Python中读,写和解析CSV文

华为云开发者联盟

Python csv

【文末彩蛋】数据仓库服务 GaussDB(DWS)单点性能案例集锦

华为云开发者联盟

sql 数据仓库 数据

LeetCode题解:718. 最长重复子数组,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

Kafka.07 - 性能优化介绍

insight

kafka 2月春节不断更

Centos7配置librdkafka运行时

happlyfox

Centos 7 28天写作 2月春节不断更

揭开《钢铁侠》AI管家贾维斯神秘面纱的扛鼎之作!

博文视点Broadview

【LeetCode】转置矩阵Java题解

Albert

算法 LeetCode 28天写作 2月春节不断更

产品0期 - 第五周作业

曾烧麦

产品训练营

处理XML数据应用实践

华为云开发者联盟

xml 数据库 数据 XML文档 GaussDB(DWS)

可能是Java Stream的最佳实践(二)

ES_her0

28天写作

开工来面试了几十个人,一言难尽

yes

面试

腾讯位置服务开发应用

我是哪吒

28天写作 2月春节不断更 腾讯地图 腾讯位置服务开发应用 腾讯位置

数据模型需要多少训练数据?_大数据_孙镜涛_InfoQ精选文章