【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

主动学习:如何用更少的数据做更多的事情?

  • 2020-10-15
  • 本文字数:2074 字

    阅读完需:约 7 分钟

主动学习:如何用更少的数据做更多的事情?

本文最初发表于 Towards Data Science 博客,经原作者 Logesh Kumar Umapathi 授权,InfoQ 中文站翻译并分享。


如果说机器学习项目是冰山的话,那么位于水下的部分就是项目中的标签和其他数据工作。好消息是,像迁移学习和主动学习(Active Learning)这样的技术可以帮助减少工作量。


主动学习已经成为机器学习行业从业者的工具箱的一部分,但在任何数据科学/机器学习课程中,却很少涉及。在阅读Robert Munro写的书《Human-in-the-Loop Machine Learning》(译注:目前尚无中文版)后,帮助我正式形成了一些(并帮助我学习了很多)主动学习的概念,而这些概念我一直在机器学习项目中凭直觉使用。


本文写作目的是向你介绍一种简单的主动学习方法,称为“基于熵的不确定采样”(Uncertainty sampling with entropy),并通过实例证明其有效性。在演示中,我使用了主动学习,仅利用了 23% 的实际训练数据集(ATIS 意向分类数据集)来实现与 100% 数据集训练相同的结果。


是不是迫不及待了?请直接跳到「演示」一节。想了解它是如何工作的?那就继续读下去。

什么是主动学习?

主动学习是指训练我们的模型时,优先考虑那些能给我们带来最大收益的有标签样本,而不是那些“学习信号”很少的样本。利用模型的反馈,对一个实例的学习信号进行估计。


这就好比老师问学生她不太清楚的概念,然后优先考虑讲解这些概念,而不是教授所有的课程。


因为主动学习是一个迭代的过程,你必须经历多轮训练。主动学习涉及的步骤包括:


步骤 1:识别并标记评估数据集

毋庸讳言,在任何机器学习过程中,选择评估集都是最重要的一步。当涉及到主动学习时,这一点变得更为关键,因为这将是我们在迭代标记过程中衡量模型性能改进程度的标准。此外,它还帮助我们决定何时停止迭代。


最直接的方法是随机拆分未标记的数据集,并从拆分的数据集中选择评估集。但基于复杂性或业务需要,最好拥有多个评估集。例如,如果你的业务需求要求情感分析模型能够很好地处理讽刺言论,则可以有两个独立的评估集:一个用于一般情感分析,另一个用于特定于讽刺的样本。

步骤 2:识别并标记初始训练数据集

现在选择未标记数据集的 X% 作为初始训练数据集。X 的值可以根据模型和方法的复杂程度而有所不同。选择一个足够快的值进行多次迭代,并且要足够大,可以让你的模型在初始阶段进行训练。如果你使用迁移学习方法,并且数据集的分布接近基本模型的预训练数据集,那么较低的 X 值就足以启动该过程。


这也是一个很好的做法,在初始训练数据集中可以避免出现类不平衡的现象。如果这是一个自然语言处理问题,你可以考虑使用基于关键字的搜索,从特定的类中找出样本进行标记,并维持类平衡。

步骤 3:训练迭代

现在我们已经有了初始的训练和评估数据集,我们可以继续进行第一次训练迭代。通常,人们并不能通过评估第一个模型来作出太多推断。但是这个步骤的结果可以帮助我们看到预测是如何随着迭代而改进的。使用该模型预测剩余未标记样本的标签。

步骤 4:从上一步选择要标记的样本子集

这是至关重要的一步,你可以选择标记过程中学习信号最多的样本。有几种方法可以做到这一点(如书中所述)。为简洁起见,我们将看到我认为最为直观的方法:基于熵的不确定采样。


基于熵的不确定采样:


不确定采样是一种选择模型最不确定/最困惑的样本的策略。计算不确定度有几种方法。最常用的方法是利用神经网络最后一层的分类概率(SoftMax)值。


如果没有明确的赢家(即所有概率几乎相同),这意味着模型对样本是不确定的。熵恰好给了我们一个度量标准。如果所有类别之间存在相关性,则分布的熵值将会较高,如果类别之间存在明显的赢家,则分布的熵值较低。



根据模型对未标记数据集的预测,我们应该按照熵值的递减顺序对样本进行排序,并从中选择 Y% 的顶部样本进行注释。

步骤 5:数据清洗与重复

我们需要在这次迭代的训练数据集附加新的标签样本,并重复步骤 3 中的过程,直到我们在评估集上达到预期的性能或评估性能停滞。

演示

出于实验和演示目的,我们将使用ATIS 意向分类数据集。让我们将训练数据集视为未标记的。我们从随机抽取 5% 的标记训练数据集作为第一次迭代。在每次迭代结束时,我们使用基于熵的不确定采样来选择前 10% 的样本,并使用它们的标签(模拟现实世界中的注视过程)在下一次迭代中进行训练。


为了在主动学习的每次迭代期间评估我们的模型,我们还从数据集中获取测试集,因为测试集中的数据已经被标记。


演示和代码可以在下面的 Notebook 中找到:


https://colab.research.google.com/drive/1BsTuFK8HcXS5WWlOCS1QHgvHRf2FK6aD?usp=sharing

参考文献

一种训练文本分类器的顺序算法》(A Sequential Algorithm for Training Text Classifiers.),David D. Lewis、William A. Gale,1994 年,SIGIR’94


Human in the loop machine learning》,Robert Munro

作者介绍:

Logesh Kumar Umapathi,居住在印度泰米尔纳德邦,专注于机器学习、自然语言处理的高级顾问,供职于 Saama。对自然语言处理和深度学习充满热情。


原文链接:


https://towardsdatascience.com/how-to-do-more-with-less-data-active-learning-240ffe1f7cb9


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-10-15 12:002045
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.7 次阅读, 收获喜欢 1968 次。

关注

评论

发布
暂无评论
发现更多内容

运维数字化转型必备宝典,13位行业资深运维专家力荐之作

嘉为蓝鲸

数字化转型 数字化运维 IT 运维

Topaz Photo AI for Mac v3.0.0 智能AI降噪软件 照片清晰度修复

iMac小白

Topaz Photo AI下载 Topaz Photo AI mac Topaz Photo AI破解

性能测试中唯一标识的JMH测试

FunTester

微信登陆、支付、事件监听等小程序接口调用分解

Geek_2305a8

Pixelmator Pro for Mac v3.5.8 图像编辑软件 直装激活版

iMac小白

Pixelmator Pro破解 Pixelmator Pro中文 Pixelmator Pro下载

SQLPro for MySQL for Mac v2024.21 SQL数据库管理工具 激活版

影影绰绰一往直前

Python机器学习实战教程含代码

技术冰糖葫芦

api 货币化 API 测试 pinduoduo API

嘉为蓝鲸WeOps认证体系全面升级:构建专业本地化服务中心网络

嘉为蓝鲸

weops 嘉为蓝鲸

智能写手GPT出击!生成测试报告技巧大公开!

测吧(北京)科技有限公司

测试

ON1 NoNoise AI 2024 for Mac v18.3.0.15302 AI图片降噪工具 激活版

iMac小白

Ghost Buster Pro for Mac v3.2.2 内存清理工具 激活版

iMac小白

Ghost Buster Pro下载 Ghost Buster Pro mac Ghost Buster Pro破解

你会拆分产品待办项(PBI)吗?

敏捷开发

项目管理 敏捷开发 软件开发 产品管理 用户故事

比特币减半:挑战与机遇

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

ODI(境外投资备案)作用、类别和申请流程详解

2024上海国际智能汽车电子展览会

AIOTE智博会

自动驾驶展 智能驾驶展 汽车电子展

一款功能齐全的iOS混淆工具介绍及功能详解

实现iOS App代码混淆

雪奈椰子

元太科技携手生态圈伙伴合作开发新一代电子纸货架标签

财见

企业网络日益突出的难题与SD-WAN解决方案

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

微信多开版 for Mac v3.8.7.18 (微信多开 消息防撤回 )

影影绰绰一往直前

革新鞋服零售:数据驱动的智能商品管理 解锁库存优化与高效增长

第七在线

什么是WAAP,对提高网络安全具有哪些重要的意义

德迅云安全杨德俊

Tinderbox 9 for Mac v9.7.3 可视化个人笔记工具 激活版

iMac小白

Tinderbox 9下载 Tinderbox 9 mac Tinderbox 9破解

天谋科技成为信创工委会技术活动单位

Apache IoTDB

海外云手机怎么解决tiktok运营难题?

Ogcloud

云手机 海外云手机 tiktok云手机 云手机海外版 海外原生IP

DoubleTake for Mac v2.7.0 全景图制作软件 激活版

iMac小白

DoubleTake下载 DoubleTake mac DoubleTake直装版

全民国家安全教育日,天翼云“红盾”筑牢数字安全防线

编程猫

AlDente Pro for Mac v1.26.1 电池优化工具 限制最大充电比例 激活版

iMac小白

AlDente Pro下载 AlDente Pro破解版 AlDente Pro mac

4K Video Downloader Plus Pro for Mac v1.5.2 4K视频下载器 激活版

iMac小白

4K Video Downloader Plus

CADintosh X for Mac v8.8.6.736 CAD绘图软件直装版

iMac小白

CADintosh X 8 CADintosh X下载 CADintosh X直装版 CADintosh X mac CADintosh X 破解

爆火 AI 硬件遭差评,Ai Pin 上市即翻车;Grok 推出首个多模态模型丨 RTE 开发者日报 Vol.184

声网

主动学习:如何用更少的数据做更多的事情?_AI&大模型_Logesh Kumar Umapathi_InfoQ精选文章