快手、孩子王、华为等专家分享大模型在电商运营、母婴消费、翻译等行业场景的实际应用 了解详情
写点什么

构建机器学习工具一年得到的四个教训

Humanloop

  • 2021-08-15
  • 本文字数:2522 字

    阅读完需:约 8 分钟

构建机器学习工具一年得到的四个教训

关于如何构建机器学习工具、未来的需求和为什么领域专家在人工智能的未来中扮演重要的角色,我们想与大家分享一些最令人惊讶的经验。

 

在过去的一年里, Humanloop 一直在开发一种用于训练和部署自然语言处理模型的新工具。我们已经帮助律师、客服人员、市场营销人员和软件开发人员团队快速训练出能够理解语言的人工智能模型,并立即使用它们。在使用主动学习时,我们开始将注意力集中在减少注释数据的需求上,但是很快发现需要更多。

 

我们真正需要的是一组新的工具和工作流,从第一原则出发,这些工具和工作流是用来处理人工智能工作挑战的。这里有一些我们学到的东西。

 

1. 主题专家的影响力不亚于数据科学家

 

2011 年初,对深度学习专业知识的需求如此之高,以至于 Geoff Hinton 能够以 4400 万美元的价格将自己卖给谷歌 。今天不再是这样了。

 

2011 年的许多难题都已商业化。通过导入库,你可以使用最先进的模型,并且大多数研究的突破性成果都会很快被纳入。尽管我已经拿到了深度学习的博士学位,但我仍然对标准模型在广泛的使用案例中的开箱即用表现感到惊讶。

 

构建机器学习服务仍然很难,但最大的挑战是获取正确的数据。

 

或许,令人惊讶的是,机器学习技术方面的支持已经不如领域的专业知识有用。

 

举例来说,我们与一个团队合作,他们想知道 80000 多项历史法律判决的结果。手工处理这些文件是完全不可行的,那要花上几十万美元的律师时间。要解决这个问题,光靠数据科学家时不行的。一位律师是我们真正需要的。

 

在数据科学中,传统的工作流程将数据注释看作模型训练的第一步。我们知道,将数据注释/数据管护(data curation)放在工作流的中心位置实际上会让你更快的得到结果。由主题专家担任领导角色,与数据科学家更容易合作。而且我们也看到,这会产生更高的数据质量和更高的模型质量。

 

两位律师组成的团队为 Humanloop 平台上的数据进行了注释,并用主动学习自动并行的方式来训练模型。仅用了几个小时,律师们就训练出了一个模型,它能提供所有 80000 项判决结果,而这些结果完全不需要数据科学家的参与。

 

不只是律师,我们见过医生团队为训练医疗聊天机器人所作的注释;金融分析师为命名实体识别所作的标记,以及科学家对数据进行注释,以便大规模检索论文。

 

2. 第一次迭代总是在标签分类上

 

机器学习模型的训练通常从标记数据集开始。在我们最初构建 Humanloop 平台时,我们认为选择一个标签分类法是在项目开始时做的事情,然后就完成了。

 

如果不探索数据,大多数团队都低估了定义好的标签分类是多么困难。

 

我们很快意识到,一旦团队开始注释数据,他们就会发现最初对于他们想要的分类的猜测是错误的。这些数据中常常会有他们从未考虑过的分类,或者是一些非常罕见的,所以最好将它们合并到一个更大的分类。团队会惊讶的发现,对于即使是简单的分类,常常很难对其含义达成一致意见。

 

在项目开始后,数据科学家、项目经理和标注员之间几乎总是在讨论如何更新标签分类的问题。

 

将数据整理置于机器学习工作流的中心,可以让不同的利益相关者快速达成一致。为简化这一过程,我们为项目经理增加了在注释期间编辑其标签分类的能力。Humanloop 模型和主动学习系统可以自动遵循对标签的任何修改。让团队能够对示例数据点进行标记、评论和讨论。

 

3. 快速反馈的投资回报率很高

 

对于我们创建的主动学习平台,一个出乎意料的好处就是,它可以让项目快速原型化并消除风险。在 Humanloop 平台上,通过团队的注释,对模型进行了实时训练,并提供了模型性能的统计数据。

 

许多机器学习项目都会失败。根据 algorithmia 的数据 ,多达 80% 的项目从未投产。出现这种情况通常是因为目标不明确,输入的数据质量太差,无法预测输出,或者模型陷入困境,等待生产。高层管理人员变得不愿意为不确定性很高的项目投入资源,因而错失了很多好机会。

 

尽管我们没有计划,但我们意识到团队正在利用 Humanloop 的早期快速反馈来评估项目的可行性。他们可以上传小的数据集,然后给一些例子贴上标签,这样就能了解到他们的项目会有多好。这就是说,一些可能会失败的项目没有继续进行,而另一些项目很快就会获得更多的资源,因为团队知道它们会成功。这类早期探索通常由完全没有机器学习背景的产品经理来完成。

 

4. 机器学习工具应当以数据为中心,但以模型为依托

 

目前大部分训练和部署机器学习(MLOps)的工具都是针对传统软件构建的。它们专注于代码而非数据,它们的目标是很窄的机器学习开发管道。有一些 MLOps 工具可以用于监控、特征存储、模型版本、数据集版本、模型训练、评估存储等等。几乎没有任何一种工具可以方便地查看和理解系统所学到的数据。

 

吴恩达(Andrew Ng)和 Andreij Kaparthy 等人最近一直在呼吁使用以数据为中心的机器学习工具。人们完全同意,机器学习要求团队更多地关注他们的数据集,但是我们发现这些工具的最佳版本需要与模型紧密结合。

 

在 Humanloop 平台上,我们看到的大部分好处来自数据和模型之间的相互作用

 

  1. 在探索阶段:该模型显示出罕见的分类,并提供有关分类学习难度的反馈。

  2. 在训练阶段:模型找到具有最高价值的数据标注,使模型以较少的标签获得高性能模型。

  3. 在审查阶段:该模型使得发现错误注释变得更加容易。Humanloop 平台显示出模型的预测与领域专家的标注员不一致的例子,并且具有很高的置信度。发现和纠正错误的数据点往往是提高模型性能的最有效途径。

 

结合数据和模型构建过程在机器学习开发过程的每一个阶段都有好处。对模型进行注释学习后,部署不再是一个“瀑布”时刻。模型是不断学习的,可以轻松地保持更新。

 

一年来,我们认为我们已经在建立让机器学习变得更简单的新工具方面取得了重大进展,首先是自然语言处理。如今,很多行业的专家都对人工智能模型的训练做出了贡献,并且很高兴看到基于 Humanloop 的新应用程序。

 

作者介绍:

 

Humanloop 是一家从事机器学习和人工智能的初创公司,该公司的产品 Humanloop 是一个训练和部署自然语言处理的人工智能数据标记工具,为用户的模型提供 API,用户可以使用该工具更好地可视化和理解其数据,从而拓展客户人力资源。

 

原文链接:

 

https://humanloop.com/blog/4-lessons-from-a-year-building-tools-for-machine-learning

2021-08-15 08:004475

评论

发布
暂无评论
发现更多内容

聊一聊我最近使用的uniCloud是个什么玩意

麦洛

uniapp unicloud

苏州源控电子科技怎么样?名副其实的行业新星

Geek_8a195c

NUCLEO-L432KC实现GPIO控制(STM32L432KC)

不脱发的程序猿

嵌入式 stm32 单片机 NUCLEO-L432KC STM32L432KC

模块五作业

c

架构实战营

一文带你认识队列数据结构

华为云开发者联盟

Java 数据结构 数组 队列

从VMWare安装到Nginx配置

wildpig

nginx vmware Centos 7

HTTP协议

IT视界

网络协议 HTTP 网络通信协议

react源码解析2.react的设计理念

全栈潇晨

React React Hooks react源码

dex优化对Arouter查找路径的影响

vivo互联网技术

android mongodb

《面试官:谈谈你对索引的认知》之B-树

架构精进之路

MySQL 索引结构 6月日更

百度爱番番与Servicemesh不得不说的故事

百度Geek说

因为一个字符校对问题,我的大厂面试挂了

华为云开发者联盟

MySQL 字符 字符校对 语句 MySQL5.7

人生算法:涌现,在自己身上发挥群体智慧

石云升

读书笔记 6月日更

【Flutter 专题】116 图解 PhysicalModel & PhysicalShape 裁切小组件

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6月日更

智慧光伏能源-园区光伏发电能源管控可视化

一只数据鲸鱼

数据可视化 智慧园区 智慧能源 能源管理 光伏发电

安迈云首席战略官于晓晖:去中心化云计算构建Web3.0世界

DT极客

数字人民币有望为全球贸易结算开辟新视窗

CECBC

通证经济— 激励机制、社会生产、后资本主义

CECBC

在 Python 中解析和修改 XML,你会么?

华为云开发者联盟

Python xml 字符串 Python XML 解析器

用敏捷扑克做需求评审的3大优势,你get了吗?

LigaAI

高效工作 团队管理 产品思考

智慧工厂VR拆解零件——3D虚实现实可视化系统

一只数据鲸鱼

数据可视化 工业互联网 vr 智慧工厂 零件拆解

净筹6亿美元:微盟正在加速拉开差距

ToB行业头条

SaaS 微盟

实现接口幂等性的四种方案!

李阿柯

面试 编程之路 幂等性

Serverless over Storage

焱融科技

云计算 容器 云原生 高性能 文件存储

架构之:软件架构漫谈

程序那些事

架构 系统架构 软件设计 程序那些事

6000 字 |Redis 分布式锁|从青铜到钻石的演进方案

悟空聊架构

redis 缓存 分布式锁 redis分布式锁 6月日更

自制文件系统 —— 1 什么文件系统

奇伢云存储

Linux 文件系统 Go 语言

Dubbo 服务治理

青年IT男

dubbo

GitHub上收录400余篇任正非的讲话稿

不脱发的程序猿

GitHub 开源 程序人生 任正非讲话

ModelArts的雪中送炭,让我拿下CCF BDCI华为Severless工作负载预测亚军

华为云开发者联盟

modelarts 工作负载 大赛 severless lstm架构

工业制造业在数字化时代的三大发展方向

CECBC

构建机器学习工具一年得到的四个教训_大数据_InfoQ精选文章