HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

AutoML 时代,领英工程师如何缩短模型训练时间

作者:Sergio De Simone

  • 2024-01-25
    北京
  • 本文字数:944 字

    阅读完需:约 3 分钟

AutoML时代,领英工程师如何缩短模型训练时间

领英工程师 Shubham Agarwal 及 Rishi Gupta 解释道,为协助发现并移除违反其标准政策的内容,领英一直在使用自研的 AutoML 框架,该框架可以并行地训练分类器且试验多个模型架构。


我们使用 AutoML 不断重新训练已有模型,将训练所需时间从数月缩短到数天,并减少开发新基线模型所需时间。这也让我们能积极主动地应对新出现的对抗性威胁。


内容审核的关键之一在于持续的执行和调整,以应对规避审核的新手段,除此之外还必须要能适应环境的变化。这些变化包括:数据漂移,即平台上发布的内容会随着对话的进行发生固有变化;全球事件,这类事件往往会在讨论中出现并产生不同观点,其中常充斥着错误信息;对抗性威胁,其中包括欺诈和欺瞒行为,如伪造档案、实施诈骗等。


为应对上述挑战,领英采用的方法目标为“主动检测”,该方法需要一个不断调整和发展其 ML 模型和系统的过程。AutoML 是领英内部研发的工具,全称为自动化机器学习(Automated Machine Learning),用于,通过不断在新数据上重新训练模型、使用假负和假正等数据修正模型、微调参数方式提升机器学习性能。


通过 AutoML,我们得以将过去冗长且复杂的流程转变为精简又高效的流程……在实现 AutoML 后,我们开发新基线模型和持续性重新训练已有模型的平均所需时间从两个月缩短直不到一周。


通过 AutoML,领英工程师实现了数据准备和特征转换过程的自动化,其中包括降噪、降维和特征工程,意在创建用于分类器训练的高质量训练数据集。


在第二阶段,AutoML 通过搜索一系列超参数和优化方式,对比不同分类器架构在一组已定的评估指标下生成的模型性能。


最后,AutoML 将新完成训练的模型供给生产服务器,实现部署过程的自动化。


Agarwal 和 Gupta 认为这套工具仍有一些方面不太成熟,具体来说是需要提高速度和效率,使其能够在更大范围内应用,最终提高对计算能力的要求。他们称,另一个颇具前景的领域是使用生成式 AI,减少标签噪声并生成用于模型训练的合成数据,从而提高数据集质量,


虽然并不是所有的组织都有领英的运营规模,或者能拥有自研 ML 自动化工具的资源,但 Agarwal 和 Gupta 所描述的方式仍可在小规模范围内进行复制,从而减轻机器学习工程师与重新训练已有模型相关的重复性工作量。


原文链接

https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/


2024-01-25 08:005304

评论

发布
暂无评论

深入剖析 | Java16语法特性

九叔(高翔龙)

Java 架构

寻找被遗忘的勇气(二十一)

Changing Lin

3月日更

用户故事拆分速查手册(译)

Bruce Talk

敏捷 译文 Agile User Story

Wireshark数据包分析学习笔记Day18

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

开源与商业产品

ES_her0

3月日更

Gradle无法访问Nexus私服仓库-offline

wjchenge

hive数据倾斜解决办法

五分钟学大数据

大数据 hive 28天写作 3月日更

在你所在的公司(行业、领域),正在用大数据处理哪些业务?可以用大数据实现哪些价值?

跳蚤

产品经理面试常见问题总结2

lenka

3月日更

数据仓库设计

大数据技术指南

大数据 28天写作 3月日更

《青春有你3》的子弹时间舞台,凝筑了自由视角技术进化史

脑极体

产品0期-第九周

Jxin

uni-app跨端开发H5、小程序、IOS、Android(五):uni-app数据绑定

黑马腾云

html5 微信小程序 uni-app iOS Developer 3月日更

从Nacos客户端视角来分析配置中心原理

麦洛

nacos SpringCloud Alibaba 动态配置

思呓(2)

型火🔥

学习 架构 分布式 解耦

How to Connect 2 Cisco Switches Together

心在飞

产品训练营第八周作业——用户路径地图

innovator琳

用户研究 用户地图 用户数据 用户模型

树集合总结

我是程序员小贱

3月日更

《Redis 核心技术与实战》学习笔记 06

escray

redis 学习 28天写作 3月日更 Redis 核心技术与实战

央行数字人民币“可控匿名”会侵犯隐私吗?最新解读来了

CECBC

数字货币

登陆用户身份获取

程序员架构进阶

架构设计 认证授权 28天写作 3月日更

线上问题的一点反思

风翱

复盘 3月日更 线上问题

第11周课后练习-安全稳定

潘涛

架构师训练营 4 期

mybatis 添加日志功能

xiezhr

mybatis 日志

找到适合自己的睡眠方案

石云升

生活方式 28天写作 睡眠 3月日更

主流分布式文件系统总结

跳蚤

javax.imageio.IIOException: Unsupported Image Type

wjchenge

IO 模型

无心

Netty

谈兼职创业

Ryan Zheng

一文搞定Diff算法

执鸢者

Vue 大前端 Diff

传统IT部门为什么越来越不受欢迎?

boshi

数字化转型 IT职场 七日更

AutoML时代,领英工程师如何缩短模型训练时间_机器学习/深度学习_InfoQ精选文章