写点什么

AutoML 时代,领英工程师如何缩短模型训练时间

作者:Sergio De Simone

  • 2024-01-25
    北京
  • 本文字数:944 字

    阅读完需:约 3 分钟

AutoML时代,领英工程师如何缩短模型训练时间

领英工程师 Shubham Agarwal 及 Rishi Gupta 解释道,为协助发现并移除违反其标准政策的内容,领英一直在使用自研的 AutoML 框架,该框架可以并行地训练分类器且试验多个模型架构。


我们使用 AutoML 不断重新训练已有模型,将训练所需时间从数月缩短到数天,并减少开发新基线模型所需时间。这也让我们能积极主动地应对新出现的对抗性威胁。


内容审核的关键之一在于持续的执行和调整,以应对规避审核的新手段,除此之外还必须要能适应环境的变化。这些变化包括:数据漂移,即平台上发布的内容会随着对话的进行发生固有变化;全球事件,这类事件往往会在讨论中出现并产生不同观点,其中常充斥着错误信息;对抗性威胁,其中包括欺诈和欺瞒行为,如伪造档案、实施诈骗等。


为应对上述挑战,领英采用的方法目标为“主动检测”,该方法需要一个不断调整和发展其 ML 模型和系统的过程。AutoML 是领英内部研发的工具,全称为自动化机器学习(Automated Machine Learning),用于,通过不断在新数据上重新训练模型、使用假负和假正等数据修正模型、微调参数方式提升机器学习性能。


通过 AutoML,我们得以将过去冗长且复杂的流程转变为精简又高效的流程……在实现 AutoML 后,我们开发新基线模型和持续性重新训练已有模型的平均所需时间从两个月缩短直不到一周。


通过 AutoML,领英工程师实现了数据准备和特征转换过程的自动化,其中包括降噪、降维和特征工程,意在创建用于分类器训练的高质量训练数据集。


在第二阶段,AutoML 通过搜索一系列超参数和优化方式,对比不同分类器架构在一组已定的评估指标下生成的模型性能。


最后,AutoML 将新完成训练的模型供给生产服务器,实现部署过程的自动化。


Agarwal 和 Gupta 认为这套工具仍有一些方面不太成熟,具体来说是需要提高速度和效率,使其能够在更大范围内应用,最终提高对计算能力的要求。他们称,另一个颇具前景的领域是使用生成式 AI,减少标签噪声并生成用于模型训练的合成数据,从而提高数据集质量,


虽然并不是所有的组织都有领英的运营规模,或者能拥有自研 ML 自动化工具的资源,但 Agarwal 和 Gupta 所描述的方式仍可在小规模范围内进行复制,从而减轻机器学习工程师与重新训练已有模型相关的重复性工作量。


原文链接

https://www.infoq.com/news/2024/01/linkedin-automl-content-filter/


2024-01-25 08:005354

评论

发布
暂无评论
发现更多内容

印度股票交易软件GangGuHk

GangguHK

电源常用通讯电路

芯动大师

芯片 通讯 电源

Topaz Gigapixel AI 7.0.4完美激活版 及Topaz Gigapixel AI 7全新功能介绍

Rose

为什么说 $CHAPZ 是被严重低估的 AI 概念资产?

股市老人

助力高效工作!Finder增强工具 TotalFinder for Mac中文版 含注册码

Rose

关于招聘这件事,技术面试官需要了解的几个点

芃篙君

招聘

PHP中header()的七种用法

百度搜索:蓝易云

php Linux 运维 HTTP header

我对一些技术架构设计的经验记录

软件工程师-罗小东

PD19虚拟机破解版安装教程及pd19永久密钥

Rose

揭秘 Bug 报告的终极技巧——如何写一个好的bug报告?

宇文辰皓

bug bug管理 bug定位 bug报告

Golang高效流控实践

俞凡

golang

Kafka 痛点专题|AutoMQ 如何解决 Kafka 冷读副作用

AutoMQ

云计算 大数据 kafka 云原生 AutoMQ

鸿蒙生态全场景新增长,鲸鸿动能为伙伴带来新机遇

最新动态

解决Linux报错:Swap file “xxxxxx.swp“ already exists

百度搜索:蓝易云

vim Linux 运维 云服务器 swap

CentOS7用二进制安装MySQL5.7

百度搜索:蓝易云

MySQL Linux centos 运维 云服务器

WebStorm 2023.3.5 for Mac中文版 (WebStorm 2023永久激活秘钥最新)

Rose

Topaz Photo AI 人工智能降噪 v2.4.1完美激活版 mac/win

Rose

macbook防睡眠工具:Caffeinated for mac一键激活版

Rose

Caffeinated下载 Caffeinated破解版 防睡眠工具

腾讯天穹 StarRocks 一站式湖仓融合平台架构揭秘

StarRocks

数据库 大数据 湖仓一体 湖仓融合

深入理解 Java 多线程、Lambda 表达式及线程安全最佳实践

小万哥

Java 程序人生 编程语言 软件工程 后端开发

《保卫萝卜4》仅用一个月完成鸿蒙原生应用开发

最新动态

iNet Network Scanner:全面而深入的网络分析工具

Rose

GraphPad Prism 10激活授权秘钥:高效且易于使用的科学研究绘图分析软件

Rose

数据集成之环境变量 v0.7.2

LIEN

开源 数据集成 业务融合 API对接 mydata

StarRocks 易用性全面提升:数据导入可以如此简单

StarRocks

AI Transcription for Mac(AI语音转录软件) 支持M1/M2

Rose

Blu-ray Player Pro mac v3.3.22中文版 蓝光播放器 兼容m

Rose

可用于GPT4.0续费,海淘使用教程

蓉蓉

GPT-4 ChatGPT4 Claude

从API到Agent:万字长文洞悉LangChain工程化设计

TuGraphAnalytics

graph agent #LangChain

Vue.js 应用实现监控可观测性最佳实践

观测云

Vue

抓住大机遇,共筑新一代数智基础设施和解决方案竞争力

新消费日报

AutoML时代,领英工程师如何缩短模型训练时间_机器学习/深度学习_InfoQ精选文章