QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

加速机器学习模型开发:AirBnb 利用 Chronon 实现特征工程

  • 2023-10-01
    北京
  • 本文字数:879 字

    阅读完需:约 3 分钟

大小:463.26K时长:02:38
加速机器学习模型开发:AirBnb利用Chronon实现特征工程

AirBnb 经常要创建用于机器学习模型的新特征,为了提高生产力和可扩展性,他们构建了一个名为Chronon的解决方案,用于创建将原始数据转换为特征并进行训练和推理所需的基础设施。

 

AirBnb 工程师兼 Chronon 创始人 Nikhil Simha 解释说,将原始数据转换为特征并用于训练 ML 模型是一项复杂且耗时的任务,工程师需要从 AirBnb 数据仓库中提取数据,并编写复杂的 ETL 逻辑将其转换为特征。另一个难点在于要确保这个逻辑所生成的推理特征分布与训练时的相同。

 

Simha 说,Chronon 就是为了解决这些问题,使机器学习工程师在训练和推理中以可复制的方式定义特征并中心化数据计算。


作为用户,你只需要声明一次计算,Chronon 就会生成所需的所有基础设施,不断地将原始数据转换为训练和服务所需的特征。AirBnb 的机器学习从业者不用再花费数月的时间手动实现复杂的管道和特征索引。通常,他们用不到一周的时间就可以为他们的模型生成新的特征集。

 

Chronon的第一个组件支持从各种数据源获取数据,包括事件数据源、实体数据源和累积事件源,从每个数据源收集不同类型的数据。

 

摄取数据后,它就可以使用类似 SQL 的操作和聚合进行转换,从而生成服务于在线模型的低延迟端点,以及用于离线训练的 Hive 表。在底层,Chronon 使用 Kafka、Spark/Spark Streaming、Hive 和 Airflow 来构建管道。类似 SQL 的操作包括GroupByJoinStagingQuery,它们是 Spark SQL 查询,每天脱机计算一次。聚合包括窗口、桶和基于时间的聚合。

 

最后,它还有一个 Python API,提供了类似 SQL 的原语,并将基于时间的聚合和窗口作为一级概念。例如,使用 Python API,你可以过滤和转换用户在过去五个小时内查看某个物品的次数。

 

Chronon 有一个重要的概念是准确性,即特征值更新的频率,是实时更新还是固定时间间隔更新。要根据特定的用例选择合适的准确性,因此,Chronon 让用户可以方便地将计算的准确性设为为 temporal snapshot

 

在写这篇文章的时候,我还不知道 AirBnb 是否会在 GitHub 上提供 Chronon,但如果你想创建自己的特征工程管道,可以读下原文中的讨论,非常有趣。

 

原文链接:

https://www.infoq.com/news/2023/08/airbnb-chronon-ml-features/

2023-10-01 08:006588

评论

发布
暂无评论
发现更多内容

总结了6种卷积神经网络压缩方法

华为云开发者联盟

人工智能 华为云 企业号 2 月 PK 榜 华为云开发者联盟

橡树黑卡携手观测云,实现会员体系业务可观测

观测云

可观测性 可观测 观测云 可观测性用观测云

音频编辑服务UI SDK接入指导及常见问题

HarmonyOS SDK

HMS Core

英雄互娱|提升 300% !一次性能优化实战记录

观测云

可观测性 可观测 观测云 可观测性用观测云

【知识点】如何快速开发、部署 Serverless 应用?

Serverless Devs

微软提出 TinyMIM,首次用掩码预训练改进小型 ViT

Zilliz

ONES 加入中国信通院云上软件工程社区,推动软件提质发展

万事ONES

2023最新版网络安全保姆级指南,从0基础进阶网络攻防工程师

网络安全学海

运维 网络安全 信息安全 渗透测试 漏洞挖掘

《数字经济全景白皮书》后疫情时代数字化驱动增长洞察之赛道篇

易观分析

数字经济 数智化转型

CrossOver2023MAC电脑切换win系统打造的虚拟机软件

茶色酒

CrossOver2023

DawnSql完美超越微服务

陈飞

函数计算|如何使用层解决依赖包问题?

Serverless Devs

高密度 ARM 服务器如何引领“数智时代”发展,打通“智变质变”正循环

GPU算力

深度学习 并行计算 arm架构 高性能计算 ARM服务器

可变二维码,玩转“码”上时代

旺链科技

区块链 区块链技术 区块链溯源

新增模型服务、训练记录、源代码关联追溯,助力模型全生命周期管理|ModelWhale 版本更新

ModelWhale

人工智能 机器学习 云计算 数据分析 编程建模

CMAE 结合对比学习和掩码,提高表征辨别力

Zilliz

DawnSql解决SAAS的痛点

陈飞

得物商家客服桌面端Electron技术实践

得物技术

node.js 前端 前端架构 Electron 客户端开发

Kratos微服务框架实现权鉴 - Zanzibar

golang 微服务 鉴权 Kratos Docker 镜像

营销大数据如何帮助企业深入了解客户-镭速

镭速

AirServer2024免费的手机投屏电脑软件

茶色酒

AirServer AirServer2023

DTC补货实战:从算法到落地

观远数据

人工智能 BI DTC

持续耕耘显卡市场,英特尔锐炫驱动重大升级

科技之家

泰山众筹4.0sun模式开发系统技术

薇電13242772558

智能合约

Camtasia2023汉化中文版电脑屏幕录像和编辑的软件

茶色酒

Camtasia2023

SR锁存器与D锁存器设计与建模

timerring

FPGA

低代码开发平台 打开数字化转型普惠之门

力软低代码开发平台

「融云政企数智办公解决方案」正式入选「大信创产品目录」

融云 RongCloud

颠覆性的开源分布式数据库DawnSql

陈飞

英特尔锐炫DX9,DX11,DX12游戏性能持续提升,个别游戏高达87%

科技之家

微盟全链路压测:如何帮助电商业务实现10倍性能提升?

TakinTalks稳定性社区

加速机器学习模型开发:AirBnb利用Chronon实现特征工程_机器学习/深度学习_Sergio De Simone_InfoQ精选文章