写点什么

加速机器学习模型开发:AirBnb 利用 Chronon 实现特征工程

  • 2023-10-01
    北京
  • 本文字数:879 字

    阅读完需:约 3 分钟

大小:463.26K时长:02:38
加速机器学习模型开发:AirBnb利用Chronon实现特征工程

AirBnb 经常要创建用于机器学习模型的新特征,为了提高生产力和可扩展性,他们构建了一个名为Chronon的解决方案,用于创建将原始数据转换为特征并进行训练和推理所需的基础设施。

 

AirBnb 工程师兼 Chronon 创始人 Nikhil Simha 解释说,将原始数据转换为特征并用于训练 ML 模型是一项复杂且耗时的任务,工程师需要从 AirBnb 数据仓库中提取数据,并编写复杂的 ETL 逻辑将其转换为特征。另一个难点在于要确保这个逻辑所生成的推理特征分布与训练时的相同。

 

Simha 说,Chronon 就是为了解决这些问题,使机器学习工程师在训练和推理中以可复制的方式定义特征并中心化数据计算。


作为用户,你只需要声明一次计算,Chronon 就会生成所需的所有基础设施,不断地将原始数据转换为训练和服务所需的特征。AirBnb 的机器学习从业者不用再花费数月的时间手动实现复杂的管道和特征索引。通常,他们用不到一周的时间就可以为他们的模型生成新的特征集。

 

Chronon的第一个组件支持从各种数据源获取数据,包括事件数据源、实体数据源和累积事件源,从每个数据源收集不同类型的数据。

 

摄取数据后,它就可以使用类似 SQL 的操作和聚合进行转换,从而生成服务于在线模型的低延迟端点,以及用于离线训练的 Hive 表。在底层,Chronon 使用 Kafka、Spark/Spark Streaming、Hive 和 Airflow 来构建管道。类似 SQL 的操作包括GroupByJoinStagingQuery,它们是 Spark SQL 查询,每天脱机计算一次。聚合包括窗口、桶和基于时间的聚合。

 

最后,它还有一个 Python API,提供了类似 SQL 的原语,并将基于时间的聚合和窗口作为一级概念。例如,使用 Python API,你可以过滤和转换用户在过去五个小时内查看某个物品的次数。

 

Chronon 有一个重要的概念是准确性,即特征值更新的频率,是实时更新还是固定时间间隔更新。要根据特定的用例选择合适的准确性,因此,Chronon 让用户可以方便地将计算的准确性设为为 temporal snapshot

 

在写这篇文章的时候,我还不知道 AirBnb 是否会在 GitHub 上提供 Chronon,但如果你想创建自己的特征工程管道,可以读下原文中的讨论,非常有趣。

 

原文链接:

https://www.infoq.com/news/2023/08/airbnb-chronon-ml-features/

2023-10-01 08:006571

评论

发布
暂无评论
发现更多内容

HAP驱动智慧牧场升级,恒创融慧与圣牧高科的创新实践

明道云

轻量且全面的病毒扫描器Antivirus Zap - Virus Scanner for mac

理理

Disk Drill:支持多种文件系统,数据恢复无忧

理理

Sketch for mac v101.6最新中文版 专业矢量绘图设计

理理

2025上海国际消费电子展览会(Tech G)

AIOTE智博会

消费电子展 消费电子展会 消费电子博览会 消费电子展览会

synergy for mac(跨平台的键鼠共享工具)中文版

Mac相关知识分享

库存平台稳定性建设实践

京东科技开发者

Mac磁盘优化清理工具 DiskSlim - Disk Cleanup Pro for Mac

理理

易未央-AI 風雲:38. 命理的禁忌領域

因田木

AI 命理

《ClickHouse:强大的数据分析引擎》

京东科技开发者

支持多种编程语言的代码编辑器 sublime text 4汉化中文版

理理

(vm虚拟机)VMware Fusion Pro 12密钥分享

理理

【YashanDB知识库】php查询超过256长度字符串,数据被截断的问题

YashanDB

数据库 yashandb

BetterDisplay Pro Mac(屏幕显示优化工具)

Mac相关知识分享

打通全域变现通道,百度携手创作者、品牌挖掘内容变现"新"商机

Geek_2d6073

MacCleanse for Mac v13.0.1激活版 系统清理垃圾软件

理理

Coolmuster Android Assistant for Mac(Android管理工具)

Mac相关知识分享

十亿级订单系统的数据库查询性能优化之路

京东科技开发者

苹果mac窗口管理工具Magnet for mac中文版

理理

Planner 5D for mac中文版:一站式家装设计解决方案

理理

数据库时间获取小助手:一键速查时间格式

代码忍者

如何建设统一业务访问认证服务能力

芯盾时代

iam 统一身份认证 访问控制 访问权限

强大的文件比较/合并工具 UltraCompare激活版

理理

OpenSearch & AI 开放平台,实现0代码图片搜索!

阿里云大数据AI技术

阿里云 解决方案 OpenSearch AI搜索

Shopify接口对接流程详解

北京木奇移动技术有限公司

跨境电商 Shopify 软件外包公司

如何在项目管理中提高资源利用率

爱吃小舅的鱼

项目管理

Fluss:面向实时分析设计的下一代流存储

阿里云大数据AI技术

大数据 flink FFA Fluss

LED显示屏厂家如何应对行业竞争

Dylan

行业 LED display LED显示屏 竞争

QtiPlot for Mac(科学数据分析和可视化软件)中文版

Mac相关知识分享

播放客户端Netflix Mac(奈飞客户端)

Mac相关知识分享

FxFactory 8:一站式视觉特效插件库,让你的作品脱颖而出!

理理

加速机器学习模型开发:AirBnb利用Chronon实现特征工程_机器学习/深度学习_Sergio De Simone_InfoQ精选文章