大模型“四虎”出山,亮相 4 月 QCon 北京。 了解详情
写点什么

Netflix 通过新的配置功能增强了 Metaflow

作者:Claudio Masolo

  • 2025-01-24
    北京
  • 本文字数:1771 字

    阅读完需:约 6 分钟

Netflix 通过新的配置功能增强了 Metaflow

Netflix 对其 Metaflow 机器学习基础设施做出了一项重大改进:一个新的 Config(配置)对象,为 ML 工作流带来了强大的配置管理能力。这一新增功能解决了 Netflix 团队面临的一个共同挑战,他们管理着跨不同 ML 和 AI 用例的数千个独特的 Metaflow 流程。


Netflix Metaflow 是一个开源数据科学框架,旨在简化构建和管理数据密集型工作流的过程。它允许用户将工作流定义为有向图,这样就能很方便地对其可视化和迭代了。Metaflow 自动处理工作流的扩展、版本控制和部署操作,这是机器学习和数据工程项目中的核心工作。它为数据存储、参数管理和计算执行等任务提供了内置支持,既可以在本地也可以在云端执行操作。



Metaflow 基础设施栈


新的 Config 特性代表了 Netflix 配置和管理 ML 工作流方式的根本性转变。虽然 Metaflow 一直擅长提供数据访问、计算资源和工作流编排的基础设施,但团队以前缺乏统一的方式来配置流程行为,尤其是对于装饰器和部署设置而言更是如此。


Config 对象加入了 Metaflow 现有的工件(artifact)和参数(parameter)的组合,但在时间执行上有一个关键的区别。虽然工件在每个任务结束时保留,参数在运行开始时解析,但 Config 会在流程部署期间解析。这种时间差异使 Config 在设置针对部署定制的配置方面特别好用。


可以使用人性化,容易看懂的 TOML 文件指定 Config,从而轻松管理流程的各个方面:


[schedule]cron = "0 * * * *"[model]optimizer = "adam"learning_rate = 0.5[resources]cpu = 1
复制代码


Netflix 的内部工具 Metaboost 展示了该配置系统的强大能力。Metaboost 是一个用于管理 ETL 工作流、ML 管道和数据仓库表的统一界面。新的 Config 功能允许团队在保持核心流程结构的同时创建不同的实验配置。


例如,ML 从业者只需交换配置文件即可轻松创建其模型的变体,从而快速试验不同的特性、超参数或目标指标。事实证明,此功能对于 Netflix 的内容 ML 团队特别有价值,该团队负责处理数百个数据列和多个指标。


新的配置系统提供了几个优点:


  • 灵活的运行时配置:可以混合使用参数和配置来平衡固定部署和运行时的可配置性。

  • 增强的验证:自定义解析器可以验证配置,还能与 Pydantic 等流行工具集成。

  • 高级配置管理:支持 OmegaConf 和 Hydra 等配置管理器,可实现复杂的配置层次结构。

  • 动态生成配置:用户可以从外部服务检索配置或分析执行环境(例如当前 GIT 分支),以在运行期间将其作为附加上下文包含在内。


这项增强功能代表了 Metaflow 作为机器学习基础设施平台发展的重要一步。通过提供更结构化的方式来管理配置,Netflix 让团队更容易维护和扩展他们的 ML 工作流程,同时遵循各自的开发实践和业务目标。


该功能现已在 Metaflow 2.13 中提供,用户可以立即开始在他们的工作流程中实现它。


一些类似 Netflix Metaflow 的工具也能帮助数据科学家和工程师管理工作流程、编排管道以及构建可扩展的机器学习或数据驱动系统。这些工具有着略微不同的需求和优先级,但它们都旨在简化复杂的工作流程和扩展数据操作。以下是一些值得一提的例子:


  • Apache Airflow:一个广泛使用的开源工作流编排平台。它允许用户将任务及其依赖关系定义为有向无环图(DAG)。Metaflow 专注于数据科学管道,而 Airflow 则更通用,擅长管理跨不同领域的工作流。

  • Luigi(Spotify):一个旨在构建复杂管道的开源 Python 框架。与 Metaflow 一样,Luigi 能处理依赖项、工作流编排和任务管理,但它不太关注机器学习方面的特定需求。

  • Kubeflow:Kubernetes 的机器学习工具包。它专门用于管理 ML 工作流并在生产中部署模型,使其成为基于 Kubernetes 的环境的不二之选。

  • MLflow:一个管理 ML 生命周期的开源平台,包括实验跟踪、可重复性、部署和监控等能力。MLflow 对模型版本控制和部署有强大的支持,但缺乏 Metaflow 的更广泛的工作流编排功能。

  • Argo Workflows:一个 Kubernetes 原生工作流引擎,旨在在容器化基础设施上运行复杂的工作流。对于已经在使用 Kubernetes 并正在寻找轻量级解决方案的团队来说,它是理想的选择。


虽然这些工具在某些功能上有重叠,但 Metaflow 凭借其简单性、可扩展性以及对机器学习工作流程的内置支持脱颖而出,这对数据科学团队来说特别有吸引力。


原文链接:


Netflix Enhances Metaflow with New Configuration Capabilities(https://www.infoq.com/news/2025/01/netflix-metaflow-configuration/)

2025-01-24 16:009121

评论

发布
暂无评论

百度数据可视化Sugar BI:数据监控与预警

百度开发者中心

大数据 百度智能云 sugar

软件测试 | 低学历无未来?从小公司到拿下年薪45W+,这个小哥哥好励志~

测吧(北京)科技有限公司

测试

百度数据可视化Sugar BI:问卷数据收集、分析与展现

百度开发者中心

大数据 百度智能云 sugar

文心一言更大的故事是在云计算

百度开发者中心

百度智能云 文心一言

java实现布隆过滤器

小小怪下士

Java 程序员 布隆过滤器

数字云南的那山,那水,那些人

脑极体

5G

不降功能只降资源,六个应用场景带你了解OCP Express

OceanBase 数据库

数据库 oceanbase

Nautilus Chain 首个生态基础设施 Poseiswap,公布空投规则

股市老人

IntelliJ IDEA 2023.1 版本可以安装了

HoneyMoose

应对网络不可靠挑战,用 OpenYurt 实现边缘业务连续性

阿里巴巴云原生

阿里云 开源 云原生 openyurt

让创新更多元,让世界更美好,2023女性影响力峰会圆满举办

创业邦

Scrum 管理工具哪个好?国内知名工具的 Scrum 管理过程体验

爱吃小舅的鱼

Scrum 敏捷开发管理 敏捷开发管理工具

微软云与 OpenAI 竞争 ChatGPT 企业级客户:安全性、老客户、多云、模型迭代效率

B Impact

魔法诗~~~一套基于Vue开发的实用、高端、炫酷的响应式前端网页!!!

京茶吉鹿

Vue 前端 网页设计

即刻报名|Kyligence 指标平台产品发布会

Kyligence

数据分析 指标平台

【4月8日】Elastic 中国开发者大会 2023 议程预告

极限实验室

大数据 elasticsearch elastic 开源 开发者大会

kafka Log存储解析以及索引机制

石臻臻的杂货铺

kafka

ChatGPT 开源了第一款插件,都来学习一下源码吧!

Python猫

大数据培训学习需要到什么程度

小谷哥

面向 Web、微服务应用的 Serverless 托管平台云应用引擎 CAE

宇宙之一粟

云服务器 CAE 云应用

又见版本升级!一句话概括 Milvus 2.2.4:资源隔离、多云、高效

Zilliz

非结构化数据 Milvus Zilliz

pytest学习和使用5-Pytest和Unittest中的断言如何使用?

Python 自动化测试 pytest 测试报告 Allure

百度数据可视化Sugar BI:工业零部件3D大屏

百度开发者中心

大数据 百度智能云 sugar

出手即不凡,一年共投408个公司,人均退出近5个 | 创业邦2023女性投资人榜单发布

创业邦

c4d超强三维动画设计:CINEMA 4D Studio R2023.2.0 中文激活版

真大的脸盆

Mac Mac 软件 C4D

避免使用CSS @import 影响页面加载速度

南城FE

CSS css3 前端

Cocos携手乐元素 《开心消消乐》成功移植OpenHarmony

最新动态

软件测试 | 从手工转到测试开发,是种什么样的体验?

测吧(北京)科技有限公司

测试

周鸿祎谈“360GPT”两翼齐飞战略;SaaS生态百家接入、120万家企业用户、2千万终端用户

B Impact

软件工程高效学 | 实践工具:Microsoft Office Visio

TiAmo

开发工具 Visio绘图注释工具

Netflix 通过新的配置功能增强了 Metaflow_云计算_InfoQ精选文章