速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

作者:Claudio Masolo

  • 2024-01-19
    北京
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

Cloudflare 的博客介绍了他们的 MLOps 平台和大规模运行人工智能(AI)部署的最佳实践。包括 WAF 攻击评分、僵尸管理和全球威胁识别在内的 Cloudflare 的产品,都依赖于不断发展的机器学习(ML)模型。这些模型在增强客户保护和支持服务方面都发挥着关键的作用。Cloudflare 在公司全网中提供  ML 方面取得了无与伦比的规模,突出了稳健 ML 培训方法的重要性。


Cloudflare 的 MLOps 是与数据科学家合作实施的最佳实践。通过 JupyterHub 部署在 Kubernetes 上的 Jupyter Notebooks 为数据探索和模型实验提供了可扩展的协作环境。GitOps 是 Cloudflare MLOps 战略实践的基石,利用 Git 作为管理基础架构和部署流程的单一真相源。ArgoCD  是用于声明式 GitOps,实现了应用程序和基础架构的自动化部署和管理。


公司未来的路线图包括了迁移 JupyterHub 和 Kubeflow 等平台,后者为 Kubernetes 上的机器学习工具流平台,且在近期成为了 CNCF 的孵化项目。这一步是由为 Kubeflow 组件提供分布式配置管理的 deployKF  项目促进。


为了协助数据科学家们使用正确工具,自信且高效地启动项目,Cloudflare 的 MLops 团队提供了模型模板,作为包含示例模型的生产就绪代码库。这些模板目前都是内部模板,但 Cloudflare 计划将其开源。这些模板所涵盖的使用案例包括:


  1. 训练模板: 为 ETL 流程、实验追踪和基于 DAG 的协调进行了配置。

  2. 批推理模板: 为高效处理计划模型进行优化。

  3. 流推理模型: 专为在 Kubernetes 上使用 FastAPI 进行实时推理而定制。

  4. 可解释性模板: 使用 Streamlit 和 Bokeh 等工具生成 dashboard(仪表盘),用于模型的洞察。


MLOps 平台的另一项重要任务是高效地协调 ML 工作流,Cloudflare 根据团队偏好和用例采用了各种协调工具:


  • Apache Airflow:一个标准的 DAG 组成其,拥有丰富的社区支持。

  • Argo 工作流:以 Kubernetes 原生形式协调微服务类型工作流。

  • Kubeflow 管道:专为 ML 工作流定制,强调协调和版本管理。

  • Temporal:专注于事件驱动型应用的有状态工作流。


性能的优化需要对工作流的理解和对硬件相应的调整。Cloudflare 强调核心数据中心在工作负载和边缘推理方面的 GPU 利用率,利用普罗米修斯(Prometheus)所提供的指标进行观察和优化。Cloudflare 的成功应用包括了对 ML 流程的简化、管道标准化,以及向缺乏数据科学专业知识的团队介绍项目。


公司的愿景是一个数据科学可以在企业中发挥重要作用的未来,这也是 Cloudflare 投资于人工智能基础设施并与 Meta 等其他公司合作的原因,其中包括在 Cloudflare 平台上向全球提供 LLama2。


原文链接:

https://www.infoq.com/news/2023/12/cloudflare-mlops-platform/


2024-01-19 08:006517

评论

发布
暂无评论
发现更多内容

Function Mesh:Serverless 在消息与流数据场景下的火花

Apache Pulsar

大数据 架构 云原生 Apache Pulsar pulsar社区

数据倾斜的产生和解决办法?

编程江湖

一物一码可追溯!看区块链如何帮助消费者

CECBC

顺丰科技 x StarRocks :双十一实时运单分析实践

StarRocks

数据库 大数据 数据分析 StarRocks

学习Java需要掌握哪些技能?

程序员万金游

Java

激荡十年,从未来窗口 re:Invent 看云计算发展变迁 | Q推荐

亚马逊云科技 (Amazon Web Services)

数据库 云计算 云原生 re:Invent

博文推荐|腾讯专家深度解析 Apache Pulsar 五大应用场景

Apache Pulsar

架构 分布式 云原生 Apache Pulsar 消息中间件

程序员如何应对职业天花板

石云升

职场天花板 职场经验 11月日更

在 JavaScript 中如何检查对象为空

编程江湖

天翼账号网关系统架构演进历程

架构 网关 亿级流量 双十一

Tapdata 在线研讨会:DaaS vs 大数据平台,是竞争还是共处?

MongoDB中文社区

mongodb

封神总结!蚂蚁金服+滴滴+美团+拼多多+腾讯15万字Java面试题

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

豪华阵容!13位专家力荐Spring5为企业级开发提供一站式方案

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

2021年底Java最新学习路线图

程序员万金游

Java

(文末福利)如果代码莫名其妙跑起来了,就不要去动它了……吗?

Zilliz

数据库

为什么要学习linux内核源码以及如何学习Linux内核源码

赖猫

c++ Linux 运维 嵌入式 Linux内核

DPDK 网络协议栈-vpp-OvS-DDos-虚拟化专家之路

赖猫

Linux 网络协议栈 DPDK

声网下一代视频引擎架构探索与实践

声网

音视频 视频处理 RTE 技术详解

公司刚来的阿里p8,看完我构建的springboot框架,甩给我一份文档

热爱java的分享家

Java 面试 程序人生 经验分享 P8

博文推荐 | Apache Pulsar 三大跨地域复制解决方案

Apache Pulsar

Java 架构 分布式 云原生 Apache Pulsar

活动预告|AICon全球人工智能与机器学习技术大会

第四范式开发者社区

机器学习 开源 OpenMLDB

Java Collectors API实践

FunTester

Java API 测试开发 FunTester Collectors

头条观察 | 元宇宙成为必然趋势的三种可能

CECBC

JavaScript 数组展平方法: flat() 和 flatMap()

devpoint

11月日更 flat flatMap

关于JAVA中顺序IO的基本操作

编程江湖

直播预告|11.27(周六)观测云&思否联合举办的开发者线上沙龙巡演第3站来啦

观测云

直播 沙龙

Java线程的生命周期包括哪几种状态?

程序员万金游

java线程

Python Qt GUI设计:QSpinBox计数器类(基础篇—15)

不脱发的程序猿

Python PyQt GUI设计 QSpinBox计数器类

我滴个乖乖!首次公布Java10W字面经,Github访问量破百万

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

【死磕Java并发】-----J.U.C之AQS:阻塞和唤醒线程

chenssy

11月日更 死磕 Java 死磕 Java 并发

博文推荐|深度解析如何在 Pulsar 中实现隔离

Apache Pulsar

Java 架构 分布式 云原生 Apache Pulsar

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践_AI&大模型_InfoQ精选文章