Cloudflare 的 ML 和 AI 之旅：MLOps 平台和最佳实践_AI&大模型_InfoQ精选文章

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么

登录/注册

Cloudflare 的 ML 和 AI 之旅：MLOps 平台和最佳实践

Cloudflare 的博客介绍了他们的 MLOps 平台和大规模运行人工智能（AI）部署的最佳实践。包括 WAF 攻击评分、僵尸管理和全球威胁识别在内的 Cloudflare 的产品，都依赖于不断发展的机器学习（ML）模型。这些模型在增强客户保护和支持服务方面都发挥着关键的作用。Cloudflare 在公司全网中提供 ML 方面取得了无与伦比的规模，突出了稳健 ML 培训方法的重要性。

Cloudflare 的 MLOps 是与数据科学家合作实施的最佳实践。通过 JupyterHub 部署在 Kubernetes 上的 Jupyter Notebooks 为数据探索和模型实验提供了可扩展的协作环境。GitOps 是 Cloudflare MLOps 战略实践的基石，利用 Git 作为管理基础架构和部署流程的单一真相源。ArgoCD 是用于声明式 GitOps，实现了应用程序和基础架构的自动化部署和管理。

公司未来的路线图包括了迁移 JupyterHub 和 Kubeflow 等平台，后者为 Kubernetes 上的机器学习工具流平台，且在近期成为了 CNCF 的孵化项目。这一步是由为 Kubeflow 组件提供分布式配置管理的 deployKF 项目促进。

为了协助数据科学家们使用正确工具，自信且高效地启动项目，Cloudflare 的 MLops 团队提供了模型模板，作为包含示例模型的生产就绪代码库。这些模板目前都是内部模板，但 Cloudflare 计划将其开源。这些模板所涵盖的使用案例包括：

训练模板： 为 ETL 流程、实验追踪和基于 DAG 的协调进行了配置。
批推理模板： 为高效处理计划模型进行优化。
流推理模型： 专为在 Kubernetes 上使用 FastAPI 进行实时推理而定制。
可解释性模板： 使用 Streamlit 和 Bokeh 等工具生成 dashboard（仪表盘），用于模型的洞察。

MLOps 平台的另一项重要任务是高效地协调 ML 工作流，Cloudflare 根据团队偏好和用例采用了各种协调工具：

Apache Airflow：一个标准的 DAG 组成其，拥有丰富的社区支持。
Argo 工作流：以 Kubernetes 原生形式协调微服务类型工作流。
Kubeflow 管道：专为 ML 工作流定制，强调协调和版本管理。
Temporal：专注于事件驱动型应用的有状态工作流。

性能的优化需要对工作流的理解和对硬件相应的调整。Cloudflare 强调核心数据中心在工作负载和边缘推理方面的 GPU 利用率，利用普罗米修斯（Prometheus）所提供的指标进行观察和优化。Cloudflare 的成功应用包括了对 ML 流程的简化、管道标准化，以及向缺乏数据科学专业知识的团队介绍项目。

公司的愿景是一个数据科学可以在企业中发挥重要作用的未来，这也是 Cloudflare 投资于人工智能基础设施并与 Meta 等其他公司合作的原因，其中包括在 Cloudflare 平台上向全球提供 LLama2。

原文链接：

https://www.infoq.com/news/2023/12/cloudflare-mlops-platform/

评论

发布

暂无评论

Filter for GO

《中国民用航空业零代码应用与推广白皮书》正式发布

在 K8S 中只会 CI 不会 CD ？3 种方式，让极狐GitLab 和 K8S 高效协同！

DevOps 云原生 k8s CI/CD 集成

Spring高手之路1——深入理解与实现IOC依赖查找与依赖注入

ioc 依赖注入 spring框架依赖查找 IOC面试题

AI绘图：艺术与科技的交融 | 社区征文

年中技术盘点

【有奖互动】开发者版本新特性，你期待哪些更新？#HDC.Together2023#

HarmonyOS开发者

阿里商旅账单系统架构设计实践

账单阿里商旅账单系统账单数据

你的极狐GitLab SaaS上开启这些设置了吗？代码安全，安心下班！

gitlab CI/CD DevSecOps 代码安全软件供应链安全

模糊测试公布结果，大众漏洞被曝光

网络安全模糊测试

AI 改变我们的工作方式 | 社区征文

宇宙之一粟

年中技术盘点

Nautilus Chain 主网上线，创世 ZBC 质押即将开启

前、后端通用的可视化逻辑编排

低代码逻辑编排低代码平台可视化编排可视化开发

第四届“先导杯”全国挑战赛正式开赛百万奖金等你来拿

英特尔携钉钉及新华三以创新解决方案变革未来远程协作体验

英特尔x MAXHUB:以创新解决方案掀起“智能协作”新浪潮

如何理解小程序插件？微信及支付宝官方详解

没有用户名丶

如何用极狐GitLab 为 Android App 创建自动化CI/CD？详细教程来了

自动化 CI/CD Android; keystore fastlane

Docker 镜像的导出与导入

Docker save load

掌控MySQL并发：深度解析锁机制与并发控制

表锁 MySQL并发控制隐式锁插入意向锁行锁

Spring高手之路2——深入理解注解驱动配置与XML配置的融合与区别

XML配置 spring框架注解驱动配置组件注册组件扫描

Python爬虫超详细讲解（零基础入门，老年人都看的懂）

开源直播源码平台处理卡顿问题技巧方案_山东布谷科技创作

山东布谷科技

开源软件开发直播源码搭建直播源码

一文讲透 Redis 事务（事务模式 VS Lua 脚本）

不在线第一只蜗牛

Lua脚本 redis 底层原理 Redis 可视化工具

《APaaS应用实施方法论》电子书正式发布

AI与HPC融合，未来会朝什么方向发展 | 社区征文

年中技术盘点