写点什么

不要再让数据科学家管理 Kubernetes 集群了

  • 2020-02-21
  • 本文字数:2143 字

    阅读完需:约 7 分钟

不要再让数据科学家管理Kubernetes集群了

本文内容基于我对机器学习团队的观察,而不是对该行业的学术调查。我是Cortex的贡献者,这是一个用于在生产环境中部署模型的开源平台。生产级机器学习有一个组织性的问题,这是因为它相对还比较新。虽然更成熟的领域(例如 Web 开发)经过几十年的发展已经有了最佳实践,但是生产级机器学习还没有。如果我们希望未来以 ML 为基础的软件真正普及开来,那么消除基础设施瓶颈就至关重要——要做到这一点,我们需要将其真正的专门化,让数据科学家专注于数据科学。


本文最初发布于 Towards Data Science 博客,经原作者授权由 InfoQ 中文站翻译并分享。


声明:以下内容基于我对机器学习团队的观察,而不是对该行业的学术调查。我的背景:我是Cortex的贡献者,这是一个用于在生产环境中部署模型的开源平台。


生产级机器学习有一个组织性的问题,这是因为它相对还比较新。虽然更成熟的领域(例如 Web 开发)经过几十年的发展已经有了最佳实践,但是生产级机器学习还没有。


举个例子,假设你的任务是为你所在的初创公司组建一个产品工程组织,而这家公司是一个开发 Web 应用程序的公司。即使你没有组建团队的经验,你也可以找到成千上万的文章和书籍,它们会告诉你这个工程组织应该采用什么结构以及如何发展。


现在想象一下,你在一家刚刚开始涉足机器学习的公司。你已经聘请了一名数据科学家来领导最初的工作,结果也不错。随着机器学习在产品中的应用越来越深入,随着数据科学家的职责迅速增加,机器学习团队显然需要发展壮大。


在这种情况下,并没有那么多关于如何构建一个生产级机器学习团队的文章和书籍。


这不是一个不常见的场景,经常出现的情况是,机器学习组织的新职责—特别是基础设施—被分配给了数据科学家。


这是个错误。

机器学习和机器学习基础设施的区别

在这一点上,平台和产品工程师的区别已经很好理解了。类似地,数据分析师和数据工程师显然是不同的角色。


许多公司的机器学习仍然缺乏这种专业化。


了解机器学习和机器学习基础设施之间的区别很重要,这有助于了解它们所需的工作和工具。


为了设计和训练新模型,数据科学家需要:


  • 把时间花在 Notebook、分析数据、做实验上。

  • 考虑类似数据保健和为数据集选择正确的模型架构这样的问题。

  • 使用 Python、R、Swift 或 Julia 等编程语言。

  • 对像 PyTorch 或 TensorFlow 这样的机器学习框架有自己的见解。


换句话说,他们的职责、技能和工具将围绕着操纵数据开发模型,他们的最终输出将是可以提供最准确预测的模型。


基础设施方面则完全不同。


将模型投入生产应用的一种常见方法是将其作为微服务部署到云中。要将模型部署为生产用 API,工程师需要:


  • 在配置文件、终端和云提供商的控制台之间分配他们的时间,设法优化稳定性、延迟和成本。

  • 考虑实例的自动扩展、在 API 不崩溃的情况下更新模型以及在 GPU 上提供推断服务等问题。

  • 使用 Docker、Kubernetes、Istio、Flask 等工具,以及他们的云提供商提供的任何服务/API。


关于机器学习和机器学习基础设施方面的工作,下面是一个简单的可视化:



机器学习 vs 机器学习基础设施


直观地说,数据科学家应该处理左边的圆,而不是右边的圆,这是有道理的。


让非专业人员管理基础设施有什么问题吗?


我们不妨做个假设。假设你必须指派某人来管理你的机器学习基础设施,但是你又不想让某人全职参与其中。你只有两个选择:


  • 一个是数据科学家,因为他们熟悉机器学习。

  • 一个是 DevOps 工程师,因为他们熟悉一般的基础设施。


这两种选择都有问题。


首先,数据科学家应该尽可能多的把时间花在他们最擅长的数据科学上。当然,这并不是说学习基础设施超出了他们的工作范围,只是基础设施和数据科学都是全职工作,将数据科学家的时间分配到这两项工作中会降低产出的质量。


其次,你的组织需要专门负责机器学习基础设施的人员。在生产环境中提供模型服务不同于托管 Web 应用程序。你需要一个专门的人来担任此角色,他可以在组织中倡导机器学习基础设施。


这种倡导是至关重要的。我了解了很多机器学习组织,你会惊讶地发现,他们的瓶颈往往不是来自技术性挑战,而是来自组织性挑战。


例如,我曾见过需要使用 GPU 进行推理的机器学习团队——像GPT-2这样的大型模型基本上都要求合理的延迟时间——但他们却无法获得 GPU,因为他们的基础设施是由更广泛的 DevOps 团队管理的,而这些团队不想让自己承担成本。


有专人致力于你的机器学习基础设施,意味着你不仅有一个不断改进基础设施的团队成员,还意味着你有一个能够满足你的团队需求的倡导者。

那么谁应该管理基础设施?

机器学习基础设施工程师。


现在,不要对这种官方的头衔有异议,要知道,机器学习还处于初级阶段,在头衔问题上,它还属于“狂野的西部”。不同的公司可能会有不同的叫法:


  • 机器学习基础设施工程师

  • 数据科学平台工程师

  • ML 生产工程师


我们已经可以看到成熟的机器学习组织招聘这个职位,包括 Spotify:



还有 Netflix:



随着诸如 Gmail 的 Smart Compose、Uber 的 ETA 预测和 Netflix 的内容推荐等基于 ML 的功能在软件中的应用越来越普遍,机器学习基础设施变得越来越重要。


如果我们希望未来以 ML 为基础的软件真正普及开来,那么消除基础设施瓶颈就至关重要——要做到这一点,我们需要将其真正的专门化,让数据科学家专注于数据科学。


英文原文:Stop making data scientists manage Kubernetes clusters


2020-02-21 08:001416

评论

发布
暂无评论
发现更多内容

HarmonyOS :自定义组件 @BuilderParam 中 this 作用域填坑小记

李小轰

HarmonyOS NEXT

ClkLog基于ClickHouse 的百万日活实测报告

ClkLog

测试 数据采集 sdk 用户分析 开源软件

HarmonyOS :自定义弹窗(CustomDialog)的解耦实践

李小轰

HarmonyOS NEXT

Domino 流计算快速上手 - 2. 聚集

YMatrix 超融合数据库

数据库 数据仓库 流计算 超融合数据库

亚洲唯一!华为云入选Gartner®云应用平台魔力象限

平平无奇爱好科技

商业开源的最佳起步实践 PPT 分享中|QCon・北京站圆满落幕

Greptime 格睿科技

数据库 AI 云原生 活动

模拟器快速上手,助力HarmonyOS应用/服务高效开发

白晓明

HarmonyOS 模拟器 HarmonyOS NEXT

记一起 TiFlash 副本同步被卡住的问题

TiDB 社区干货传送门

管理与运维 7.x 实践

实战丨证券 HTAP 混合业务场景的难点问题应对

TiDB 社区干货传送门

TiDB 优化器丨执行计划和 SQL 算子解读最佳实践

TiDB 社区干货传送门

IPQ4019 vs. IPQ8074: Pros and Cons for Building Stable Networks

wallyslilly

IPQ4019 IPQ8074

HarmonyOS :基于 emitter 封装了一个便捷的 EventBus 事件通知

李小轰

HarmonyOS NEXT

HarmonyOS :适配折叠屏展开与收起,实现单屏与双屏UI的无缝切换

李小轰

HarmonyOS NEXT

TIDB 利用follower 角色实现读写分离

TiDB 社区干货传送门

【解锁】华为云全栈可观测平台——9月10月新功能特性

平平无奇爱好科技

HarmonyOS UI动态化:探索自定义组件的创建与实时更新技术

李小轰

HarmonyOS NEXT

50万奖金池等你来战! 第二届OpenHarmony创新应用挑战赛再度起航

科技热闻

V7.5.3安装tidb ipv6集群(redhat 7.9)

TiDB 社区干货传送门

管理与运维 安装 & 部署 7.x 实践

HarmonyOS :面向对象式网络请求库,我发布的第一个鸿蒙三方库

李小轰

HarmonyOS NEXT

HarmonyOS :扩展修饰器,实现节流、防抖、权限申请

李小轰

HarmonyOS NEXT

探索HarmonyOS:一键掌握Router与NavPathStatck的传参和页面回调技巧

李小轰

HarmonyOS NEXT

TiDB 无统计信息时执行计划如何生成

TiDB 社区干货传送门

管理与运维 TiDB 源码解读

和鲸科技创始人&CEO范向伟出席首届工业智算产业发展研讨会,共话 AI 创新与产业化落地

ModelWhale

人工智能 大数据 AI R语言

HarmonyOS :ArkUI `动态组件` 与`组件工厂` 的最佳封装策略

李小轰

HarmonyOS NEXT

内存分配 Allocstall 导致 SQL 抖动的分析

TiDB 社区干货传送门

管理与运维 故障排查/诊断

租用 4090 算力云电脑,这些性能指标需关注!

Finovy Cloud

云桌面 显卡 云电脑

华为云软件开发生产线(CodeArts)10月新功能特性

平平无奇爱好科技

和鲸气象联合解决方案闪耀亮相第29届联合国气候变化大会(COP29)

ModelWhale

人工智能 AI R 语言 气候 COP29

人工智能与人类合作:未来工作模式的新探索

天津汇柏科技有限公司

AI人工智能

汽车摆臂行业数字化转型方案及MES系统具体功能介绍

万界星空科技

汽车 mes 汽车零部件mes 汽车摆臂行业 汽车摆臂mes

基于 AutoFlow 快速搭建基于 TiDB 向量能力的本地知识库问答机器人

TiDB 社区干货传送门

8.x 实践

不要再让数据科学家管理Kubernetes集群了_AI&大模型_Caleb Kaiser_InfoQ精选文章