写点什么

你不是谷歌或脸书,如何建立机器学习团队?

  • 2018-11-26
  • 本文字数:2202 字

    阅读完需:约 7 分钟

你不是谷歌或脸书,如何建立机器学习团队?

AI 前线导读:

最近,各种规模、各种行业的公司的朋友都问我同样的问题,“我如何将机器学习应用于我的业务?”这些人都认识到,机器学习有很合适的应用场景。但是,每个人都在让机器学习发挥作用、雇佣员工、获得成功方面陷入了困境。根据业务规模,我将介绍三种分别适用于小型团队、中型团队和大型公司的方法。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)


最近,各种规模、各种行业的公司的朋友都问我同样的问题,“我如何将机器学习应用于我的业务?”这些人都认识到,机器学习有很合适的应用场景。但是,每个人都在让机器学习发挥作用、雇佣员工、获得成功方面陷入了困境。


根据业务规模,我将介绍我的三种主要方法。

小型团队

这些是我对处于早期阶段的公司或非营利组织提出的关于机器学习应用场景的建议。对于一家规模小、没有资金或资金不足的公司来说,在内部获得机器学习的专业知识感觉是不可能的。好消息是,许多 ML 从业者对这种工作感到兴奋。寻找关心公司使命的人。在这种规模下,你将依赖 ML 从业者来实现从数据收集、清理到部署的所有端到端的一切。实际的机器学习部分几乎可以肯定是非常小的。


雇佣一个在工程和数据方面都比较擅长的人绝对是最好的选择。一个经验丰富的工程师,如果他回到学校,或者做过一些机器学习方面的线上工作,那么他就能很好地发挥作用,因为他的目标不是完美,而是让一个系统完成端到端的工作,然后慢慢地优化所有的步骤。我要找一份简历,上面写着参加过一些 Kaggle 竞赛或自主项目。在面试中,我要找的是既思想开放又务实的候选人。在构建和测试一个模型之前,想要把一种模型应用于所有事情的研究人员或者想要花费几个月的时间来优化数据管道的研究人员都不太适合。

中型团队

当我在一家正在成长的初创企业或中型企业中组建团队,而他们对多种机器学习应用程序感兴趣时,我采取了一种略有不同的方法。与谷歌不同,你雇不起这么多研究人员。你负担不起让机器学习专家撰写研究论文的费用。这里的关键是雇佣一个非常优秀的机器学习研究人员,并为他们配备数据工程师,使他们非常有生产力。找一个有良好背景和记录的人,确保人们愿意和他们一起工作。像使用宝贵的资源一样使用他们——不要让他们编写代码——让工程师围绕在他们周围,从他们那里学习,并让他们教工程师如何进行机器学习。


有些公司会建立一个实用的机器学习小组,有些公司会将机器学习包含到团队中。许多人对此有强烈的看法,但我是务实的,我看到过,两种组织结构都可以奏效。单独的机器学习团队可以真正地帮助人才,这往往是最大的瓶颈。在这种方法中,你需要谨慎管理团队,以确保他们正在为组织处理最重要的任务。把机器学习的专业知识分散到整个组织中,可以使实际的机器学习专家感到高兴,因为他们更接近最终用户,但那会增加招聘的难度。


雇佣更多的机器学习工程师,而不是机器学习科学家,并让他们配合工作,这至关重要。机器学习团队使用他们的算法进行优化的事情经常与业务需求有根本的不同。如果没有一个可工作的端到端系统,这种失调可能会持续数月而无法发现。另一个常见的问题是训练数据需要修改或更新,但直到训练和部署算法时才发现。由于这些原因,在迭代端到端的系统之前,让端到端系统尽可能快地运行起来至关重要。

大型公司

在与许多大型公司的合作中,我一次又一次地看到同样的错误。在这个范围内,一家公司可以雇佣高质量的 ML 人才,但却没有足够的预算与行业巨头竞争。


Facebook 和谷歌的精英团队正在使用标准的开源模型和架构。最近,我与许多《财富》500 强的企业进行了交谈,他们正在构建自己的神经网络体系结构,但没有测试是否有必要这样做。机器学习研究人员喜欢做研究,而管理者欺骗了自己,让自己认为研究人员正在构建有价值的知识产权。他们不是。他们浪费了大量的时间来重新发明轮子,而这些时间最好花在最新的、最前沿的模型上。在复杂度上,最好从最简单、最标准的东西和层面开始。每一个额外的部分都会对算法的性能产生重大影响


大公司应该避免建立自己的机器学习基础设施。与我交谈过的几乎每家科技公司都在建立自己的机器学习库,而且他们的团队对这方面的工作非常有热情。这种趋势让我想起了 2005 年,一些公司构建了自己的 Web 应用程序框架,在难以标准化的定制平台上进行开发。当时已经有良好的基础设施,而且一直在改善。与构建和维护定制基础设施相比,使用开源工具要更可持续。


大型公司应该培训他们的工程师做机器学习。工程师们非常渴望学习机器学习,现代基础设施工具使机器学习变得越来越简单。在这一点上,我认为,与教机器学习实践者如何成为一个好的工程师相比,教一个工程师机器学习更有效。无论如何,经过一些机器学习训练的工程师在很多方面都可以发挥作用。有些公司正在这样做,但我很惊讶,更多的公司没有意识到这一点。

值得吗?

雇佣 ML 团队的成本很高,而且工作量很大。有些公司雇了一个 ML 团队来吸引投资者——这永远不会有好结果。不管你的规模有多大,如果你没有一个清晰的机器学习应用,你会后悔你的投资。要问自己几个关键问题:


  1. 我有需要机器学习来解决的问题吗?(关于这一点,我有一个视频。)

  2. 我能够标注或收集相关的训练数据吗?

  3. 我要解决的问题对于业务而言很关键吗?


如果所有这些问题的答案都是“是”,那么你已经做好了成功的准备。


查看英文原文:https://www.wandb.com/blog/how-to-build-a-machine-learning-team-when-you-are-not-google-or-facebook



2018-11-26 14:321430
用户头像

发布了 1008 篇内容, 共 401.8 次阅读, 收获喜欢 345 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

AIOps

星际行者

Java Web(七)Request&Response

浅辄

javaWeb Request Response 11月月更

TSDB助力风电监控

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

【设计模式】以国足的例子来解释代理模式,希望自己不要被退钱

游坦之

设计模式 11月月更

架构误区系列2:exactly once的消息中间件不需要考虑消息重投

agnostic

消息中间件

探知数字化研发2 - 企业架构篇

薛飞

研发管理 数字化 企业构架

动态路由协议二

初学者

动态路由 11月月更

数据预处理和特征工程-数据预处理-特征选择-方差过滤

烧灯续昼2002

Python 机器学习 算法 sklearn 11月月更

Zebec Chain有望成为公链赛道新兴生力军,地平线计划持续进击

鳄鱼视界

Pod 运行时调试

星际行者

SQL语句对基本表的修改表结构和数据完整性

乔乔

11月月更

Testbench 的编写与应用

芯动大师

Verilog 11月月更 testbench

混沌工程

星际行者

对苹果产品一个非常好的评价

星际行者

Java Web(六)Servlet

浅辄

javaWeb Servlet 11月月更

万万没想到,除了香农计划,Python3.11竟还有这么多性能提升!

Python猫

Python

功能强大的开源网络监控工具:LibreNMS,牛逼!

wljslmz

网络监控 11月月更 LibreNMS

混沌工程实践

星际行者

算法题学习---链表中倒数最后k个结点

桑榆

算法题 11月月更

深入理解客户端篇之OkHttp

邱学喆

websocket 任务调度 连接池 OkHttp3

综合实验 配置三层 热备 生成树 ospf 和 rip 以及他们之间的重分发等将内网 全通

初学者

网络 11月月更

2022-11-12:以下rust语言代码中,结构体S实现了crate::T1::T2的方法,如何获取方法列表?以下代码应该返回[“m1“,“m2“,“m5“],顺序不限。m3是S的方法,但并不属于c

福大大架构师每日一题

rust 福大大

为什么大家都喜欢使用宝塔面板?

源字节1号

微信小程序 软件开发

【C语言】enum 枚举类型

謓泽

11月月更

【愚公系列】2022年11月 微信小程序-app.json配置属性之debug

愚公搬代码

11月月更

常见的数据指标体系

穿过生命散发芬芳

数据指标 11月月更

API安全问题的原因及挑战

阿泽🧸

API 11月月更

阿里CTO程立:只有全面Serverless化才能实现真正的深度用云

Geek_2d6073

灰度发布设计

星际行者

透过Net5.5G的棱镜,运营商可以见未来,见机遇

脑极体

支持日均亿级交易处理,腾讯云&金蝶“国产数据库联合解决方案”正式发布

科技热闻

你不是谷歌或脸书,如何建立机器学习团队?_文化 & 方法_Lukas Biewald_InfoQ精选文章