AICon议程上新60%,阿里国际、360智脑、科大讯飞、蔚来汽车分享大模型探索与实践 了解详情
写点什么

你不是谷歌或脸书,如何建立机器学习团队?

  • 2018-11-26
  • 本文字数:2202 字

    阅读完需:约 7 分钟

你不是谷歌或脸书,如何建立机器学习团队?

AI 前线导读:

最近,各种规模、各种行业的公司的朋友都问我同样的问题,“我如何将机器学习应用于我的业务?”这些人都认识到,机器学习有很合适的应用场景。但是,每个人都在让机器学习发挥作用、雇佣员工、获得成功方面陷入了困境。根据业务规模,我将介绍三种分别适用于小型团队、中型团队和大型公司的方法。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)


最近,各种规模、各种行业的公司的朋友都问我同样的问题,“我如何将机器学习应用于我的业务?”这些人都认识到,机器学习有很合适的应用场景。但是,每个人都在让机器学习发挥作用、雇佣员工、获得成功方面陷入了困境。


根据业务规模,我将介绍我的三种主要方法。

小型团队

这些是我对处于早期阶段的公司或非营利组织提出的关于机器学习应用场景的建议。对于一家规模小、没有资金或资金不足的公司来说,在内部获得机器学习的专业知识感觉是不可能的。好消息是,许多 ML 从业者对这种工作感到兴奋。寻找关心公司使命的人。在这种规模下,你将依赖 ML 从业者来实现从数据收集、清理到部署的所有端到端的一切。实际的机器学习部分几乎可以肯定是非常小的。


雇佣一个在工程和数据方面都比较擅长的人绝对是最好的选择。一个经验丰富的工程师,如果他回到学校,或者做过一些机器学习方面的线上工作,那么他就能很好地发挥作用,因为他的目标不是完美,而是让一个系统完成端到端的工作,然后慢慢地优化所有的步骤。我要找一份简历,上面写着参加过一些 Kaggle 竞赛或自主项目。在面试中,我要找的是既思想开放又务实的候选人。在构建和测试一个模型之前,想要把一种模型应用于所有事情的研究人员或者想要花费几个月的时间来优化数据管道的研究人员都不太适合。

中型团队

当我在一家正在成长的初创企业或中型企业中组建团队,而他们对多种机器学习应用程序感兴趣时,我采取了一种略有不同的方法。与谷歌不同,你雇不起这么多研究人员。你负担不起让机器学习专家撰写研究论文的费用。这里的关键是雇佣一个非常优秀的机器学习研究人员,并为他们配备数据工程师,使他们非常有生产力。找一个有良好背景和记录的人,确保人们愿意和他们一起工作。像使用宝贵的资源一样使用他们——不要让他们编写代码——让工程师围绕在他们周围,从他们那里学习,并让他们教工程师如何进行机器学习。


有些公司会建立一个实用的机器学习小组,有些公司会将机器学习包含到团队中。许多人对此有强烈的看法,但我是务实的,我看到过,两种组织结构都可以奏效。单独的机器学习团队可以真正地帮助人才,这往往是最大的瓶颈。在这种方法中,你需要谨慎管理团队,以确保他们正在为组织处理最重要的任务。把机器学习的专业知识分散到整个组织中,可以使实际的机器学习专家感到高兴,因为他们更接近最终用户,但那会增加招聘的难度。


雇佣更多的机器学习工程师,而不是机器学习科学家,并让他们配合工作,这至关重要。机器学习团队使用他们的算法进行优化的事情经常与业务需求有根本的不同。如果没有一个可工作的端到端系统,这种失调可能会持续数月而无法发现。另一个常见的问题是训练数据需要修改或更新,但直到训练和部署算法时才发现。由于这些原因,在迭代端到端的系统之前,让端到端系统尽可能快地运行起来至关重要。

大型公司

在与许多大型公司的合作中,我一次又一次地看到同样的错误。在这个范围内,一家公司可以雇佣高质量的 ML 人才,但却没有足够的预算与行业巨头竞争。


Facebook 和谷歌的精英团队正在使用标准的开源模型和架构。最近,我与许多《财富》500 强的企业进行了交谈,他们正在构建自己的神经网络体系结构,但没有测试是否有必要这样做。机器学习研究人员喜欢做研究,而管理者欺骗了自己,让自己认为研究人员正在构建有价值的知识产权。他们不是。他们浪费了大量的时间来重新发明轮子,而这些时间最好花在最新的、最前沿的模型上。在复杂度上,最好从最简单、最标准的东西和层面开始。每一个额外的部分都会对算法的性能产生重大影响


大公司应该避免建立自己的机器学习基础设施。与我交谈过的几乎每家科技公司都在建立自己的机器学习库,而且他们的团队对这方面的工作非常有热情。这种趋势让我想起了 2005 年,一些公司构建了自己的 Web 应用程序框架,在难以标准化的定制平台上进行开发。当时已经有良好的基础设施,而且一直在改善。与构建和维护定制基础设施相比,使用开源工具要更可持续。


大型公司应该培训他们的工程师做机器学习。工程师们非常渴望学习机器学习,现代基础设施工具使机器学习变得越来越简单。在这一点上,我认为,与教机器学习实践者如何成为一个好的工程师相比,教一个工程师机器学习更有效。无论如何,经过一些机器学习训练的工程师在很多方面都可以发挥作用。有些公司正在这样做,但我很惊讶,更多的公司没有意识到这一点。

值得吗?

雇佣 ML 团队的成本很高,而且工作量很大。有些公司雇了一个 ML 团队来吸引投资者——这永远不会有好结果。不管你的规模有多大,如果你没有一个清晰的机器学习应用,你会后悔你的投资。要问自己几个关键问题:


  1. 我有需要机器学习来解决的问题吗?(关于这一点,我有一个视频。)

  2. 我能够标注或收集相关的训练数据吗?

  3. 我要解决的问题对于业务而言很关键吗?


如果所有这些问题的答案都是“是”,那么你已经做好了成功的准备。


查看英文原文:https://www.wandb.com/blog/how-to-build-a-machine-learning-team-when-you-are-not-google-or-facebook



2018-11-26 14:321382
用户头像

发布了 1008 篇内容, 共 389.1 次阅读, 收获喜欢 344 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

华为云数据库GaussDB(for Redis),如何为人们日常生活保驾护航

科技怪授

数据库

华为云CDN引领网站性能优化,助力企业更好发展

科技怪授

CDN

10月15日 Apache IoTDB & SeaTunnel 联合 Meetup | 讲座回顾

Apache IoTDB

深入思考 Schema 管理的几个基本问题

观远数据

华为云大数据解决方案赋能金融行业发展,打造5G智慧银行营业厅

IT科技苏辞

闲话 dubbogo 社区

阿里巴巴中间件

阿里云 云原生 dubbo

还在高投入自建物联网平台?教你如何节省三分之二成本——实践类

阿里云AIoT

安全 物联网 物联网安全 技术标签

教你3步完成阿里云物联网平台公共实例到企业实例的迁移——实践类

阿里云AIoT

安全 物联网 物联网安全 技术标签

软件测试/测试开发 | Jenkins 多任务关联

测试人

软件测试 持续集成 jenkins 自动化测试 测试开发

Vue基础知识和案例展示

Geek_7ubdnf

Vue

万字技术干货 |YMatrix 高性能时序数据库引擎的技术实践

YMatrix 超融合数据库

性能优化 Clickhouse 时序数据 超融合数据库 YMatrix

嗨 Jina,帮我画一幅高山流水图

Jina AI

图像生成 Diffusion

使用 WebP 图像加速WEB加载

devpoint

Web 前端开发 网站优化 WebP

ScrollView(滚动条)

梦笔生花

android ScrollView(滚动条) 滚动效果

拿下中国信通院多项测评的华为云数据库,究竟有多牛?

与时俱进的时代

看这篇就够了丨基于Calcite框架的SQL语法扩展探索

袋鼠云数栈

今年大促季,阿里云容器服务有哪些技术和应用新突破?

阿里巴巴中间件

阿里云 容器 云原生

一文读懂Go Http Server原理

捉虫大师

Go HTTP 1月月更

华为云大数据赋能北港集团发展创新,数字化转型成效显著!

IT科技苏辞

雄关漫道真如铁,而今迈步从头越 | 挥别2022,再战2023!

BoCloud博云

博云

Frp流量隐匿对抗排查

领创集团Advance Intelligence Group

内网渗透 Frp 流量编排

EfficientFormer 提升速度的同时保持性能,使 ViT 在移动端成为可能

Zilliz

企业优秀网络环境,为何离不开华为云CDN全站加速服务?

科技怪授

CDN

pip安装报错:No such file or directory 'conda-forge' 没有那个文件或目录 'conda-forge'

Geek_7ubdnf

Python

扩展接口SmartInstantiationAwareBeanPostProcessor解析

石臻臻的杂货铺

接口

EMQX在Kubernetes中如何进行优雅升级

EMQ映云科技

运维 物联网 IoT 节点 企业号 1 月 PK 榜

华为云数字化解决方案激活企业市场空间,为企业稳健发展再加码!

IT科技苏辞

dcm4che 依赖下载异常

JefferLiu

TensorBoard的使用

Geek_7ubdnf

tensorflow

MobaXterm链接linux虚拟机报错Network error: Connection refused

Geek_7ubdnf

mobaxterm

浪潮云分布式云ICP加速千行百业羽化创新

云计算

你不是谷歌或脸书,如何建立机器学习团队?_文化 & 方法_Lukas Biewald_InfoQ精选文章