写点什么

想留住人才?先要管理好数据科学团队

  • 2019-08-30
  • 本文字数:5187 字

    阅读完需:约 17 分钟

想留住人才?先要管理好数据科学团队

本文最初发布于 Domino 官方博客,经原作者授权由 InfoQ 中文站翻译并分享。


不管在什么地方做一名管理者,都不是一件易事,但管理一支数据科学团队的话,可能就特别富有挑战性了。角色仍然不断变化,加之人员流动率居高不下,公司正在寻找团队运作的最佳实践方式。而成为一名技术专家,却未必能让你为管理他人做好准备。


无论你现在是在管理一支数据科学团队,还是准备启动一支数据科学团队,亦或者希望将来能够成立一支数据科学团队,本指南将使你成为企业中更好的数据科学团队管理者。

如何聘用和留住数据科学家

在最近举行的数据科学领袖 Rev 峰会上的小组讨论中,三位专家分享了他们有关聘用、留住和培养数据科学人才的建议。


他们的建议总结如下。

来自数据科学管理者的建议

首先,招募领导者

如果你从初级员工或刚从学术界毕业的人开始,没有导师指导的话,他们很有可能会感到迷茫和沮丧。ShopRunner 的数据科学高级总监 Michelangelo D’Agostino 建议,首先要安排一个更有经验的人来带领团队。

谨慎甄选管理者

不要只关注技术人才和经验。小组成员一致认为,谦逊、好奇心以及倾听和接受反馈的能力,是担任高级职位的关键特征。D’Agostino 说:“即将负责的人必须清楚,他们并没有所有的好主意或者答案。”他建议,让未来的员工描述他们失败的情况,听听他们将如何避免重蹈覆辙,以此来衡量他们自我反省的能力。

反思数据挑战

鉴于竞争激烈的招聘环境,繁重的开卷考试可以筛选出合格的求职者,要营造出一种紧张的考试氛围。Insight Data Science 的首席数据科学家 Patrick Phelps 表示,其实无需这些挑战就能招到优秀员工。“这真的很难衡量……并且评分需要很长的时间,”他说,“我宁愿让一名优秀的数据科学家和我的团队在一个房间里呆上一个小时。”如果确实包含挑战的话,D’Agostino 建议,让求职者在办公室完成一次编码练习,并像在非正式的代码审查中进行讨论。

数据科学家的招聘和入职计划

这个招聘和入职计划模板通过关键问题来帮助团队寻找和培训新的数据科学家。计划模板包括吸引顶尖人才、招聘流程、入职、留任等关键问题。


通过采取系统的方法,数据科学领导者将最大限度发现并培养一个团队,这个团队要大于团队组成部分的总和。


可以下载这份招聘计划的 PDF 版本,便于打印。

吸引顶尖人才

  • 你对候选数据科学家的不同价值主张是什么?列出三个独一无二的事情,你认为这些事情能让你与目标候选人群产生共鸣。在小组中测试你的演讲,获取反馈。

  • 有哪些 1~3 级风险,可能会让机会不如竞争机会那般有吸引力?你如何减轻或者超越它们呢?

招聘过程

  • 你的应聘者最重要的三个特征是什么?

  • 你对每个人的评估计划是什么?

入职

  • 在最初的 30 天、60 天和 90 天内需要完成哪些活动和成果?

  • 你的新员工需要知道的最重要的“部落知识”是什么?她 / 他将如何学习这些知识?例子包括数据源、项目方法、利益相关者动态、显著的得失等。

留任和管理

  • 你希望应聘者在一年内发展什么技能?

  • 一年后,哪些指标将决定该应聘者是否成功?例子包括某些业务指标、社区贡献、生成的见解数目或项目迭代速度。

留住你的人才

  • 不要过分夸大这个角色。约有半数的数据科学家在他们的岗位上不超过两年。Domino 的客户成功经理 Conor Jensen 建议,为了降低人员流动率,要诚实地告诉应聘者你正在招聘的职位的具体情况。“要非常现实地知晓关于角色的定位,痛苦将会是什么,你认为影响会在哪里,以及时间线是什么样的。”他说,“很多时候,我们对作为数据科学家将要完成的事情感到亢奋,而且我们可以领先一步。”

  • 了解团队成员的动机。 Jensen 建议花点时间去发现每个员工的目标、兴趣和个人激励。然后你可以将它们与奖励项目配对,并以一种有意义的方式来认可他们的成就。

  • 提供支持。 Phelps 说:“数据科学可能是一门失败的学科:模型失败、流程失败、数据源变得糟糕透顶。”他建议提供积极的支持,并提醒团队成员,可能需要数年的时间才能看到影响。Jensen 还建议将问题分解成可控的小块,这样员工就不会被巨大的项目给吓破胆。

  • 创造学习机会。 D’Agostino 观察到,数据科学家经常因为感到无聊而辞职。如果核心项目不够前沿,他建议为团队成员创造学习新事物的机会,例如,每周一次午餐讨论最新的研究成果,或者偶尔举办黑客马拉松来测试新的软件框架和计算技术。

成功数据科学管理者的习惯

以下是我们在许多成功的数据科学管理者身上观察到的七个习惯,没有特定的顺序。


  1. 与其他利益相关者建立联系。 通过打开与其他团队的沟通渠道,避免摩擦和交叉。在每个新项目开始之前,考虑让数据科学家和产品经理在一个房间呆上一个小时,以确保他们达成共识。让数据科学家不带笔记本电脑参加会议,可以迫使他们与其他利益相关者沟通。给数据科学家机会向工程师、产品经理和其他人解释他们的工作,也可以改善沟通。

  2. 跟踪性能。使用模板来跟踪你所讨论的内容、你所设定的目标,以及你在单独讨论会议中给出的反馈。依靠记忆是行不通的。

  3. 目标是将项目投入到生产中。准备团队部署他们自己的 API 服务并生成代码,可以帮助你更快地工作,并且,你还不会被可能无法使用的工程资源所阻塞。

  4. 开始随叫随到的轮换。随着团队规模的扩大,每周安排一次数据科学家随叫随到的轮换,以修复出现故障的模型。这样有助于更好地编制文档,并让那些没有安排随叫随到的人有时间专注于核心项目。

  5. 敢于问一些愚蠢的问题。看似简单的问题,可以为发现和解决基本问题打开大门。

  6. 活到老,学到老。 进行大量的阅读以跟上这个快速发展的领域的步伐。不仅要阅读技术材料,还要了解管理和组织心理学相关的知识。

  7. 放下,但不至于永远。 如果你是新任管理者,请考虑三到六个月放下编码的工作。否则,你可能永远不会真正接受管理者的角色转变,而且可能为团队提供的服务水平低下。成功进入角色之后,你就可以自由地处理那些非关键项目,或者那些没有人愿意做的事情。

知识管理

数据科学家经常对知识管理这一话题感到恐惧。有些人认为这是对他们从“真正的”工作中分散注意力;其他人并没有完全理解这意味着什么。甚至很多人看到这个概念的价值,也会觉得这个过程很痛苦。


但是,Point72 的首席市场情报官 Matthew Granade 和 Domino 数据实验室产品总监 Mac Steele 表示,知识管理能力将成为企业竞争优势的一个关键因素。在下面的视频中,他们两人阐述了为什么知识管理很重要,以及企业应该如何优先考虑知识管理。


数据科学团队的知识管理要点如下。

什么是知识管理?

知识管理的目标就是捕获洞察力,这可以定义为“更好的理解”。因此,洞察力是相对的:它是关于不断改进之前的想法。从 Einstein 到 Freud,洞察力往往被视为“孤独天才”的专利。事实上,大多数洞察力来自于与他人的合作和对现有想法的拓展。


创建这种“复合机器”需要一种获取知识的方法,一种供用户遵循的框架,以及通过反馈改进的机制。企业的未来将越来越多地取决于它们在这方面的表现。随着更多的算法和基础设施得到广泛的应用,数据科学人才库不断增长,数据共享需求不断扩大,捕获和增强独特洞察力的能力将成为一个关键的差异化因素。

为何知识管理如此困难?

知识管理的一些挑战困扰着每个行业:


  • 提前组织知识很困难。分类往往过于死板,因为你不知道将来什么才是重要的。

  • 几乎没有参与的动机。正如一位数据科学家所言,“我今年所做的工作是有报酬的,而不是维护我去年所做的工作。”

  • 这是一个典型的集体行动问题。没有人想成为第一个在文档上花费时间的人。当知识被捕获时,人们很难知道如何将其付诸行动。

  • 系统总是落后于现实。如果知识管理需要额外的时间,并且是在与核心工作不同的系统中进行的,那么它的质量势必会受到影响。


其他障碍则是数据科学团队独有的:


  • 人们使用不同的工具。当团队中一些成员使用 R 语言,而另一些成员使用 Python;当一些成员在 GitHub 中存储代码,而另一些人在电子邮件中存储代码时,知识管理就变得更加困难了。由于人员流动率较高,培训人员使用相同的系统就变成了一粧难事。

  • 单个项目的组成部分是分散的。制品和洞察力可以通过 Docker 商店、wiki、幻灯片演示等传播。

  • 如果你有代码,但这并不意味着你可以重新运行这段代码。对 600 篇计算机研究论文进行的元分析发现,只有 20% 的代码可以重新运行;其中,许多第二次尝试的结果略有不同。

如何提高知识管理水平

有四个步骤可以帮助数据科学领导者改进其企业组织中的知识管理水平:

1. 在一个地方尽可能多地获取知识。

里面的东西越多,你与它们之间的联系就越多,价值就以这种方式增长。你不希望人们在边缘工作。一个包含核心工作和知识管理的公共平台是确保完成工作并将负担最小化的关键。如果你不能捕捉一切,那就从最有价值的模型或知识开始,然后围绕它构建一个系统。


测试:分别询问贵司的五位数据科学家:“您认为这个团队现在正在做多少个项目?”他们可能会给出不同的答案。

2. 选择一个允许发现、来源、重用和模块化的知识管理系统。

发现: 数据科学家耗费大量时间来搜索信息,从而降低了工作效率。团队必须做出决定是采用管理知识(Yahoo 方法)还是索引知识(Google 方法)。当领域相对稳定时,内容管理就有意义了。当领域是流动的时候,索引和搜索是最好的方案,而且你也不可能事先知道分类法应该是什么样子的。


测试:让新员工来处理某个主题,并计算他们收集正确的制品需要多长时间。如果是几周或几个月的话,那就是个危险的信号。


来源: 让人们专注于知识管理的重要方面。使用一个平台,让人们可以综合他们的工作,而不必跟踪他们使用的软件版本。


测试:事先写下你认为团队成员应该花在文档上的时间百分比。然后问他们实际花了多长时间。这可能会让你感到大开眼界。


重用: 如果它不能运行,那么就不会被重用。这不仅需要访问代码,还需要访问数据集的历史版本。


测试:请新员工重现另一位数据科学六个月前所做的工作,最好是已经离开团队或组织的人。让他用最新的数据来更新它。如果这过程需要一周或一个月,那就麻烦了。


分解与模块化: 确保人们有动机和工具来创建可重用、构建的构件块。


测试:请两个从事过类似项目的团队进行事后分析,并确定重叠的工作。

3. 确定正确的知识单元

复合系统依赖于知识单元。在学术界中,这些都是书籍和论文;而在软件中,这些都是代码。在数据科学中,模型是组织的正确选择,因为它是数据科学家所做的事情。模型包括数据、代码、参数和结果。

4. 超越技术进行思考

人员和流程层面的变化也很重要。重新定义人们如何看待自己的工作:他们应该花更少的时间去做事,花更多的时间去整理和学习。在招聘和薪酬方面,要将合作放在首位。最后,虽然知识管理应该被视为每个人的工作,但一些组织为管理或促进知识创造了新的角色。

合作

以下三个视频提供了一系列关于数据科学家与企业内其他利益相关者之间合作的经验教训。

促进合作的内部实践

视频链接:

https://www.dominodatalab.com/resources/field-guide/managing-data-science-teams/?wvideo=f4vx20cf39

营造合作环境

视频链接:

https://www.dominodatalab.com/resources/field-guide/managing-data-science-teams/?wvideo=ommsdpxse7

如何影响公司变革

视频链接:

https://www.dominodatalab.com/resources/field-guide/managing-data-science-teams/?wvideo=zz4ifvz4jr

壮大数据科学团队

气候公司(The Climate Corporation)科学副总裁 Erik Andrejko 花了数年的时间关注这一问题,建立并发展多学科数据科学团队。


在下面的视频中,Erik 讨论了如何继续建设世界级的数据科学团队。他还讨论了数据科学的实践、组织的扩展以及数据科学项目的关键组成部分与最佳实践。


视频链接:

https://www.dominodatalab.com/resources/field-guide/managing-data-science-teams/?wvideo=nxv79gqolp

来自财富 500 强的经验教训

通过与从敏捷初创公司到财富 500 强等公司合作,我们已经能够策划这些组织的用例,并从这些组织中了解不断增长的数据科学团队所面临的挑战和成功。


在这段视频中,我们分享了其中的一些经验,包括:数据科学项目的目标、挑战、执行诊断、管理项目和系统,以及利用数据科学平台进行扩展。


视频链接:

https://www.dominodatalab.com/resources/field-guide/managing-data-science-teams/?wvideo=glml8q24a1

后续步骤

本指南涵盖了管理企业中数据科学团队的人力资源的各个环节:招聘和入职,扶持团队走向成功,培养正确的习惯,获取和管理知识,以及促进合作。现在,是时候让这些数据科学家需要做点什么了。了解如何在企业重管理数据科学项目。


作者介绍:


Domino Data Lab(Domino 数据实验室),提供了一个开放、统一的平台,可以大规模构建、验证、交付和监控模型。他们帮助客户接受模型管理,快速交付高影响力的模型,并使数据科学成为客户的竞争优势之一。Domino 是一个数据科学平台,使数据科学团队能够快速开发和部署推动突破性创新和竞争优势的模型。


原文链接:


Enterprise Data Science Field guide > Managing Data Science Teams


2019-08-30 14:2918258
用户头像

发布了 375 篇内容, 共 189.0 次阅读, 收获喜欢 945 次。

关注

评论 2 条评论

发布
用户头像
可当前中小公司不愿付出时间金钱留住这些人才
2019-09-02 09:19
回复
用户头像
虽然是国外的经验,但看起来这些经验也适用于国内。
2019-08-30 14:37
回复
没有更多了
发现更多内容

AlmaLinux安装OpenVINO

IT蜗壳-Tango

IT蜗壳 OpenVINO 11月日更

NodeJs深入浅出之旅:文件系统

空城机

大前端 Node 11月日更

元宇宙和当今最活跃的三家元宇宙平台

devpoint

以太坊 元宇宙 11月日更

JavaScript 的 parseInt() 函数

HoneyMoose

【LeetCode】K 个一组翻转链表Java题解

Albert

算法 LeetCode 11月日更

模块三-架构详细文档

🌾🌾🌾小麦🌾🌾🌾

架构实战营

大数据训练营一期1017作业

朱磊

去安定医院看失眠,有必要吗?

脑极体

云迹科技林小俊:商业服务机器人如何破局“低价+同质化”?

朋湖网

助力政企自动化自然生长,华为WeAutomate RPA是怎么做到的?

王吉伟频道

华为 RPA WeAutomate 政企 超自动化

对比 Apache Kafka 和 Apache Pulsar 创建工作队列

Apache Pulsar

kafka 分布式 中间件 Apache Pulsar 工作队列

零拷贝原理的文章网上满天飞,但你知道如何使用零拷贝吗?

中间件兴趣圈

Netty 零拷贝 11月日更

Apache Pulsar 与 Kafka 性能比较:延迟性(测试过程)

Apache Pulsar

kafka 分布式 云原生 消息中间件 Apache Pulsar 消息系统

飞桨中国行——企业服务专场

百度大脑

人工智能

当AI能够在15分钟内部署,世界距离大变革不远了

百度大脑

人工智能

javaScript基础篇之数组是怎样锻炼你的逻辑能力

你好bk

JavaScript 大前端 数组 数组合并

[Pulsar] 使用Proxy进行认证和鉴权

Zike Yang

Apache Pulsar 11月日更

如何优雅的获取 Mac OS 系统 IP 地址?

liuzhen007

11月日更

Moment.js 如何获得当前时间的零时时间

HoneyMoose

Android C++系列:Linux文件IO操作(一)

轻口味

c++ android jni 11月日更

Kafka 已落伍,转角遇见 Pulsar!

Apache Pulsar

kafka 架构 分布式 Apache Pulsar 消息系统

一个基于PoS共识算法的区块链实例解析(升级版)

Regan Yue

区块链 共识算法 Go 语言 11月日更

回收与价值赋能:动力电池的“退休”之旅

脑极体

2021最新Apache漏洞分析

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

Go语言,语法糖规则,可别掉入陷阱

微客鸟窝

Go 语言 11月日更

OceanBase 监控工具 OBAgent

OceanBase 数据库

数据库 开源 学习方法 分布式 oceanbase

Apache Pulsar 与 Kafka 性能比较:延迟性(测试结果)

Apache Pulsar

kafka 云原生 Apache Pulsar 消息 延迟性

开源数据库OceanBase源码解读(九):tableAPI和OB多模型

OceanBase 数据库

数据库 开源 oceanbase

从消息到数据湖:看 Apache RocketMQ、Hudi、Kyuubi 最新进展

阿里巴巴云原生

数据湖 Meetup Apache RocketMQ Apache Hudi Apache Kyuubi

.NET6新东西--隐式命名空间引用

喵叔

11月日更

Mysql事务的实现原理之Redo Log的分析

卢卡多多

Redo Log 11月日更

想留住人才?先要管理好数据科学团队_AI&大模型_Domino Data Lab_InfoQ精选文章