InfoQ Geekathon 大模型技术应用创新大赛 了解详情
写点什么

调研了 1400 多人后,我知道数据科学家到底赚多少钱了

  • 2020-11-28
  • 本文字数:3101 字

    阅读完需:约 10 分钟

调研了1400多人后,我知道数据科学家到底赚多少钱了

本文最初发表在 Towards Data Science 博客,InfoQ 中文站翻译并分享。


在本文,我将介绍一个人们在考虑从事数据科学职业时应该考虑的关键因素之一——薪酬。我在levels.fyi这家网站查阅了 1400 多份自我报告的薪酬水平,得出以下结论,仅供参考:


  • 第一份数据科学工作(0~3 年):16.7 万~18 万美元。

  • 中级职位(4~6 年):20.4 万~22 万美元。

  • 高级职位(7 年以上):24 万~26.5 万美元。



假如你对上面的内容感到满意,那就继续做你当天计划好的其他事情吧!但是,如果你有五分钟的空闲时间,我将回顾一下我从分解薪酬数据中发现的一些有趣的见解,以及对这个自我报告的数据集的一些注意事项。


我如何定义薪酬?


一般来说,数据科学家的薪酬包括三个关键部分:


  • 基薪:保证每月支付一到两次现金。通常是总薪酬的最大部分。

  • 股权:通常以 RSU(限制性股票)或期权的形式出现。对于更资深的数据科学家或处于早期阶段的初创公司来说,这可能是薪酬的很大一部分。

  • 奖金:既可以是签约奖金,也可以是绩效奖金(即每年发放一次,占工资的 10%)。


在本文中,我将薪酬 / 总薪酬定义为上述三个部分的总和。


我用哪个数据集?


我使用 levels.fyi 这个网站,这是一个收集用户报告的报酬的地方,它涵盖了科技界许多不同的职位。截至本文日期(2020 年 11 月),有 1400 个自我报告的数据点,我用来进行此项分析。下面的截图显示了与薪酬并列的数据类型——我们将在下面的章节中对每个类别进行更详细的分析。



在本文中,我使用 R 编程语言(源代码在这里)来收集并清理数据。我建议你自己去浏览一下这家网站,特别是如果你在本文发表几个月后才开始阅读的话!


这些职位在哪里?


在 1400 个自我报告的数据点中,有 90% 的职位都在美国境内。由于美国之外的职位的数据非常稀少,因此,本文只关注基于美国的职位


从地理位置来看,即使在美国境内,我们也会发现,有四分之三的职位集中在三个主要的科技中心:


1. 旧金山 / 硅谷(占 41%)


这一点也不奇怪,因为大多数大型科技公司的总部都在这里,或者是拥有一个大型办公室。Google、Facebook、Apple、Netflix 和 Uber 的总部都在这里。



2. 西雅图城市群(占 24%)


包括 Microsoft 和 Amazon,这两家公司在这里的自我报告中占了大多数。



3. 纽约(占 10%)


大多数大型科技公司在这里都会拥有一个相当大的办公室,因此纽约上榜也就不足为奇了。



如果我们想按各个城市来划分,我们可以看下图——除了主要的科技中心之外,我们还会看到几个主要的城市群。



我看的有哪些公司?


本节与上一节是相辅相成的。大公司在数据科学职位中占据了过高的比例,下面的数据也证实了这一点。此外,大多数公司都是科技公司——下面只有 Capital One、JPMorgan Chase 和 Booz Allen Hamilton 不是明确的科技公司。40% 的数据仅来自 6 家公司:Microsoft、Amazon、Facebook、Google、Apple 和 Uber



观察这些公司的另一个方法是看这些地方的雇员类型,以及他们所报告的薪酬。如果看一下这些公司的平均数据科学家,我们就能知道他们的年资以及薪酬水平情况。



上图中有一些有趣的标注:


  • 这两家拼车公司的薪酬与年资的比率相当可观。他们为有 3~4 年工作经验的数据科学家支付 25~28 万美元。

  • Netflix 支付给数据科学家的薪酬最高,有 5~6 年工作经验的数据科学家的薪酬的中位数为 43 万美元。

  • 各家公司最常见的数据科学家是有着 4~5 年工作经验,薪酬在 20 万~25 万美元的人。


薪酬如何随经验增加?


薪酬随着经验的增加而逐渐增加——下图讲述了整个故事,但要加以总结。


  • 第一份数据科学工作(0~3 年):总薪酬为 16.7 万~18 万美元。

  • 中级职位(4~6 年):总薪酬为 20.4 万~22 万美元。

  • 高级职位(7 年以上):总薪酬为 24 万~26.5 万美元。



为了在上述内容增加另一个维度,让我们只关注薪酬中位数及其每个组成部分。总的趋势是,随着数据科学家的经验越来越丰富,股权和奖金将成为他们薪酬方案中更大的组成部分



当然,上面的图表只有在基础数据上才具有说服力。下面,我们看到有多少人报告了每个年资分区的薪酬信息。这里的覆盖率相当广泛——对于一些最小的分区,我们有超过 50 个调查对象,而在大多数类别中,我们有超过 100 个。



有趣的事实:这里要指出的一个有趣的花絮是,数据科学是一个相对较新的职业道路,在大数据时代崭露头角。由于对数据素养的需求将比以往任何时候都更加重要,我很想知道,随着需求和供给的变化,在未来几年里,数据科学家的薪酬将会如何变化。



科技巨头的薪酬状况如何?


因此,我们已经讨论了薪酬与经验的关系,以及在这份榜单中占据主导地位的公司。下一个合乎逻辑的步骤是尝试比较这些关键公司的薪酬!


在谈论大型科技公司的薪酬之前,我想先谈谈薪酬水平。在科技公司,只有在级别的背景下谈论薪酬才有意义。级别是根据年资、面试表现以及之前的职位 / 教育程度来确定的。对于每一个级别,你都会有一套期望和一个薪酬范围


在 Facebook,他们的入门级数据科学职位是 IC3。从这个包含 11 个报告的数据集中,我们可以假设 Facebook 为一个以 IC3 身份入职的数据科学家支付了 14.4 万~19 万美元的总薪酬。



现在我们有了这个级别的概念,下图就是六大科技公司不同级别的比较。我认为这是整篇文章中最有趣的见解之一,因为我们可以利用可比年资,将各大公司的薪酬进行归一化。有两个关键标注:


  • 职位越高,薪酬的变数越大:如果我们看左下角,0~4 年经验的数据科学家的薪酬在各大科技公司都是比较标准的。在右上角,我们可以看到,拥有 9 年以上经验的数据科学家,在不同公司的薪酬上有更大的差异。

  • 最高级别的数据稀少:除了较高层次的薪酬变化较大外,在科技公司担任较高层次职务的人也较少。



这些数字看起来与我在其他地方看到的不一样


你可能是在阅读了其他几篇关于这个话题的文章之后,偶然发现了这篇文章。当我自己在 Google 上搜索时,我看到的薪酬范围相当大,从 8.5 万到 13 万美元不等。本文中的薪酬数字要更高一些,但原因如下:


  1. 总薪酬 > 薪酬:通常,其他资源只关注薪酬,而本文探讨的是总薪酬,其中还包括股权和奖金。特别是对于更高级的职位,股权可以是总薪酬中非常重要的一部分。

  2. 一个非常有偏见的数据集。这个数据集并不代表美国典型的数据科学家。该数据在几个方面存在偏见。(1) 这个数据所代表的公司严重偏向于科技巨头,他们愿意支付更多的薪酬。(2) 这些科技职位都集中在生活成本高的地区,用更高的薪酬来抵消更高的成本。例如,在旧金山的 10 万美金的薪酬和在达拉斯的 5.5 万美金的薪酬是差不多的。(3) 最后,了解 levels.fyi 网站并努力自我报告数据的人的类型可能与一般的数据科学家有所不同。这些人可能更注重职业发展或对薪酬感兴趣,因此这可能与高收入者相关。

  3. 自我报告数据:如果自我报告,人们总是会夸大他们的薪酬。但是,在本文中,我们主要关注中位数,因此可以忽略自我报告中可能出现的异常值。但这里更大的问题是,人们可能对“年资”的看法有所不同。有些人可能将教育或非数据科学职位纳入到年资,而其他人可能不会这么做。


换句话说,当我们考虑上述三个标注时,本文更准确的题目实际上应该是


在主要科技中心(硅谷、西雅图、纽约)的大型科技公司,数据科学家能赚多少钱?


但是这个题目实在是太长了,所以我选用了一个稍短一点儿的题目。


结语


希望你觉得这篇文章信息量大且有趣。当我最初考虑从事数据科学这一行业时,并没有很多关于薪酬的好资源,所以我真的会很感激这样的文章。我之前在鼓励薪资透明的公司工作过,我认为围绕这个敏感话题提高透明度是一件好事。所以,这就是我对这一努力的贡献!


作者介绍:


William Chon,数据科学家,来自纽约。


原文链接:


https://towardsdatascience.com/how-much-do-data-scientists-make-c4c18c0820f0

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2020-11-28 10:001270
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 457.5 次阅读, 收获喜欢 1946 次。

关注

评论

发布
暂无评论
发现更多内容

使用 async_hooks 模块进行请求追踪

智联大前端

node.js 大前端 koa async_hooks

图解分析:Kafka 生产者客户端工作原理

码农架构

kafka 中间件 消息队列 消息中间件

LeetCode题解:389. 找不同,位运算,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

滴滴开源Logi-KafkaManager 一站式Kafka监控与管控平台

滴滴云

kafak 滴滴开源 监控告警 运维平台

Alibaba最新产物手册宝典:分布式核心原理解析,简直是Java程序员福音!

996小迁

Java 架构 面试 分布式

Elasticsearch和Kibana变更开源许可协议;Facebook利用AI增强为视障人士描述照片能力

京东科技开发者

云计算

毫不留情地揭开负载均衡的真面目~

田维常

负载均衡

同事有话说:ThreadPoolExecutor是怎么回收线程的

Java 程序员 面试

kotlin下载!我们究竟还要学习哪些Android知识?Android岗

欢喜学安卓

android 程序员 面试 移动开发

阿里P8大牛亲自教你!实战讲述Flutter跨平台框架应用,安卓系列学习进阶视频

欢喜学安卓

android 程序员 面试 移动开发

PostgreSQL使用clickhousedb_fdw访问ClickHouse

PostgreSQLChina

数据库 postgresql 开源 软件

关注直播 走近滴滴夜莺K8S监控组件

滴滴云

k8s 滴滴技术 监控告警 滴滴夜莺

一周信创舆情观察(1.18~1.24)

统小信uos

JDK源码深度学习!阿里P9架构师终于总结出了这份“源码级”的笔记了

Java架构追梦

Java 源码 架构 jdk 面试

互斥锁 vs 自旋锁

行者AI

互斥

免费ETL批量调度,任务调度,作业调度自动化运维工具Taskctl Web

TASKCTL

大数据 kettle 海豚调度 自动化部署 ETL

一文告诉你Java日期时间API到底有多烂

YourBatman

LocalDateTime Date JSR310 Calendar

nacos 配置中心自动化运维之namespace坑

Sky彬

nacos

自动化测试现状趋势解读,附带近年自动化测试常用工具

程序员阿沐

程序员 软件测试 自动化测试 测试工程师

软件测试在不同应用场景中,我们该如何进行测试呢?

程序员阿沐

编程 程序员 软件测试 教程 测试环境

产品利益相关者分析

LT_product_elearning

听说隔壁班的程序员给女友做了个智能风扇

智能物联实验室

物联网

内存数据库解析与主流产品对比(二)

星环科技

数据库

不可忽视的PHP数据精度损失问题

架构精进之路

php 七日更 28天写作

【并发编程的艺术】内存语义分析:volatile、锁与CAS

程序员架构进阶

Java 架构 Java内存模型 28天写作

面试官:一年跳槽三次,你是怎么做到的?

程序员阿沐

程序员 面试 软件测试 测试工程师

【Skeleton】按钮

德育处主任

CSS 大前端 CSS小技巧 28天写作 纯CSS

云原生架构下复杂工作负载混合调度的思考与实践

星环科技

云计算

2021分享三面阿里:Java面试核心手册+Java电子书+技术笔记+学习视频

比伯

Java 编程 架构 面试 程序人生

一文读懂HTTP协议的昨天,今天与明天

后台技术汇

28天写作

内存数据库解析与主流产品对比(一)

星环科技

数据库 大数据

  • 扫码添加小助手
    领取最新资料包
调研了1400多人后,我知道数据科学家到底赚多少钱了_AI_William Chon_InfoQ精选文章