飞天发布时刻:2024年 Forrester 公有云平台Wave™评估报告解读 了解详情
写点什么

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?

  • 2019-10-11
  • 本文字数:1844 字

    阅读完需:约 6 分钟

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?

本文最初发布于 KDnuggets 网站,经 KDnuggets 官方授权由 InfoQ 中文站翻译并分享。


我们确定了两类主要的数据科学技能:一类是大多数受访者所拥有的稳定技能,这一类有 13 项核心技能;另一类是大多数受访者尚未拥有但想掌握的热门 / 新兴技能。请参阅我们详细的分析。


最新的 KDnuggets 投票调查问了如下两个问题:


  1. 你目前拥有哪些技能 / 知识领域(在工作或研究中可以使用的水平)?

  2. 你想增加或提高哪些技能?


我们根据 KDnuggets 之前的一些文章和投票调查,选出了 30 项技能。


这次投票调查总共收到了超过 1500 张投票,这是一个足够大的样本,可以做出有意义的推论。平均每个投票者报告声称其拥有 10 项技能,并希望增加或者提高 6~7 项技能。


下面的图 1 显示了关键的调查结果,x 轴表示 % 已拥有技能,显示的是第一个投票问题的答案;y 轴表示的是 % 想拥有的技能,显示的是第二个投票问题的答案。每个圆形的大小与已拥有该技能的投票者的百分比成正比,而颜色取决于“想拥有 / 已有用”的比率(>1,比率越高颜色越红;<1,比率越低颜色越蓝)。



图 1. 与数据科学相关的技能,已拥有技能 vs 想增加 / 提高技能


在这种图表中,我们注意到有两个主要的集合。


图表右侧蓝色虚线矩形为第一个集合,该集合包含超过 40% 投票者所拥有的技能,以及“想要拥有 / 已经拥有”的比率小于 1。我们称之为核心数据科学技能。它们将在表 1 中列出。


表 1:核心数据科学技能,按 % 已拥有技能降序排列。


技能 % 已拥有 % 想拥有 % 想拥有 / % 已拥有
Python71.2%37.1%0.52
数据可视化69.0%25.3%0.37
批判性思维66.7%15.5%0.23
Excel66.5%4.6%0.07
交流沟通技巧65.9%16.5%0.25
机器学习64.3%41.0%0.64
统计学63.8%27.8%0.44
SQL/ 数据库代码实现57.3%16.0%0.28
业务理解57.0%22.2%0.39
数学52.6%17.5%0.33
ETL - 数据准备48.3%14.1%0.29
R45.1%19.8%0.44
Scikit-learn44.1%24.0%0.54


其中,最希望添加或提升的技能是机器学习(41%)和 Python(37%)。增长最少的是 Excel——只有 7% 的人想增加或提高他们的 Excel 技能。


图 1 左侧用红色边框标记的第二个集合,包括目前不太流行(% 已拥有技能 <30%)但正在增长的技能,“想拥有 / 已有用”的比率大于 1,请见表 2。我们将其称为热门 / 新兴数据科学技能。


表 2:热门 / 新兴数据科学技能,按“想拥有 / 已拥有”降序排列。


技能 % 已拥有 % 想拥有 % 想拥有 / % 已拥有
Pytorch7.0%29.6%4.26
Scala4.2%13.3%3.14
其他大数据工具8.9%27.4%3.08
TensorFlow19.1%46.4%2.44
Apache Spark16.0%34.6%2.16
Hadoop10.9%22.7%2.08
深度学习25.9%49.6%1.92
No-SQL 数据库14.0%23.2%1.65
自然语言处理 - 文本处理25.0%33.8%1.35
Kaggle14.5%18.4%1.27
非结构化数据22.3%27.7%1.24


有趣的是,尽管有人认为 Hadoop 正在走下坡路,但在这次投票调查中,想学习 Hadoop 的人比已经知道它的人还多,所以 Hadoop 有可能仍然会越来越受欢迎。尽管 Julia 的“想拥有 / 已拥有”的比率为 3.4,但我们仍然没有将它包括在热门 / 新兴技能中,因为只有 2% 的投票者选择了它,因此它并不具备足够的支持。


其余的技能,如 XGBoost、软件工程、Java、MATLAB、SAS 只被 10%~30% 的投票者拥有,但没有增长:“想拥有 / 已拥有”的比率小于 1。


表 3:其他数据科学技能,按 % 已拥有的百分比递减


技能 % 已拥有 % 想拥有 % 想拥有 /% 已拥有
软件工程25.7%15.2%0.59
XGBoost22.3%19.0%0.85
Java15.1%7.7%0.51
SAS12.7%7.2%0.57
MATLAB10.9%7.9%0.73
Julia2.0%6.9%3.44


小假面是关于投票调查的更多细节。图 2 按 % 已拥有进行降序排列。



图 2:KDnuggets 读者拥有的数据科学技能


图 3 显示了读者想要增加或提高的技能,以及他们所拥有的技能。



图 3:KDnuggets 读者想要增加或提高的数据科学技能(红色)和已拥有的数据科学技能(蓝色)。


我们看到,现有的和有意向的数据科学家想要添加的顶级技能是深度学习、TensorFlow、机器学习和 Python。


投票调查还询问了就业类型:


  • 行业 / 自雇:64.4%

  • 政府 / 非营利组织:7.2%

  • 学术界 / 大学:7.0%

  • 学者:14.3%

  • 其他 /NA:7.1%


区域分布为:


  • 美国 / 加拿大:37.9%

  • 欧洲:28.3%

  • 亚洲:19.3%

  • 拉丁美洲:6.1%

  • 非洲 / 中东:4.8%

  • 其他:3.5%


作者介绍:


Gregory Piatetsky-Shapiro 博士是 KDnuggets 的总裁,也是大数据、数据挖掘和数据科学领域的领军人物。他是数据挖掘和数据科学领先研究会议 KDD 的共同创始人,也是 ACM SIGKDD 的共同创始人和前任主席。他还是两家初创公司的首席科学家。


原文链接:


Which Data Science Skills are core and which are hot/emerging ones?


2019-10-11 18:242818
用户头像

发布了 375 篇内容, 共 194.6 次阅读, 收获喜欢 947 次。

关注

评论

发布
暂无评论
发现更多内容

嘉为蓝鲸荣获工信部“数字技术融合创新应用解决方案”

嘉为蓝鲸

DevOps 运维 AIOPS 信创 研发

一文读懂NFT数字藏品为何风靡全球?

智捷云

C++运算符重载(二)之左移运算符重载

CtrlX

c c++ 进阶 重载 8月月更

使用CSS实现多种Noise噪点效果

dragonir

CSS html html5 css3

2022年裁员潮,失业程序员何去何从?

千锋IT教育

不止跑路,拯救误操作rm -rf /*的小伙儿

华为云开发者联盟

开发 配置文件 OM脚本

个推数据资产管理经验 | 教你打造数据质量心电图,智能检测数据“心跳”异常

个推

大数据 数据智能 数据资产管理 数据质量保障 数据异常检测

Gitlab刚发布一项禁止使用 Windows 的公司政策

雨果

gitlab Github'

50个Java面试必问的面试题,这里都给你整好了

千锋IT教育

Netty进阶 -- 非阻塞网络编程 实现群聊+私聊+心跳检测系统

Bug终结者

Netty 8月月更

GPU加速Pinterest推荐模型,参数量增加100倍,用户活跃度提高16%

OneFlow

机器学习 深度学习 gpu

一起畅聊「云+操作系统」!龙蜥社区亮相阿里巴巴开源开放周,完整议程来了

OpenAnolis小助手

数据库 操作系统 龙蜥社区 阿里巴巴开源开放周 开源共享

从脚本到剪辑,影像大师亲授的后期制作秘籍

博文视点Broadview

模块九 - 设计电商秒杀系统

Elvis FAN

制品库是什么?

雨后小溪

DevOps Artifactory 制品库 制品仓库 Packages

企业如何判断数据治理是否成功?

雨果

数据治理

快速上手,征服三种不同分布式架构调用方案

知识浅谈

分布式 8月月更

开源一夏 | mysql5.7安装部署-yum安装

zhangpfly

MySQL 开源 linux运维 #开源 8月月更

Open Office XML 格式里如何描述多段具有不同字体设置的段落

汪子熙

xml 微软 Office 8月月更 openOffice

OneFlow源码解析:算子指令在虚拟机中的执行

OneFlow

虚拟机 源码解析 算子

StoneDB 文档捉虫活动第一季

StoneDB

MySQL 数据库 开源 大数据 开源 8月月更

可视化服务编排在金融APP中的实践

京东科技开发者

可视化 BFF 金融 Obsuite

用低代码驱动IT现代化

力软低代码开发平台

Gartner再次重申了“数据编织”的重要价值

雨果

数据编织

SQL与NoSQL最终会走向融合吗?

雨果

nosql sql

Kyligence 通过 SOC 2 Type II 审计,以可信赖的企业级产品服务全球客户

Kyligence

国际权威鉴证标准 企业级数据分析

8月份DB-Engines 数据库排行榜最新战况

雨果

数据库

JWT 实现登录认证 + Token 自动续期方案

CRMEB

中小规模网站架构

舟停江吹雪

Linux

Java反射机制清空字符串导致业务异常分析

华为云开发者联盟

Java 开发

太香了!自从用了这款接口神器,我的团队效率提升了 60%!

Java永远的神

Java 程序员 程序人生 项目 Apifox

数据科学技能中,哪些是核心技能,哪些是热门 / 新兴技能?_大数据_Gregory Piatetsky_InfoQ精选文章