写点什么

成为卓越数据科学家必备的 13 项技能

  • 2019-08-02
  • 本文字数:4061 字

    阅读完需:约 13 分钟

成为卓越数据科学家必备的13项技能

一周前,我在 LinkedIn 上问了一个问题:优秀的数据科学家与卓越的数据科学家之间的区别是什么?令人惊讶的是,我得到了来自各行各业的许多顶尖数据科学家的积极反馈。我发现这非常实用和有趣。为了进一步了解二者间的区别,我一直在网上寻找答案……直到发现了这篇文章——《成为数据科学家必备的九项技能》。综上,我总结了相关信息,列出了一份成为卓越的数据科学家应该掌握的技能清单。虽然,数据科学家不可能具备下列所有技能。但在我看来,正是这些技能让卓越的数据科学家与优秀的数据科学家区分开来。我希望这些技能会对你的职业生涯有所帮助。


1. 教育

一般来说,数据科学家的受教育程度普遍较高。至少 88%拥有硕士学位,46%拥有博士学位。虽然有一些例外,但通常情况下,亮眼的教育背景意味着具备数据科学家所需的知识深度。要想成为一名数据科学家,你可以攻读计算机科学、社会科学、物理科学和统计学的学士学位。最常见的研究领域是数学和统计学(32%),其次是计算机科学(19%)和工程学(16%)。以上任何一个学位都能让你掌握处理和分析大数据所需的技能。


修读完学士学位后,你还得继续深造。事实上,大多数数据科学家都拥有硕士或博士学位。此外,他们还接受在线培训,学习特殊技能,像如何使用 Hadoop 或大数据查询等等。因此,你可以学习数据科学、数学、天体物理学或任何其他相关领域的硕士学位课程。攻读硕博学位期间所学的技能将帮助你轻松过渡到数据科学。


除了课堂学习,你还可以通过创建应用程序、博客或尝试数据分析来实践你在课堂上学到的东西,从而让你收获更多。


在我看来,硕士或博士学位并不是必须的,只要你能胜任你的工作便可。在大多数工作中,只要你能够解决业务问题,就不需要研究和掌握最前沿的机器学习模型。


这里有一本很好的免费电子书可供参考:《成为专业数据科学家的74个秘密》

2. R 语言

每一位数据科学家至少要深入研究一种最新的分析工具,而 R 语言通常是首选。R 语言是专门为数据科学设计的。你可以利用它解决在数据科学中遇到的任何问题。事实上,43%的数据科学家使用 R 语言来解决统计问题。然而,R 语言的学习曲线并不太容易,尤其是当你已经掌握了一门编程语言,R 就更难学了。尽管如此,在网上依然有很多资源可以帮助你学习,比如 Simplilearn 的 R 语言数据科学培训。对于数据科学家来说,这是一个很好的学习资源。

3.Python

Python 是我在数据科学研究中接触到的最常见的编程语言,此外,还有 Java、Perl 和 C/ C++。在 O 'Reilly 调查中,40%的受访者将 Python 作为他们主要的编程语言。


由于其通用性,你可以将 Python 应用于几乎所有涉及到数据科学的步骤中。它可以使用各种格式的数据,轻松地将 SQL 表导入代码。它允许创建数据集,也可以很便捷地帮助你在谷歌上找到任何类型的数据集。


你可以通过以下书籍了解更多关于 Python 的基础知识以及它在数据科学中的应用:


4. Hadoop 平台

虽然 Hadoop 并不是必需掌握的,但在许多情况下,它是数据科学运算的首选。如果熟悉 Hive 或 Pig 很不错,熟悉 Amazon S3 等云工具也有好处。CrowdFlower 对 3490 个 LinkedIn 数据科学职位进行的一项研究将 Apache Hadoop 列为数据科学家第二重要的技能,获得了 49%的评分。


作为一名数据科学家,你可能会遇到这样的情况:你拥有的数据量超过了系统的内存,或者你需要将数据发送到不同的服务器,这时候你就需要用到 Hadoop 了。你可以使用 Hadoop 将数据快速传递到系统上的各个点。它的功能还有很多,比如数据探索、数据过滤、数据采样和汇总等。

5. SQL 数据库/编码

尽管 NoSQL 和 Hadoop 已经成为数据科学的一个重要组成部分,但是公司还是希望员工能够使用 SQL 编写和执行复杂的查询。SQL(结构化查询语言)是一种编程语言,它可以帮助你在数据库中执行添加、删除和提取数据等操作,它还可以帮助你执行分析功能和转换数据库结构。


作为一名数据科学家,你需要精通 SQL。这是因为 SQL 是专门为访问、交互和处理数据而设计的。当你使用 SQL 查询数据库时,它往往会给你一些额外的收获。它有简洁的命令,可以帮你节省时间,减少执行复杂查询所需的编程工作。学习 SQL 将帮助你更好地理解关系数据库,并增强你作为数据科学家的个人能力。

6. Apache Spark

Apache Spark 正在成为全球最流行的大数据技术。它是一个类似 Hadoop 的大数据计算框架。唯一的区别在于 Spark 比 Hadoop 更快。这是因为 Hadoop 读取和写入磁盘,这会使它的速度变慢,但 Spark 会将其计算缓存于内存中。


Apache Spark 是专门为数据科学设计的,它可以更快地运行复杂的算法。在处理大量数据时,它可以分发数据处理,从而节省时间。它还帮助数据科学家处理复杂的非结构化数据集。你也可以在一台机器或一组机器上使用它。


Apache spark 可防止数据科学研究中的数据丢失。它的优势在于速度和平台,这使得数据科学项目的实施变得更容易。使用 Apache spark,你可以完成从数据接收到分布式计算的所有分析工作。

7. 机器学习和人工智能

许多数据科学家并不精通机器学习领域的技术,包括神经网络、强化学习、对抗性学习等。但如果你想从其他数据科学家中脱颖而出,你需要了解机器学习技术,如监督机器学习、决策树、逻辑回归等,这些技能将帮助你解决基于主要组织结果预测的不同数据科学问题。


数据科学需要在机器学习的不同领域应用技能。据 Kaggle 的一项调查显示,只有一小部分专业人员掌握高级机器学习技能,如监督机器学习、非监督机器学习、时间序列、自然语言处理、离群值检测、计算机视觉、推荐引擎、生存分析、强化学习和对抗学习等。


数据科学涉及大量数据集的处理,你可以在这里继续了解机器学习。

8. 数据可视化

商业化社会经常产生大量的数据,这些数据需要转换成易于理解的格式。比起原始数据,人们更容易理解图片。俗话说,“一图胜千言”。


作为一名数据科学家,你必须学会使用诸如 ggplot、d3.js、Matplotlib 以及 Tableau 等数据可视化工具,这些工具将帮助你把项目中的复杂结果转换为易于理解的格式。问题是,很多人不理解序列相关的 P 值,你需要直观地向他们展示这些术语在结果中表示的含义。


数据可视化为决策者提供了直接处理数据的机会。他们能够通过这种方式迅速洞察数据,从而抓住新的商业机会,并在竞争中保持领先地位。


我特别写了一篇文章,讨论数据可视化的重要性,以及如何用数据更好地讲故事。感兴趣的话,你可以了解一下。

9. 非结构化数据

能够处理非结构化数据对数据科学家来说是至关重要的。非结构化数据是不适合数据库表的未定义内容,包括视频、博客文章、客户评论、社交媒体文章、视频摘要、音频等。这些类型的数据排序很困难,因为它们不是结构化的。


由于非结构化数据的复杂性,大多数人称其为“黑暗分析”。分析非结构化数据可以帮助你寻找对决策有用的见解。作为一名数据科学家,你必须具备理解和操作来自不同平台的非结构化数据的能力。

10. 求知欲

“我没有什么特殊的才能,我只是充满了好奇心。”

——爱因斯坦


当然,你可能经常看到这句话,因为它与数据科学家有很大的相关性。Frank Lo 在几个月前发表的博客中阐述了它的含义,并谈到了其他必要的“软技能”。


好奇心可以被定义为渴望获得更多的知识。数据科学领域是一个发展非常迅速的领域,你必须学习更多才能跟上它的步伐。你需要定期阅读关于数据科学趋势的在线内容或书籍来更新你的知识。不要被网上飞来飞去的海量数据所淹没,你必须知道如何理解这一切。好奇心是一名成功的数据科学家必备的技能之一。刚开始你可能没有从收集的数据中看到有价值信息的洞察力,但好奇心会驱使你从数据中筛选出答案和更多的价值。

11. 商业敏感性

要想成为一名数据科学家,你需要对你所从事的行业有扎实的了解,并知道你的公司想要解决哪些问题。就数据科学而言,除了确定处理数据要利用的新方法之外,能够识别出哪些问题是处理业务的关键点同样至关重要。


要做到这一点,你必须了解你所解决的问题是如何影响业务的。这就是为什么你需要了解企业是如何运作的,这样你才能朝着正确的工作方向前进。

12. 沟通技巧

大多数公司都缺少掌握沟通技巧的数据科学家,因为这样的员工能够清晰顺畅地将他们的技术成果传达给非技术团队,如市场或销售部门。除了理解非技术同事的需求之外,数据科学家还必须为业务提供量化的数据,从而使业务部门能够做出正确决策。


当然,不仅仅是使用大家都能理解的语言,他们还要懂得用数据讲故事。作为一名数据科学家,你必须知道如何围绕数据创建一个故事线,以便任何人都能轻松地理解。单纯展示数据表不如以讲故事的形式分享数据背后的含义有效,讲故事能帮助你更好地向雇主传达见解。


在交流时,要注意分析数据中所包含的结果和价值。大多数企业家并不想知道你分析了什么,他们感兴趣的是它将如何对其业务产生积极的影响。你还可以通过阅读这篇文章进一步学习,如何通过沟通传递价值,并建立持久的联系。

13. 团队合作

数据科学家并非独立工作,他们通常需要和公司高管一起研究策略,和产品经理、设计师一起讨论产品,和营销人员一起商量营销活动的优化方案,与客户端和服务器软件开发人员一起工作,以创建数据管道,并改进工作流。他们必须和公司里的每一个人一起工作,包括客户。


本质上,数据科学家还需要与团队成员协作开发用例,以便了解业务目标和数据。你需要了解正确处理用例的方法、解决问题所需的数据,以及如何将结果转换并呈现为每个相关人员都可以轻松理解的内容。


总结


如果你对以上提到的技能不知所措、一脸茫然,也是可以理解的。说到底,这些技能并不是成为数据科学家所必备的,但与其他一般的数据科学家相比,它们确实会让你与众不同。


我知道,你希望变得不一般!


作者介绍:


Admond Lee是一名非常受欢迎的数据科学家顾问。他在数据科学咨询方面拥有深厚的专业积累,善于帮助初创企业的创始人和各种公司解决数据使用方面的问题。如果你有数据科学方面的问题,可以在LinkedInMediumTwitterFacebook上与他联系。


原文链接:


Top 13 Skills To Become a Rockstar Data Scientist


2019-08-02 21:113476

评论 1 条评论

发布
用户头像
这样的人根本不存在
2019-08-07 00:33
回复
没有更多了
发现更多内容

App 支付报错“商家订单参数异常,请重新发起付款“排查流程

盐焗代码虾

支付宝 支付宝报错 排查思路 APP支付

Mac系统的防病毒软件推荐Antivirus Zap - Virus Scanner 最新中文版

胖墩儿不胖y

Mac软件 杀毒软件 mac系统维护软件

mac电脑屏幕调节亮度软件 Lunar pro 激活最新版

mac大玩家j

Mac软件 屏幕亮度调整工具 屏幕管理软件

编程和数学计算软件MATLAB R2023b for Mac

展初云

Mac matlab Mac软件

Linux 性能调优之网络优化

山河已无恙

网络优化 网络性能优化 10月月更

赣州有资质等保测评机构有几家?咨询电话多少?

行云管家

等保 等级保护 等保测评 赣州

记一次老商家端应用内存突然飚高原因分析 | 京东物流技术团队

京东科技开发者

企业号10月PK榜 fullGC 内存飙升

OPPO Find N3,解码“新商务场景”

脑极体

OPPO

Linux tar打包命令

芯动大师

VMware Workstation 17安装教程:安装系统

小齐写代码

@所有人,2023开放原子开发者大会议题征集火热进行中!

开放原子开源基金会

开源 开发者大会

逻辑漏洞挖掘之CSRF漏洞原理分析及实战演练 | 京东物流技术团队

京东科技开发者

CSRF 安全测试 漏洞分析 逻辑漏洞 企业号10月PK榜

中移链浏览器简介

BSN研习社

Linux环境变量及作用

芯动大师

文心一言 VS 讯飞星火 VS chatgpt (124)-- 算法导论10.5 5题

福大大架构师每日一题

福大大架构师每日一题

Linux zip命令:压缩文件或目录

芯动大师

ES6新特性(六)

阡陌r

JavaScript import ES6 export 模块化

好用的全局代理客户端 Proxifier for Mac

展初云

Mac 代理 Mac软件 Proxifier

CodeWhisperer 初体验

亚马逊云科技 (Amazon Web Services)

Python 人工智能 sql 云上探索实验室 Amazon CodeWhisperer

Java模块化应用实践之精简JRE | 京东云技术团队

京东科技开发者

Java jre 企业号10月PK榜 Java21

2023云栖大会议程&体验攻略

阿里云视频云

云计算 云栖大会

两种情况下 不能放弃云计算! | David Hansson

B Impact

PHP/MySQL开发本地服务器 MAMP Pro for Mac

展初云

Mac软件 开发软件 MAMP

Java基础面试题【MyBatis】

派大星

Java 面试题

超实用的企业防范数据泄露小技巧!

行云管家

数据 数据安全 数据泄露 企业数据

浅谈搜索展现层场景化技术-tanGo实践

百度Geek说

企业号10月PK榜 搜索场景化 展现层技术 阿拉丁

成为卓越数据科学家必备的13项技能_大数据_Admond Lee_InfoQ精选文章