数据科学家已被誉为 2016 年美国最好的工作,但是这一岗位的定义和所要求的技能却一直在变化。技术进步与商业需求不断驱动数据科学岗位的演化,其所处的行业也是日新月异。在本文中,我们将更加仔细地审视 2016 年数据科学家将扮演的角色。
Dave Holtz 写道,“数据科学家”常用作“一揽子头衔”(blanket title)的统称,描述一组截然不同的工作岗位。他将这个现象的原因,归结为数据科学领域仍处在早期发展阶段,对其定义不够准确。如果接受数据科学是一个“跨学科领域”这种大而全的说法,那么数据科学家的工作就是从不同形式的大量数据中提取知识或洞察。
我们已经处在大数据时代,这是无法改变的事实。随着数据量与日俱增,从这些数据中提取出价值的工作只会慢慢变得更加复杂和困难。大数据经济背后的逻辑,正在以无法想象或预测的方式重塑我们的生活;我们做出的每一个电子操作都将产生数据,并留下与自己生活相关的蛛丝马迹。
作为消费者经济的参与者,我们访问任何网站或电子服务时,所产生的数据都会被挖掘,而数据科学家就要通过计算机科学、数据分析和复杂的商业知识,来收集、清洗、分析我们提供的数据,并据此进行预测。
下面的图表列出了一名数据科学家所需要的技能集。我们可以发现,与一般意义上的大数据开发者或商业分析师不同,这个岗位的职责要求掌握多种技能集。
图 1:数据科学家的技能集
是什么让数据科学家不同于类似的数据岗位?
Rivera 和 Haverson 认为,之前的数据专业人员关注的是数据的流动过程和解释,而数据科学家更注重数学视角 —— 聚焦于从历史数据和当前数据中洞察出未来的模式。如果仅从字面上理解这两个词,“科学”意味着通过系统研究获得的知识;“数据”则是由定性化或定量化变量组成的信息集合。因此,数据科学家的字面定义应该是:一个系统性地研究信息的组织与性质的人。
尽管统计人员和其他研究数据分析的人也扮演着重要的角色,但是 Anjul Bhambari 所描述的数据科学家既是分析师,又是艺术家,其角色注定是变革传统数据的分析和使用方法。
数据科学家的需求不断上升
商业社交网站 LinkedIn 的成功,很好地证明了数据科学家为商业智能所带来的重大利好。作为一家几乎纯粹依赖其 3.8 亿名用户相互联系所产生数据的企业,LinkedIn 正在利用受过正规培训、有着强烈好奇心的数据科学家们不断探索大数据的世界。
LinkedIn 与 Facebook 、 Google 等其他大型知识型企业都在利用数据科学家对大量的杂乱数据进行结构化,确定数据的价值大小,以及变量之间的系统性关系。
KPMG 近期对企业高管的一项调查显示,99% 的受访者认为大数据分析对于制定次年的战略非常重要。预计到2020 年,每天产生的企业数据将超过240EB ,在这一时代背景下,对于掌握了从数据中提取价值洞见能力的数据科学家的需求比以往更加重要…但是, Venture Beat 公司的 Travis Wright 在一篇文章中提到,对数据科学家的需求远远超过了供给,如果想跟上新型数据经济的步伐,仅美国的公司就需要雇佣 14-19 万名数据科学家。
令人讽刺的是,关于数据科学家的平均收入的数据却存在许多相互冲突的地方。不过,比较明显的是平均收入与对数据科学家的高需求是正相关的。如果雇主要求员工能够熟练使用数据挖掘算法、精通像 R 和 Python 这样的语言、又具备处理大型数据库(SQL 或类似数据库)的经验,还得开发 Java 应用、处理 NoSQL 数据库(引用自某个职位要求,上述要求只占十分之一)——此外,还要能够将以上这些清楚地传达给非技术同事,那么平均 12 万美元的薪资看上去也就不那么过分了。
数据科学家的角色
尽管数据科学家的角色与传统意义上的数据分析岗位有重合之处,但是区别也尤其明显。
一名数据分析师或数据架构师能够从大规模数据集中提取信息。但是他们只掌握 SQL 查询命令和对数据进行切片的分析包。借助对机器学习的深刻了解和编程开发等方面的知识,数据科学家可以随心所欲地处理数据,挖掘出更深的洞见。他们摆脱了这些程序的束缚。
普通的数据分析师会观察过去发生的事情,但是数据科学家必须具备长远的眼光,展望未来。通过应用先进的统计知识和复杂的数据建模,他们必须挖掘出数据中隐藏的模式,对未来做出预测。
数据科学家所需要的技能
成功的数据分析需要做到能够清洗、集成和转变数据 —— 这些都是数据科学家必须掌握的重要技能。将科学背景与计算分析技能结合在一起之后,你就能够“胜人一筹”。
下面的图 2 列出了数据科学通常关注的几个领域。
图 2. 数据科学关注的领域
不过我们还是要更细致地探讨一下成为数据科学家所需要的实际技能。Mark van Rijmenam 是 Data Floq 公司的 CEO,为了能够开发出提出正确的问题并寻找正确答案的算法,他建议数据科学家掌握以下技能:统计技能、数学和伦理学技能,并且具备构建预测性模型的丰富经验。
来自 LinkedIn 的 Ferris Jumah 更是将所要求的技能进行了归类,尽管数据科学家可能需要的技能和担任的岗位角色纷繁复杂。
数据科学家必须做到:
- 以数学思维看待数据。学习诸如机器学习、数据挖掘、数据分析和统计学等技能十分重要。数据科学家需要从数学的角度对数据进行解释和分析。
- 使用一门常用语言,进行数据访问、探索和建模。掌握一门统计编程语言将是关键。 R 、 Python 或 MATLAB 等语言,以及类似 SQL 等数据库查询语言是最受追捧的技能。数据提取、探索和假设检验是数据科学实践的核心。
- 具备很强的计算机科学和软件工程背景。这需要掌握包括 Java、C++ 或算法知识和 Hadoop。这些技能将用于利用数据来设计系统架构。
数据科学家使用的工具
与使用标准工具的普通程序员不同,数据科学家一般会使用各种各样的工具,而且工具时刻在更新。这是因为数据科学领域正在快速发展,许多新工具还远未成熟。尽管如此,下面我们还是精选了一些数据科学家常用的工具:
数据分析
在这方面,使用的工具其实就是数据科学家用于提取和分析数据的编程语言。一般来说是 Python、R 和 SQL。
数据仓库
数据科学家可以选择自己用于提取和分析数据的数据库。处理合理大小的数据集时,最流行的选择是 MySQL 。进入大数据领域之后,他们通常会转向使用 Hive 或 Redshift 。
数据可视化
数据可视化方面最常提及的工具,是 D3.js 和 Tableau 。只要是你能想象出来的数据可视化方式,数据科学家都可以利用 D3.js 实现。Tableau 是目前市面上最流行的数据可视化工具,支持从数百个输入源汇集数据,并轻松地将这些数据转换成可视图表。
机器学习
这或许是每天新增工具最多的一个领域了。知名度最高、使用最广泛的工具可能是 Scikit-learn ,它利用 Python 进行机器学习。然后当然还有 Spark MLlib ,这是 Apache 推出的针对 Spark 和 Hadoop 的机器学习库。
关于作者
Ed Jones就职于 Firebrand Training ,一家 IT 和项目管理培训服务商。他在 IT 培训与认证行业已经积累了 4 年的行业经验。他还是一名技术爱好者,有过使用 SharePoint、Windows Server 和 Windows Desktop 的经验。
查看英文原文: http://www.infoq.com/articles/role-of-a-data-scientist-in-2016
感谢侠天对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论