写点什么

从学界到业界:关于数据科学的误解与事实

  • 2015-11-15
  • 本文字数:1933 字

    阅读完需:约 6 分钟

在从学界(粒子物理学博士后研究员)进入业界(数据科学领域)时,Emily Thompson 也曾有过犹疑。而现在,在担任 Insight 项目总监 10 个月之后,她对数据科学家有了自己独特的看法。近日,她在一篇文章中就当前人们对数据科学的误解谈了自己的看法,主要涉及数据科学家的职责、应用领域、工作环境、职业发展、技能集合等方面。。

误解一:“‘数据科学家’只是‘业务分析师’的一种花哨叫法,他们本质上是相同的”

在数据科学领域,业务分析师仍然占了很大一部分,而数据科学家也构建数据产品,创建软件平台,实现可视化和仪表板,开发前沿机器学习算法。“数据科学家”与“分析师”的最大差别可能是角色的独立性水平。传统的业务分析师需要别人给他们提供已经做过清理并打包好的数据供他们使用;而数据科学家必须是熟练的程序员,他们能够抽取、转换、加载数据,对其他团队的依赖较少。

误解二:“数据科学没什么用,我未必会进入广告行业,或成为一名股市分析员”

数据科学的应用领域同数据科学领域本身一样多样化。计量金融和广告是使用数据挖掘的两个相对传统的行业。医疗行业正在经历一场数据革命。可穿戴技术让收集、聚合、分析大量个人数据成为可能,从如何恰当地锻炼睡眠如何影响情绪。多媒体是另一个数据科学的重大应用领域。比如,像News Corp.、The New York Times 和Bloomberg 等大型媒体公司都雇用数据科学家研究读者行为和读者保持;Netflix 通过数据分析实现影片推荐;湾区创业公司 Samba TV 借助机器学习技术实现内容推荐。

误解三:“我希望对世界产生积极的影响……为公司赚钱似乎与此存在利益冲突”

为营利公司工作与对人们的生活产生积极影响并不冲突。例如, Premise 是一家实时经济数据跟踪平台。他们使用机器学习技术来发现一些不易发现的问题,比如,帮助发展银行将钱投资到有需要的邻国, Stitch Fix 使用机器学习技术从库存商品中选择客户喜欢的衣服等等。

误解四:“在学术领域,我自己说的算,我喜欢这种自由。我不认自己适合公司结构的环境”

企业结构确实跟学术组织不同,但现如今,在以数据为中心的企业中,那种狂人风格也不是那么普遍。如果你是初创公司最初的成员之一,那么你还有机会影响公司的发展方向。而像 Facebook 和 LinkedIn 这样的大公司会分成若干较小的工作组,以保留初创公司的工作氛围。虽然可能会有团队负责人,但数据科学团队是高度协作的。而且,越来越多的公司实现了在家工作策略,数据科学家可以拥有“无限”假期。

误解五:“我觉得,如果不知道未来 10 年我的职业生涯是个什么样子,就贸然离开学术界,风险太大。要是我就职的公司跨了怎么办?”

不管在哪里,职业生涯都不是可以预测的。数据科学家在一家公司任职的时间平均为 3 到 4 年。数据科学家会留在有挑战的岗位上,但一段时间之后,会寻找新的挑战。好处是,数据科学领域有许多选择,而且正在不断发展,对数据科学家的需求很高。在任何一家公司任职,不管成功与否,都会获得宝贵的经验。在找第一份数据科学工作时,最看中的应该是一个可以从同事那里学得大量知识的协作环境。另一个需要关注的点是,在从学界进入业界时,要努力构建一个强大的关系网络(参加聚会、出席数据大会),它能为你提供建议和其他团队的内部信息。

误解六:“数据科学是泡沫”

有人认为,一旦数据分析实现自动化,数据科学家的角色就不存在了。但数据量正呈指数增长,没有任何迹象表明从数据中寻找答案的需求会慢下来。即使数据科学的某些部分可以自动化,但这个行业仍然需要数据科学家的技能。数据可能会很乱,无法应用恰当的工具或者无法了解所有相关的特性,这会产生有误导性的结果。而且,受过良好训练的数据科学家对数据有更好的理解,他们是大数据时代应对数据挑战的最佳人选。

误解七:“我担心自己不具备成为数据科学家的技能”

编码能力强很重要,但数据科学不全是软件工程。数据科学家集编码、统计分析和判断思维于一身。广受欢迎的硬技能、统计知识、编码能力是一名优秀数据科学家的基本工具。还有一项不容易明确定义的技能,就是博士研究员阶段所接受的良好训练。但是,要成为一名数据科学家,并一定要有物理、统计或计算机科学学位。 June Andrews 的研究显示,在 LinkedIn 从事数据科学工作的人所拥有的学位差别很大。数据科学本身就具有多学科的特点,而且一些公司开始使用领域专属的数据。因此,只要有量化思维,喜欢摆弄数据,对数据如何引导你提出和回答问题心存好奇,那么你就可以脱离学术界,进入数据科学领域。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。

2015-11-15 18:002156
用户头像

发布了 1008 篇内容, 共 390.1 次阅读, 收获喜欢 344 次。

关注

评论

发布
暂无评论
发现更多内容

Flink CEP 在抖音电商的业务实践|电商行业实践专栏上线

Apache Flink

大数据 flink 实时计算

支持神经滤镜Photoshop 2023 (ps 2023)Mac v24.5/24.6b中文激活

真大的脸盆

Mac Mac 软件 ps神经滤镜 photoshop神经滤镜

中核集团财务共享迈上新台阶

用友BIP

财务共享

推动科技教育普惠|2023开放原子全球开源峰会校源行分论坛即将启幕

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子

Arm NN 成功适配 openEuler Embedded,提供高性能神经网络推理能力

openEuler

Linux 操作系统 openEuler risc-v embedded

软件测试/测试开发丨Web自动化测试常见控件交互方法

测试人

波司登云原生微服务治理探索

阿里巴巴云原生

阿里云 微服务 云原生

共建、共享开源EDA共性技术框架 | 2023开放原子全球开源峰会开源EDA分论坛即将启幕

开放原子开源基金会

开源 EDA 开放原子

中企出海,全球供应链业务如何更有效地经营?

用友BIP

中企出海 全球供应链

从Google、创业再到字节跳动,我在开源领域的实践与思考

开源雨林

创业 字节跳动 开源治理

索信达“数据资产管理解决方案”全解析

索信达控股

SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目

Apache SeaTunnel

大数据 开源 数据集成 国产开源 Apache SeaTunnel

常用的表格检测识别方法——表格结构识别方法 (下)

合合技术团队

人工智能 深度学习 文字识别 表格检测

信道的数学模型

timerring

信息论

看数智平台如何助力企业实现产业互联

用友BIP

数智平台

火山引擎A/B测试:MAB智能调优实验,企业活动效果提升新利器

字节跳动数据平台

AB testing实战 A/B 测试

恒参信道特性及其对信号传输的影响

timerring

信息论

ChatGPT应用助推跨境电商发展,低代码凭啥不行?!

加入高科技仿生人

低代码 跨境电商 ChatGPT JNPF

凝心聚力,共创未来 | 2023 开放原子全球开源峰会 OpenCloudOS 社区年会即将启幕

开放原子开源基金会

开源 云原生技术 OpenCloudOS 社区

软件测试/测试开发丨Selenium Web浏览器控制

测试人

程序员 软件测试 自动化测试 测试开发

累计下载破 10 万,阿里云 ACR 制品中心 5 月最受欢迎镜像排行榜

阿里巴巴云原生

阿里云 阿里云云原生 容器镜像服务

Desktop Goose for Mac(抖音桌面宠物鹅) v0.22激活版

理理

mac软件下载 抖音桌面宠物鹅 桌面宠物软件推荐 Desktop Goose mac破解版

企业出海,全球合并有高招!

用友BIP

中企出海

财务共享中心搭建以后,如何进行精细化管理?

用友BIP

财务共享

轻松掌握,板对板连接器选型指南

元器件秋姐

电路 元器件 PCB 连接器 PCB设计

海量数据运维要给力,GaussDB(for Cassandra)来助力

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

探索云原生技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会云原生分论坛即将启幕

开放原子开源基金会

开源 云原生

一分钟跑出 AI 图像的生成平台

CODING DevOps

AI Cloud Studio 云端IDE

对线面试官-线程池(二)

派大星

Java 面试题

【活动回顾】Databend 数据库表达式框架设计与实现 @GOTC

Databend

从学界到业界:关于数据科学的误解与事实_语言 & 开发_谢丽_InfoQ精选文章