飞天发布时刻:2024年 Forrester 公有云平台Wave™评估报告解读 了解详情
写点什么

从学界到业界:关于数据科学的误解与事实

  • 2015-11-15
  • 本文字数:1933 字

    阅读完需:约 6 分钟

在从学界(粒子物理学博士后研究员)进入业界(数据科学领域)时,Emily Thompson 也曾有过犹疑。而现在,在担任 Insight 项目总监 10 个月之后,她对数据科学家有了自己独特的看法。近日,她在一篇文章中就当前人们对数据科学的误解谈了自己的看法,主要涉及数据科学家的职责、应用领域、工作环境、职业发展、技能集合等方面。。

误解一:“‘数据科学家’只是‘业务分析师’的一种花哨叫法,他们本质上是相同的”

在数据科学领域,业务分析师仍然占了很大一部分,而数据科学家也构建数据产品,创建软件平台,实现可视化和仪表板,开发前沿机器学习算法。“数据科学家”与“分析师”的最大差别可能是角色的独立性水平。传统的业务分析师需要别人给他们提供已经做过清理并打包好的数据供他们使用;而数据科学家必须是熟练的程序员,他们能够抽取、转换、加载数据,对其他团队的依赖较少。

误解二:“数据科学没什么用,我未必会进入广告行业,或成为一名股市分析员”

数据科学的应用领域同数据科学领域本身一样多样化。计量金融和广告是使用数据挖掘的两个相对传统的行业。医疗行业正在经历一场数据革命。可穿戴技术让收集、聚合、分析大量个人数据成为可能,从如何恰当地锻炼睡眠如何影响情绪。多媒体是另一个数据科学的重大应用领域。比如,像News Corp.、The New York Times 和Bloomberg 等大型媒体公司都雇用数据科学家研究读者行为和读者保持;Netflix 通过数据分析实现影片推荐;湾区创业公司 Samba TV 借助机器学习技术实现内容推荐。

误解三:“我希望对世界产生积极的影响……为公司赚钱似乎与此存在利益冲突”

为营利公司工作与对人们的生活产生积极影响并不冲突。例如, Premise 是一家实时经济数据跟踪平台。他们使用机器学习技术来发现一些不易发现的问题,比如,帮助发展银行将钱投资到有需要的邻国, Stitch Fix 使用机器学习技术从库存商品中选择客户喜欢的衣服等等。

误解四:“在学术领域,我自己说的算,我喜欢这种自由。我不认自己适合公司结构的环境”

企业结构确实跟学术组织不同,但现如今,在以数据为中心的企业中,那种狂人风格也不是那么普遍。如果你是初创公司最初的成员之一,那么你还有机会影响公司的发展方向。而像 Facebook 和 LinkedIn 这样的大公司会分成若干较小的工作组,以保留初创公司的工作氛围。虽然可能会有团队负责人,但数据科学团队是高度协作的。而且,越来越多的公司实现了在家工作策略,数据科学家可以拥有“无限”假期。

误解五:“我觉得,如果不知道未来 10 年我的职业生涯是个什么样子,就贸然离开学术界,风险太大。要是我就职的公司跨了怎么办?”

不管在哪里,职业生涯都不是可以预测的。数据科学家在一家公司任职的时间平均为 3 到 4 年。数据科学家会留在有挑战的岗位上,但一段时间之后,会寻找新的挑战。好处是,数据科学领域有许多选择,而且正在不断发展,对数据科学家的需求很高。在任何一家公司任职,不管成功与否,都会获得宝贵的经验。在找第一份数据科学工作时,最看中的应该是一个可以从同事那里学得大量知识的协作环境。另一个需要关注的点是,在从学界进入业界时,要努力构建一个强大的关系网络(参加聚会、出席数据大会),它能为你提供建议和其他团队的内部信息。

误解六:“数据科学是泡沫”

有人认为,一旦数据分析实现自动化,数据科学家的角色就不存在了。但数据量正呈指数增长,没有任何迹象表明从数据中寻找答案的需求会慢下来。即使数据科学的某些部分可以自动化,但这个行业仍然需要数据科学家的技能。数据可能会很乱,无法应用恰当的工具或者无法了解所有相关的特性,这会产生有误导性的结果。而且,受过良好训练的数据科学家对数据有更好的理解,他们是大数据时代应对数据挑战的最佳人选。

误解七:“我担心自己不具备成为数据科学家的技能”

编码能力强很重要,但数据科学不全是软件工程。数据科学家集编码、统计分析和判断思维于一身。广受欢迎的硬技能、统计知识、编码能力是一名优秀数据科学家的基本工具。还有一项不容易明确定义的技能,就是博士研究员阶段所接受的良好训练。但是,要成为一名数据科学家,并一定要有物理、统计或计算机科学学位。 June Andrews 的研究显示,在 LinkedIn 从事数据科学工作的人所拥有的学位差别很大。数据科学本身就具有多学科的特点,而且一些公司开始使用领域专属的数据。因此,只要有量化思维,喜欢摆弄数据,对数据如何引导你提出和回答问题心存好奇,那么你就可以脱离学术界,进入数据科学领域。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。

2015-11-15 18:002290
用户头像

发布了 1008 篇内容, 共 406.8 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

如何快速搭建统一数据服务,让数据资源成为数据资产

Kyligence

MLSQL:融合 Spark+Ray,让企业低成本落地 Data+AI

Kyligence

Gartner 报告最新解读:数仓 or 数据湖?

Kyligence

数据湖 Kyligence 数仓 Gartner

跨越可观测性鸿沟|高手们都在用的“火焰图”是什么

尔达Erda

程序员 微服务 云原生 可观测性 链路追踪

给弟弟的信第6封|大学生活攻略

大菠萝

28天写作

宝德牵手英特尔,共同成就教育美好

江湖老铁

为什么预计算技术代表大数据行业的未来,一文读懂

Kyligence

大数据 Kyligence 预计算

npm进阶(一) 更换成淘宝镜像源以及 cnpm

No Silver Bullet

npm 12月日更

辅导孩子写作业,如何才能做到心平气和?

Tiger

28天写作

应对 Job 场景,Serverless 如何帮助企业便捷上云

Serverless Devs

Serverless Job

后 Hadoop 时代的大数据分析路在何方?

Kyligence

大数据 Kyligence Apache Hadoop

尚硅谷Maxwell视频教程发布!

@零度

大数据 Maxwell

如何搭建批流一体大数据分析架构?

Kyligence

HashMap有几种遍历方法?推荐使用哪种?

王磊

复杂分析场景,SQL or MDX ?

Kyligence

【Maven实战技巧】「插件使用专题」Maven-Archetype插件创建自定义maven项目骨架

码界西柚

maven 代码生成 12月日更 骨架生成 架构搭建

运维提效 60%,视野数科 SAE + Jenkins 打造云原生 DevOps

Serverless Devs

大数据 数据 视野数科

解决 Serverless 落地困难的关键,是给开发者足够的“安全感”

Serverless Devs

阿里巴巴 Serverless 运维 Faas 业务

我好像发现了一个Go的Bug

捉虫大师

Go benchmark

浅谈 OLAP 系统核心技术点

Kyligence

存储 Kyligence OLAP系统

函数计算 GB 镜像秒级启动:下一代软硬件架构协同优化揭秘

Serverless Devs

大厂高频面试题Spring Bean生命周期最详解

Tom弹架构

Java spring 源码

Python代码阅读(第68篇):指定值出现次数

Felix

Python 编程 列表 阅读代码 Python初学者

从 Hadoop 到云原生:Kyligence 在云原生巨浪中的思考

Kyligence

数据仓库 云原生 Kyligence 存储计算分离

大数据开发之zookeeper的数据与存储

@零度

大数据 zookeeper

node.js安装及环境配置超详细教程【Windows系统安装包方式】

明金同学

node.js npm Node 软件安装

微信业务架构图

holdzhu

「架构实战营」

常见杀毒软件及其引擎的特点

喀拉峻

网络安全 病毒扫描

极客实战营-模块一作业

众森焱

Kafka之为什么需要消息队列

编程江湖

大数据 kafka

Kyligence + 亚马逊云科技丨实现云上的精细化运营和数字化指挥

Kyligence

从学界到业界:关于数据科学的误解与事实_语言 & 开发_谢丽_InfoQ精选文章