从学界到业界：关于数据科学的误解与事实_语言 & 开发_谢丽

大厂Data+Agent 秘籍：腾讯/阿里/字节解析如何提升数据分析智能。了解详情 



 写点什么

在从学界（粒子物理学博士后研究员）进入业界（数据科学领域）时，Emily Thompson 也曾有过犹疑。而现在，在担任 Insight 项目总监 10 个月之后，她对数据科学家有了自己独特的看法。近日，她在一篇文章中就当前人们对数据科学的误解谈了自己的看法，主要涉及数据科学家的职责、应用领域、工作环境、职业发展、技能集合等方面。。

误解一：“‘数据科学家’只是‘业务分析师’的一种花哨叫法，他们本质上是相同的”

在数据科学领域，业务分析师仍然占了很大一部分，而数据科学家也构建数据产品，创建软件平台，实现可视化和仪表板，开发前沿机器学习算法。“数据科学家”与“分析师”的最大差别可能是角色的独立性水平。传统的业务分析师需要别人给他们提供已经做过清理并打包好的数据供他们使用；而数据科学家必须是熟练的程序员，他们能够抽取、转换、加载数据，对其他团队的依赖较少。

误解二：“数据科学没什么用，我未必会进入广告行业，或成为一名股市分析员”

数据科学的应用领域同数据科学领域本身一样多样化。计量金融和广告是使用数据挖掘的两个相对传统的行业。医疗行业正在经历一场数据革命。可穿戴技术让收集、聚合、分析大量个人数据成为可能，从如何恰当地锻炼到睡眠如何影响情绪。多媒体是另一个数据科学的重大应用领域。比如，像News Corp.、The New York Times 和Bloomberg 等大型媒体公司都雇用数据科学家研究读者行为和读者保持；Netflix 通过数据分析实现影片推荐；湾区创业公司 Samba TV 借助机器学习技术实现内容推荐。

误解三：“我希望对世界产生积极的影响……为公司赚钱似乎与此存在利益冲突”

为营利公司工作与对人们的生活产生积极影响并不冲突。例如， Premise 是一家实时经济数据跟踪平台。他们使用机器学习技术来发现一些不易发现的问题，比如，帮助发展银行将钱投资到有需要的邻国， Stitch Fix 使用机器学习技术从库存商品中选择客户喜欢的衣服等等。

误解四：“在学术领域，我自己说的算，我喜欢这种自由。我不认自己适合公司结构的环境”

企业结构确实跟学术组织不同，但现如今，在以数据为中心的企业中，那种狂人风格也不是那么普遍。如果你是初创公司最初的成员之一，那么你还有机会影响公司的发展方向。而像 Facebook 和 LinkedIn 这样的大公司会分成若干较小的工作组，以保留初创公司的工作氛围。虽然可能会有团队负责人，但数据科学团队是高度协作的。而且，越来越多的公司实现了在家工作策略，数据科学家可以拥有“无限”假期。

误解五：“我觉得，如果不知道未来 10 年我的职业生涯是个什么样子，就贸然离开学术界，风险太大。要是我就职的公司跨了怎么办？”

不管在哪里，职业生涯都不是可以预测的。数据科学家在一家公司任职的时间平均为 3 到 4 年。数据科学家会留在有挑战的岗位上，但一段时间之后，会寻找新的挑战。好处是，数据科学领域有许多选择，而且正在不断发展，对数据科学家的需求很高。在任何一家公司任职，不管成功与否，都会获得宝贵的经验。在找第一份数据科学工作时，最看中的应该是一个可以从同事那里学得大量知识的协作环境。另一个需要关注的点是，在从学界进入业界时，要努力构建一个强大的关系网络（参加聚会、出席数据大会），它能为你提供建议和其他团队的内部信息。

误解六：“数据科学是泡沫”

有人认为，一旦数据分析实现自动化，数据科学家的角色就不存在了。但数据量正呈指数增长，没有任何迹象表明从数据中寻找答案的需求会慢下来。即使数据科学的某些部分可以自动化，但这个行业仍然需要数据科学家的技能。数据可能会很乱，无法应用恰当的工具或者无法了解所有相关的特性，这会产生有误导性的结果。而且，受过良好训练的数据科学家对数据有更好的理解，他们是大数据时代应对数据挑战的最佳人选。

误解七：“我担心自己不具备成为数据科学家的技能”

编码能力强很重要，但数据科学不全是软件工程。数据科学家集编码、统计分析和判断思维于一身。广受欢迎的硬技能、统计知识、编码能力是一名优秀数据科学家的基本工具。还有一项不容易明确定义的技能，就是博士研究员阶段所接受的良好训练。但是，要成为一名数据科学家，并一定要有物理、统计或计算机科学学位。 June Andrews 的研究显示，在 LinkedIn 从事数据科学工作的人所拥有的学位差别很大。数据科学本身就具有多学科的特点，而且一些公司开始使用领域专属的数据。因此，只要有量化思维，喜欢摆弄数据，对数据如何引导你提出和回答问题心存好奇，那么你就可以脱离学术界，进入数据科学领域。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入 InfoQ 读者交流群）。

发布

暂无评论

创作场景

从学界到业界：关于数据科学的误解与事实

评论

安全大文件传输对行业重要性

OpenAI 函数调用教程

选择正确的框架：探索 Spring Cloud 和 Dubbo

2023年中国信通院铸基计划“文本图像篡改检测系统技术规范”研讨会成功召开

中东、新加坡资本来华“淘宝”，AI、新能源成追逐赛道

three.js 纹理

Python 套接字编程完整指南

Linux 可执行文件瘦身指令 strip 使用示例

国际顶会SC23收录唯一区块链论文，微众银行技术实力受学术界认可

数据库顶会 VLDB 2023 论文解读：字节跳动如何解决超大规模流式任务运维难题

Solr数据迁移ES

解锁项目管理神器——低代码开发平台

使用 WebGL 为 HTML5 游戏创建逼真的地形

人工智能的优势：使用 GPT 和扩散模型生成图像

你折腾一天都装不上的插件，函数计算部署 Stable Diffusion 都内置了

Zookeeper简述

文心一言 VS 讯飞星火 VS chatgpt （87）-- 算法导论8.2 4题

企业大数据传输的四类方式及镭速解决方案

通过一流的NFT开发提升您的数字形象

亚信科技AntDB数据库携“U8C+AntDB联合产品”亮相“2023全球商业创新大会”，开启生态合作新篇章

Masks Person面具人MAR现在值得参与吗

828 B2B企业节：ROMA Connect探究数字化转型之道

木鱼一敲烦恼丢掉，一个恢复内心平静的赛博空间

创作场景

从学界到业界：关于数据科学的误解与事实

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载