QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

分析师凭什么要做数据科学领域的“二等公民”?

  • 2020-04-20
  • 本文字数:5605 字

    阅读完需:约 18 分钟

分析师凭什么要做数据科学领域的“二等公民”?

小心你所热衷的技能,因为不明智的选择可能带来毁灭性的后果。除了团队管理不善和不必要的录用之外,你还会看到真正的英雄辞职或接受再教育,以适应你当前的激励机制。这种现象的一个典型例子就是分析学。

寻找顶尖人才

数据科学领域的顶尖人才很难找到,这并不奇怪:“全栈”数据科学家意味着精通机器学习统计分析。当团队无法得到三合一的博学者时,他们就把目光放在了吸引单一专家中最令人印象深刻的角色上。谁获得了宠爱?


如今,数据科学的流行趋势是,华而不实的复杂技术加上一点科幻色彩,让人工智能和机器学习成为招聘领域的宠儿。挑战其第一位置的其他挑战者来自统计,这要感谢其一个世纪以来的严谨声誉和数学优势。那分析师呢?

分析是二等公民

如果你的主要技能是分析(或数据挖掘或商业智能),那么当前面提到的那些人昂首挺胸地从你身边走过,而就业市场又毫不避讳地告诉你需要提升自己的技能才能加入他们时,你的自信心很可能会受到打击。


优秀的分析师是数据工作有效的先决条件。让他们放弃对你来说很危险,但如果你低估了他们,他们就会这么做。


外行人很少能理解的是,在数据科学的环境里,这三种职业是完全不同的。但相似之处是,他们可能使用相同的公式。优秀的分析人员绝不是其他数据科学角色的残缺版本,而是数据工作有效的先决条件。让他们放弃对你来说很危险,但如果你低估了他们,他们就会这么做。

同样受人尊敬

与其要求分析师开发他们的统计机器学习技能,不如考虑鼓励他们首先寻求在自己的学科上达到一定的高度。数据科学这个东西,一个领域的卓越胜过两个领域的平庸。


这三个数据科学学科都有自己的优点。统计学家带来严谨,ML 工程师带来效能,分析师带来速度。


在最高级的专业知识方面,这三个角色都同样受人尊敬,但它们提供的服务非常不同。为了理解其中的微妙之处,让我们来看看在每一门数据科学学科中成为真正优秀的人意味着什么,他们能带来什么价值,以及在每一份工作中需要具备哪些性格特征。

统计人员的优秀之处:严谨

作为在数据之外得出结论的专家,统计学家是避免你在一个不确定的世界里自欺欺人的最佳保护。对他们来说,草率地推断某件事比让你的大脑一片空白更不可取,所以我们会希望有一位优秀的统计学家来抑制你的兴奋。他们总是小心翼翼地关注所采用的方法是否适合问题,并为从手头信息中推断出的哪些结论有效而烦恼。


大多数人都没有意识到统计学家本质上是知识学家。既然没有什么魔法能让不确定性变成确定性,那么他们的角色就不是生产真理,而是将令人愉快的假设与可获得的信息合理地结合。


结果呢?提供一个帮助领导者以风险控制的方式做出重要决定的视角。


不出所料,许多统计学家对“自命不凡的人”的反应都是尖酸而刻薄,这些人只是学习些公式,却没有汲取任何哲学知识。如果与统计学家打交道让你感觉筋疲力尽,这里有一个快速解决方案:不要数据之外的任何结论,你也不需要他们的服务。(说起来容易做起来难,对吧?特别是如果你想做一个重要的发布决定。)

机器学习人员的优秀之处:效能

如果你对“我打赌你不能建立一个准确率 99.99999%测试模型”的回答是“看我的。”,那么你可能是一名应用机器学习/AI 工程师。


有了编码能力,可以建立起可行的原型和生产系统,以及延续数年每小时都失败的强大恢复能力(如果那是必要的),机器学习专家知道,他们无法在教科书中找到完美的解决方案。相反,他们将陷入一场马拉松式的反复试验对他们尝试每一个新选项需要多长时间有良好的直觉是一个巨大的优势,而且比深入了解算法的工作原理更有价值(尽管两者兼而有之也很好)。


结果呢?这个系统可以很好地自动化一项复杂的任务,从而通过统计人员的严格测试,并提供业务领导者所要求的非常规效能。


效能不仅仅意味着明确一个度量标准——它还意味着可靠、可伸缩和易于维护的模型,这些模型在生产中表现良好。优秀的工程设计是必须的。

广度 vs. 深度

前面两个角色的共同点是,它们都为特定的问题提供了高质量的解决方案。如果他们处理的问题不值得解决,你最终会浪费他们的时间和金钱。业务负责人经常会发出这样的叹息:“我们的数据科学团队毫无用处。”而问题通常在于缺少分析专家。


统计学家机器学习工程师是窄而深的工作人员(顺便说一句,就像兔子洞的形状),所以为他们指出值得努力解决的问题是非常重要的。如果你的专家们正在小心地解决错误的问题,那么你在数据科学上的投资当然只会获得低回报。为了确保你可以很好地利用窄而深的专家,你需要确定你已经有了正确的问题,或者你需要一个宽而浅的方法来找到一个问题。

分析人员的优秀之处:速度

最好的分析师是快速的程序员,他们可以快速浏览大量的数据集,比其他专家所说的“白板”更快地发现并提出潜在的见解。他们有些马虎的编码风格让传统的软件工程师感到困惑……直到把他们远远甩在后面。速度是其最大的优点,其次是不忽视可能有用的东西。掌握信息的可视化表示有助于解决大脑方面的速度瓶颈:漂亮而有效的图表让大脑可以更快地提取信息,快速获得潜在的见解。


在统计学家和 ML 人员反应迟钝的领域,分析师是决策者和其他数据科学同事的灵感旋风。


结果是:企业摸清了脉搏,看到了以前未知的未知。这带来了灵感,帮助决策者选择有价值的任务并将其发送给统计学家和 ML 工程师,将他们从数学上令人印象深刻而又实际没用的兔子洞中拯救出来。

草率的废话,还是精彩的故事?

“但是,”反对统计学家的人说,“他们大多数所谓的见解都是胡说八道。”他们的意思是,这些人的探究结果可能只反映噪音。也许吧,但还有更多的故事。


分析师是数据故事的讲述者。他们的任务是总结有趣的事实,并小心地指出,如果没有统计跟踪,任何伴随而来的诗意灵感都不会被认真对待。


买家注意:有很多数据骗子冒充数据科学家。没有什么魔法能使不确定性变成确定性。


优秀的分析师对他们职业中的一条黄金法则有着坚定不移的尊重:不要在数据之外得出结论(并阻止你的受众这么做)。不幸的是,货真价实的分析师相对较少——买家注意:有许多冒充数据科学家的数据骗子。他们胡言乱语,毫无章法地跳出数据,“支持”一厢情愿的决定。如果你的道德标准是宽松的,也许你会把这些蛇油推销员留在身边,让他们成为你的业务营销黑魔法的一部分。就我个人而言,我宁愿不要。


优秀的分析师对他们职业中的一条黄金法则有着坚定不移的尊重:不要在数据之外得出结论。


只要分析师坚持事实(“这里就是这个。”这是什么意思?“只是:这里就是这个。”),不要对他们过于严肃,他们犯下的最严重的罪行就是浪费别人的时间。出于对他们的黄金法则的尊重,优秀的分析师会使用温和的、模棱两可的语言(例如,不是“我们得出结论”,而是“我们被激发出好奇心”),通过强调对每一种见解都有多种可能的解释,来打击领导者的过度自信。


虽然检验假设需要统计技能,但分析人员是首先提出这些假设的最佳人选。例如,他们可能会说“这只是一种相关性,但我怀疑它可能是由……”,然后解释为什么他们会这么想。


这需要对数据之外可能发生的事情有很强的直觉,以及将选项传达给决策者的沟通技巧,决策者通常会决定哪些假设(许多假设)足够重要,值得统计学家付出努力。随着分析师的成熟,他们将开始掌握窍门,判断什么东西是重要的,什么东西是有价值的,从而让决策者摆脱中间人的角色。


在这三类人中,分析师是最有可能继承王位的人。


因为学科问题专家可以帮助你更快地发现数据中有趣的模式,所以最好的分析师会认真地熟悉这个领域。不这样做是一个危险的信号。当他们的好奇心促使他们对业务产生一种感觉时,他们的产出就会从一堆错误的警报转变为一套决策者更有可能关心的、精心策划的见解。


为了避免浪费时间,分析师应该列出他们想要讲述的故事,并从多个角度进行后续调查,看看它是否站得住脚,然后再提交给决策者。如果决策者处于被一个鼓舞人心的故事驱使采取重要行动的危险之中,这是统计人员介入的信号,根据决策者愿意接受并承担风险的假设,检查(当然是在新数据中)行动是明智的选择。

分析师和统计学家的复合人才

对于坚持事实的分析师来说,没有什么会错,只会慢。在“做正确的事情”中加入统计专业知识忽略了一个重要的点,特别是因为在探索性数据分析和统计严谨性之间有一个非常重要的过滤器:决策者。具有决策责任的人必须在业务影响上签字,确认分析师的见解值得花费专家大量的时间。除非分析学家和统计学家的复合体同时也是一个有经验的决策者和业务负责人,否则他们的技能组合形式就像一个有夹层的三明治。


然而,一位填补这一缺口的分析师,其价值堪比黄金。请珍惜他们!

机器学习和 AI 分析学

机器学习专家将大量潜在的数据输入算法,调整设置,并不断迭代,直到产生正确的输出。虽然听起来似乎这里没有分析的角色,但在实践中,一家企业往往有太多可能的配料,无法一下子把它们全部塞进搅拌机里。


分析师是短跑运动员;他们具有帮助你快速查看和总结“是什么”的能力,而这种能力是你的流程的超能力。


有一种方法可以筛选到一个有价值的集合来尝试,那就是领域专家——询问一个人对事情如何运作的看法。另一种方法是通过分析。跟烹饪做个类比,机器学习工程师擅长在厨房里修修补补,但现在他们正站在一个巨大而黑暗的仓库前,里面装满了可能的配料。他们可以随意取一些,把它们带回厨房,也可以先派一个带着手电筒的短跑运动员穿过仓库。你的分析师就是短跑运动员;他们具有帮助你快速查看和总结“这里是什么”的能力,而这种能力是你的流程的超能力。

分析师和机器学习专家复合人才

分析人员可以加速机器学习项目,因此双重技能非常有用。不幸的是,由于分析和ML工程之间的编码风格和方法差异,个人拥有最高专业知识的情况并不常见(更罕见的是,在需要的时候,他会变得迟钝而富有哲理,这就是为什么真正的全栈数据科学家确实是一头罕见的野兽)。

长期低估的危险

一个专家分析师不是机器学习工程师的一个粗制滥造的版本,他们的编码风格特意针对速度做过优化。他们也不是糟糕的统计学家,因为他们根本不处理不确定性,他们处理的是事实。“这是我们的数据,我的工作不是讨论现有数据之外的意义,但它可能会激励决策者与统计学家一起探讨这个问题……”


初学者没有意识到,这项工作需要顶级分析师对数据科学的数学理解比其他任何一种角色都要好。除非这项任务非常复杂,需要发明一种新的假设检验或算法(这是研究人员的工作),否则统计学家和 ML 专家可以依赖于检查现成的软件包并检验它们是否适合这项工作,但他们通常可以不必亲自面对这些公式。


例如,统计学家可能会忘记 t 检验的p值公式,因为他们是通过点击并运行一个软件包来得到它,但他们永远不会忘记如何以及何时使用它,以及对结果的正确哲学解释。另一方面,分析师们并不打算对此做出解释。他们想要一个骇人而巨大的多维数据集。通过了解 p 值公式对数据集的切片方式,他们可以对原始数据集中的模式形成一个反向视图,从而生成他们看到的数字。没有对数学的理解,你就不会得到那个观点。然而,与统计学家不同的是,他们并不关心 t 检验是否适用于数据。他们关心的是 t 检验能让他们对当前数据集中发生的事情有一个有用的看法。区别很细微,但很重要。


统计学家处理数据之外的事情,而分析师则专注于数据内部的事情。


对于最优秀的人员,他们都是非常数学化的,他们经常使用相同的公式,但他们的工作是完全不同的。


类似地,分析人员经常使用机器学习算法对数据进行切片,识别引人注目的分组,并检查异常情况。因为他们的目标不是效能,而是灵感,所以他们的方法不同,并且对ML工程师来说可能显得草率。同样,这是在不同的工作中使用相同的工具。


用一个类比来总结一下:外科医生、裁缝和办公室职员都用大头针。这并不意味着这些工作是相同的,甚至可以相提并论,鼓励你的所有裁缝和办公室工作人员学习外科手术来提升他们的职业生涯是危险的。


每项业务都需要的唯一角色是决策制定者和分析师。如果你失去了分析师,谁来帮你找出哪些问题值得解决?


如果你过分强调雇佣和奖励机器学习和统计方面的技能,你就会失去分析师。那么谁来帮你找出哪些问题值得解决呢?你将只剩下一群可怜的专家,他们一直被要求从事毫无价值的项目或分析任务,而他们并不是主动要参加这些项目或任务。你的数据将毫无用处。

关心和培养研究人员

如果这听起来还不够糟糕,许多领导者试图聘请博士,并过分强调研究——而不是应用——统计学家和 ML 工程师的版本……而又没有一个有价值的、重要的、已知算法不可能解决的问题。


只有当你投资于一个研究部门,而且你不打算询问你的研究人员最近为你做了什么时,这样做才合适。为研究而研究是一项高风险的投资,很少有公司能够承担得起,因为从研究中得不到任何有价值的东西是一种非常现实的可能性。


只有当你有合适的问题需要研究人员解决时,他们才不属于研究部门——他们的技能是在现成的版本并不存在时从零开始创建新的算法和检验——否则他们将经历一个暗淡的西西弗斯螺旋(这将完全是你的错,而不是他们的)。研究人员通常要花上 10 年多的时间进行培养,这至少值得尊重,因为他们不必投入到完全无关的任务中去。


如果有疑问,首先雇佣分析师,而不是其他角色


因此,在分析人员帮助你确定了一个有价值的项目,并尝试借助应用数据科学家来完成它,但已经失败之后,才应该将他们召到一个应用项目中。那就是你培养专业发明家的时候了。

小 结

如果有疑问,首先雇佣分析师,而不是其他角色。感激他们并给予奖励。鼓励他们在他们所选择的事业(而不是其他人的)上达到顶点。在这篇文章提到的角色中,只有决策者和分析师是每项有数据的业务都需要的角色。其他的角色只有当你确切知道需要它们做什么的时候才有用。从分析开始,并为你的新能力感到自豪,你可以睁开眼睛,丰富和美丽的信息就在你的面前。灵感是一种强大的东西,不容忽视。


查看英文原文:


https://towardsdatascience.com/data-sciences-most-misunderstood-hero-2705da366f40


2020-04-20 15:501646
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 282.4 次阅读, 收获喜欢 1303 次。

关注

评论

发布
暂无评论
发现更多内容

用Serverlss部署一个基于深度学习的古诗词生成API

刘宇

自然语言处理 学习 Serverless

5天掌握以太坊 dApp 开发

陈东泽 EuryChen

比特币 区块链 智能合约 以太坊 dapp

Linux 常用命令

Jayli

Linux

往日之歌

彭宏豪95

市场调研分析师走向末法时代

人称T客

为什么要云原生?

Aaron_涛

架构 云原生

SaaS生态比拼,谁会是这场PK中的主角?

人称T客

python实现·十大排序算法之冒泡排序(Bubble Sort)

南风以南

Python 排序算法 冒泡排序

极客时间学习心得:用分类和聚焦全面夯实技术认知

Anfernee Hu

学习

一个前端工程师与死神的较量

陈辰

大前端 压力 医院 生活质量 工程师

金蝶2019财报在此——比头条更精彩

人称T客

一文搞懂Spring依赖注入

麦洛

一个产品最不重要的东西

Neco.W

产品 外包 产品经理

Java开发架构篇:DDD模型领域层决策规则树服务设计

小傅哥

领域驱动设计 DDD 小傅哥 重构

程序员的修行之路-人生是一场修行

牧马人

程序员

汇总一下Intellij IDEA常用的牛逼插件

公众号:V5codings

Java 25周年:MovedByJava之观点

X.F

Java 架构 编程语言

Spring Security 如何将用户数据存入数据库?

江南一点雨

Java spring Spring Cloud Spring Boot spring security

教你快速升职加薪(毒鸡汤,慎服……)

Geek_6rptuk

团队管理 企业文化 个人成长 团队建设

忙于数字化转型,你避坑了吗?

人称T客

首厚智能:嵌入 SpreadJS 表格组件,搭建实验室信息管理系统(LIMS)

葡萄城技术团队

SpreadJS 实验室管理系统 Lims

kube-prometheus抓取jvm监控指标

天飞

Java JVM Prometheus kubernete

《3个月9门课,谈下我的极客时间学习活动的心得》

王伟鹏

kotlin 200行代码开发一个简化版Guice

陈吉米

Java kotlin guice ioc mynlp

Spring Security+Spring Data Jpa 强强联手,安全管理只有更简单!

江南一点雨

Java spring Spring Boot spring security

3亿办公族合力,第三代SaaS抵达战场

人称T客

用友2019财报:你们看到的是数字,我却看到了office

人称T客

BPM产业数字观察:中国市场趋向成熟,蛰伏的BPM即将醒来

人称T客

游戏夜读 | 写游戏用什么语言?

game1night

分布式系统选主怎么玩

奈学教育

分布式系统

程序员的修行之路-培养工作兴趣

牧马人

程序员

分析师凭什么要做数据科学领域的“二等公民”?_AI&大模型_Cassie Kozyrkov_InfoQ精选文章