AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

那些数据工作中的角色

  • 2021-07-20
  • 本文字数:3252 字

    阅读完需:约 11 分钟

那些数据工作中的角色

数据工作中有一类非常重要的角色,那就是数据分析师。为什么这个角色这么重要呢?因为要是没有这个角色,不管一个企业中的数据管理做得有多么好都没用,都无法带来实际的价值。这些数据就像是藏在海底的石油,而数据分析师就是开采海底石油的油井设备。要想让石油用于汽车轮船,需要通过这些设备先将海底的石油抽取出来,经过加工处理,提纯。

数据分析师

这个角色通常做什么呢?数据分析师的日常工作当然就是做数据分析。比如要分析一个应用的客群特征,分析用户的留存率,活跃程度等等。但是,对于数据分析工作,最重要的是业务理解,对软件开发技术的要求其实并不高,能写 SQL 就能完成大部分工作了。比如留存率的计算,技术上一个带 join 和 where 的 SQL 查询就实现了,但是分析的目标远不止于此,对于分析而言,更重要的是要知道为什么留存率是计算出来的这个数值以及这个值究竟意味着什么。考察为什么是这个数值,可能会发现是由机器人贡献了较高的留存率,企业内员工也贡献了较高的留存率,真实的用户其实贡献了一个较低的留存率。考察这个值究竟意味着什么,首先会观察其变化趋势,可能会发现留存率有所上涨或下降,然后,最重要的,根据这一情况应该从业务上做些什么。


从这里的分析可以看出,数据分析师是具备一定的技术能力,但更偏业务的一种角色。可能有人会说,我之前在互联网公司待过很长时间,似乎也没听说过需要这样一种角色呀。没错,其实在很多规模不大的互联网公司,根本没有明确定义数据分析师这样的角色,但这一角色并非不存在,通常这样的角色是被市场运营人员和产品经理兼任了。当前国内的互联网公司普遍招聘的产品经理或运营人员的一个重要的能力要求就是会分析数据,然后根据数据改进产品设计或改进运营策略。我见到过很多公司的产品经理和运营人员写 SQL 写的非常溜,他们正是在进行分析数据,并根据数据进行业务改进。

数据科学家

对于数据分析师而言,技术上只要会 SQL 就够了么?当然不是。当业务发展到一定程度之后,想要做到精细化的运营,简单的 SQL 工具可能就无法满足数据分析师的需求了。这时,可能要请出来一些大家觉得高大上的算法模型了。


比如,要做客群细分,是不是要来个 RFM 模型呢?要挑选一些客户来做营销,是不是要做个逻辑回归模型来预测一下哪些客户是潜在的高价值营销客户呢?想做交叉销售提升现有客户价值,是不是要来个关联分析呢?一旦涉及到建模分析,问题就不一样了,这些分析手段非常专业,非计算机专业,数学能力比较差的同学接受起来可能就会比较困难。但也绝非不可能,市场上其实已经有很多专门为建模分析而生的专业工具了。其中最有名的莫过于 SAS。只需要使用者明白基本的算法原理,然后跟随软件的可视化引导进行操作就可以完成基本的建模分析。


这样一来,是不是具有计算机或者数学背景的偏业务的数据分析师们也可以来做了呢?有不少公司将同时懂业务,会 SQL,会建模分析的人员称为数据科学家。需要拥有这么多的交叉专业背景,这一角色的门槛显然非常高了。然而,数据科学家这一角色对于一个日渐壮大的企业而言却是非常重要的,常常可以带来企业核心竞争力的进一步提升,为企业建立竞争壁垒。按照前面对数据科学家的定义,企业内部常常是缺少堪称数据科学家的人才的。即便有,也更多是某一领域的数据科学家,因为需要有深厚的业务知识积累。而一个人其实是很难具有多个行业多个领域的业务经验的。所以,一般而言,企业中更多的人才资源是数据分析师,即便有数据科学家,可能更多也谦称为数据分析师。当然可能也有另一个原因,数据分析师的名字听起来会更偏解决实际业务问题,而数据科学家则更像是偏学术理论研究。

数据工程师

数据工作当然还少不了一类角色,那就是数据工程师。不管是数据分析师还是数据科学家,都是基于数据进行分析的。那数据从哪里来,数据管理是不是做的足够好,数据提取是不是足够容易,在大规模的数据集上面进行计算是否高效,这些问题常常成为了挡在数据分析师和数据科学家前面的一堵墙。为了打破这堵墙,就需要数据工程师了。


所以,数据工程师的职责是什么呢,那就是为数据分析师和数据科学家服务。将数据有效的管理起来,让他们可以轻易的获取并理解数据。为他们提供分布式的探索环境,让他们可以高效的在大规模的数据集上面进行计算。除了为数据分析提供服务,数据工程师还需要做好其他的企业数据管理工作,比如数据安全,数据标准,数据质量管理等。想做好企业数据管理并非易事,如何在企业内部建立数据标准,如何进行数据安全定级,并分别对不同安全级别的数据实施不同的安全策略,如何推进企业数据质量建设。


这些问题没有一个是可以轻易做到的,非但不能轻易做到,甚至对数据管理经验要求非常高。这对于数据工程师的行业经验、工程经验都提出了更高的要求。业界通常将有这些经验足够丰富的数据工程师称为数据架构师。

转型到数据分析师

能不能不要数据分析师呢?经过前面的角色拆解分析可以知道,企业里面总是会先有数据分析师(即便可能暂时没有这个称号),再有数据工程师。如果一项数据工作中没有数据分析师,那这个项目就很容易演变成一群做技术的人的自嗨,搭建各种前沿大数据平台,什么分布式计算流式计算一起上,做了很长的时间烧了大把经费之后发现没有什么可见的业务价值,然后不得不因为项目经费的原因遗憾收场。


所以,要想做好数据这块业务,数据分析师这一角色是不可缺少的。如何应对数据分析师的短缺呢?最直接的办法就是扩充拥有数据分析能力的人才了。人才可以有两方面来源,一是招聘,二是内部转岗。首先看内部转岗。内部转岗可以说是最先采用的人才扩充方式。能不能由软件开发人员转做数据工程师或者数据分析师呢?其实软件开发人员转做数据工程师相对是比较容易的。但是还是需要补充较多的数据专业能力,比如数据仓库的建设方案,如何进行数据建模,如何进行数据治理,如何进行数据开发和调试,如何实现数据服务及可视化,如何打造数据平台等。能不能由软件开发人员转做数据分析师呢?


这种情况就比较有难度了。主要是业务思维和技术思维有着很大的不同,业务思维想要解决当前的业务问题创造利润,怎么快怎么做,看重可操作性和效果而非技术,而技术思维却是想着维护产品的高质量,稳步的进行迭代演进。所以,我们常常见到,业务人员不能理解做技术的要考虑各种边界情况,各种依赖情况,导致一个功能要做很久;技术人员也不能理解业务为啥要天天变,刚做好的功能还没产生业务价值又要推翻重来。除了思维方式需要转变,业务经验积累也变成了这里的角色转变的绊脚石。能不能由 BA 转做数据分析师呢?我们看到公司内部其实有不少数据分析师是 BA 的角色转变而来的。


但是新的角色对于 BA 而言同样存在很大的挑战。比如如何快速的去熟悉一个新行业的业务,如何提升 SQL 技能,甚至如何自我学习和提升达到具备进行统计分析,假设检验,建模分析的能力。这些都是不容易的。

企业数据人才结构

前面介绍了数据工作的相关角色,隐隐约约可以看出企业数据人才组成结构了,我们姑且将其称为企业数据人才架构。用一张简图可以表示如下:

前面只是最基本的角色定位,在实际企业环境中,常常会由于各自的企业基因和文化而有所不同。比如,如果是一家创业型小公司,可能就只分为技术、产品、运营三种大的角色。技术人员将完成业务功能开发、运维、数据管理等等一系列工作。产品人员将基于产品数据分析完成产品设计和优化。运营人员将基于运营数据分析完成运营策略、运营活动的设计等。


如果这家创业型公司以业务为核心,那么可能前期会直接采购相关的软件产品,连技术和数据分析都没有。一家以软件技术为核心的中型公司(比如互联网公司),业务逐步成熟,就开始设置专门的数据部门和数据工程师岗位。而一家以业务为核心的中型公司(比如零售、保险等公司),业务逐步成熟,就开始设置专门的数据分析部门和数据分析师岗位。随着业务的进一步扩大,各个角色的专业性越来越强,大型企业中常常设置数据架构师、数据科学家等角色,以应对特别复杂的业务场景。


本文转载自:ThoughtWorks 洞见(ID:TW-Insights)

原文链接:那些数据工作中的角色

2021-07-20 08:001568

评论

发布
暂无评论
发现更多内容

DAPP众筹互助游戏开发详细丨DAPP众筹互助游戏系统开发(开发逻辑及案例)

系统开发咨询1357O98O718

一文上手图数据备份恢复工具 NebulaGraph BR

NebulaGraph

数据库 容灾备份

【知识科普】晶振究竟是如何起振的?

元器件秋姐

科普 晶振 元器件 电子

FDF循环互助游戏开发说明丨FDF循环互助游戏系统开发详细及案例源码

系统开发咨询1357O98O718

DAPP马蹄链智能合约系统丨DAPP马蹄链智能合约系统开发(开发规则))

系统开发咨询1357O98O718

云原生+新技术,会碰撞出怎样的火花?

墨天轮

数据库 阿里云 Serverless 云原生 华为云

DTALK直播预约 | 深度解析大资管行业数字化转型

袋鼠云数栈

数字化转型

寻找 Milvus 的第 N+1 种可能

Zilliz

Milvus Meet Up

图片动画化应用中的动作分解方法

百度Geek说

深度学习 算法 计算机视觉 企业号 3 月 PK 榜

MetaForce佛萨奇2.0开发规则丨MetaForce佛萨奇2.0系统开发说明及案例

系统开发咨询1357O98O718

微信小程序自动化测试方案实践过程

Openlab_cosmoplat

开源社区 微信小程序测试

分享一个 hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题

明哥的IT随笔

大数据 hive

等保测评机构资质申请条件是什么?个人可以申请吗?

行云管家

等级保护 等保测评 等保测评机构

OpenCloudOS 轻量级虚拟化引擎 LiKeX 介绍

OpenCloudOS

Linux 容器 rust

十分钟读懂火山引擎DataLeap数据治理实践

字节跳动数据平台

大数据 数据研发 企业号 3 月 PK 榜

查询性能: TDengine 最高达到了 InfluxDB 的 37 倍、 TimescaleDB 的 28.6 倍

TDengine

大数据 tdengine 性能测试 时序数据库

华为阅读全新上线高品质男声,带来身临其境般听书体验

叶落便知秋

如何召开成功高效的项目会议?

PMO实践

项目管理 PMO

一文解码:如何在人工智能热潮下实现产业“智”变

加入高科技仿生人

人工智能 AI 低代码 智能化

用友与百度强强联合,以AI深化冶金行业数智化应用场景

用友BIP

3 问 6 步,极狐GitLab 帮助企业构建高效、安全、合规的 DevSecOps 文化

极狐GitLab

DevOps DevSecOps 安全测试 极狐GitLab 安全左移

马蹄链智能合约开发方案丨马蹄链智能合约系统开发(开发说明))

系统开发咨询1357O98O718

SpringBoot整合ElasticSearch

Geek_7ubdnf

Java elasticsearch

从5分钟到60秒,袋鼠云数栈在热重启技术上的提效探索之路

袋鼠云数栈

热重启

国贸股份 x 袋鼠云:推进全链业务深度数字化,为产业综合服务插上数字化翅膀

袋鼠云数栈

数字化转型

IoT物联网平台运行监控最佳实践——设备管理运维类

阿里云AIoT

监控 物联网

软件测试/测试开发丨基于 Spring Boot 的 RESTful API 设计与实现

测试人

Spring Boot 软件测试 测试发开 RESTful API

一图读懂工业数据要素高水平应用

Openlab_cosmoplat

工业数据

内存耗尽后Redis干了什么

CTO技术共享

用友BIP接入百度文心一言 持续使能企业数智商业创新

用友BIP

那些数据工作中的角色_大数据_张凯峰_InfoQ精选文章