速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

深入浅出数据产品三部曲系列之一 前世之旅

  • 2016-08-22
  • 本文字数:4615 字

    阅读完需:约 15 分钟

想看更多产品干货文章?推荐极客时间专栏《邱岳的产品手记》,一次订阅、永久阅读。即日起,戳此订阅立享以下两大福利:

福利一:原价 ¥58/45 期,极客时间新用户注册立减 ¥30

福利二:每邀请一位好友购买,你可获得18 元现金返现,多邀多得,上不封顶,随时提现(提现流程:极客时间服务号- 我的- 现金奖励提现)

在前边系列文章“我所经历的大数据平台发展史”四篇讲述了数据平台的发展史,算是我在三四月份的一个写作尝试,进入数据领域有年头觉得有必要花费时间来总结、沉淀这段在数据领域的经历,并与大家来一起分享。

开始写“数据产品”这个系列文章只是想把自己记忆中数据产品知识系统整理一下。过程中觉得想搞明白“数据产品“等系列的知识,差不多需要一本书,毅然决定入坑。

这次分享的 《深入浅出数据产品三部曲》系列文章是正在写的《深入浅出数据产品》Building big Data Products 书的节选。(Ps 书名还没想好)

什么是数据产品?

数据产品的特点是什么?

是从什么时代出现的,它的前生今世是什么?

在当今火热的数据时代,数据产品是个被炒热的旧瓶新装,还是一个新生事物或者什么? 我也想在这个“深入浅出数据产品”系列把这些问题尝试想清楚,并与大家来一起分享。

“深入浅出数据产品”系列的第一篇将带大家一起从Dss 决策支持时代到商业智能、再到当今的数据化运营在企业数据应用特点。

数据价值的传承

自1954 年计算机用于工资处理以后,一直到2016 年的今天,企业在信息化处理上得到了长足的发展。在这个发展中经历过了数据处理系统、Mis 管理系统、决策支持、商业智能。企业的信息化程度随着时代的变迁已经发生了犹如阿波罗登月般的翻天覆地变化。

Dss 决策支持系统是建立在对传统企业历史数据集成基础上的数据探索应用,(备注决策支持系统发展此处不再叙述,感兴趣的读者可以自行查询) 自从数据仓库的出现给对企业的决策支持注入了新的活力,发展到现在的互联网、移动互联网对数据的应用又是一个崭新阶段。

不管是在哪个时代的企业高层都要做一项决策,其困难度也是不同的,在20 世纪 60 年到 70 年,决策中往往是需要查询多种异构数据源的业务系统、参考外部的数据,进行大量的数据分析后才能做出相关的决策来。

而进入到20 世纪 80 年代后,随着计算机技术发展、各类数据统计分析的工具逐步健全,尤其是数据仓库的技术发展给传统企业的决策支持系统带来了更大的便利性。传统企业更多的是围绕着日常经营去做经营分析,比如财务绩效状况、资产运营状况、偿债能力状况、发展能力状况等。

像前系列文章“我所经历的大数据平台史“提到数据平台的发展史与用户的演进,在传统企业前几代数据平台上支撑的是商业智能,辅助业务经营决策,为公司高层提供决策。其主要是支持企业的分析人员、管理人员、从多个维度进行信息的快速分析。

商业智能(Business Intelligence,简称 BI)的概念最早是 Gartner Group 的 Howard Dresner 在 1996 年提出来,传到国内有将之翻译为"商业智能"或"商务智能"。商业智能的应用领域典型电信、银行、保险、零售等,所有建立了数据仓库的企业其商业智能建设的主要目标是企业决策支持。商业智能通过对信息技术的运用在不同层面为战略、决策提供新的支持:提升决策者洞察力以及支持信息获取与分析。

在传统企业的商业智能时代,我个人对其的认识是商业智能本来是把数据分析和统计运算的结果以多角度的方式存储,然后在 OLAP、Report 平台上形成一个个面向不同业务需要的数据集市以可视化的展现,让公司的管理层可以通过看及时和合适方式展示出来的信息来决策,让基层可以用统计运算后的数据进行经营分析与企业日常运作。

这种方式的核心是 Bill Inmon 、Ralph Kimball 的数据仓库 Data Warehouse 与 Codd 创造 OLAP 一词,E.F.Codd 发明了在线分析处理(OLAP)一词,来表示多维分所结合的模式,为客户提供 OLAP 平台,通过开发一些 Report、Dashboard,后台通过 ETL 自动刷新数据,其中 ETL 工具在当时使用的是 Datastage、Informatica、微软 Dts 或自己开发的脚本等系列来做数据的清洗、转换、加载,而 OLAP 平台基本上为 BO、Congos、Oracle 等几家的 OLAP 引擎与报表设计平台。在数据仓库 Data warehouse 中大家可以看到 DW 层为存储、管理数据设计的模型、数据集市中为 OLAP 而设计的模型。其中数据集市的数据就是数据仓库各层的数据 Join 与 Aggregate 的数据集合。

传统的数据团队的困惑在盲目的跟着需求开发,导致开发成果无法确认是否有用、够用,也无法避免无休止的需求变更,导致系统开发成本高、周期长、失败率居高不下。这样的数据平台最大的特点是庞大,初次使用感觉功能非常新鲜,但是在面对具体需求时使用起来难用,无法真正的解决问题。根本没有系统化、产品化,只是一堆数据的堆砌,僵死的报表或 cube 开发、设计与开发与业务脱节非常严重,没有任何衔接可言。

随着时间的发展,业界听到的 BI 的声音越来越少了,反而是对探索数据的价值的数据分析、数据挖掘独立的声音出现,因为早期传统企业的 BI 在这件上非常吃力,在过去只是简单从不同角度的堆积数据看统计指标已经不适应决策要看原因,要看影响的程度,执行层面要根据数据分析、挖掘精确来执行。

比如过去我们只是看商场的不同品牌的货物卖出多少,在现在要看商品在一天的那个时间段卖的好、摆放哪个位置卖的好、什么样的顾客容易买,客户总消费多少钱,客户订单次数,客户平均客单价、客户最近订单时间等等。

初 BI刚进入企业眼前的时候,认为 BI 可以做很多厉害的事情,各种智能化。随着时间推移,BI 从天上掉到了地下,90% 多的企业只剩下数据集成和报表生成部门。目前一般企业普遍采用的办法是由业务部门提出分析需求,让 BI 部门统计和分析数据出结果,这样的组合看似合理,却有很多隐患。

记得有家公司组建自己的 BI 团队前,曾经去寻找多家第三方企业来实 BI,建立了数据模型和数据处理,交付物开发出各个业务线的需求报表,按照会员维度的日报、周报、月报,商户维度的日报、周报、月报。然后呢,业务上尝鲜几天时还挺爽,随后越来越少用直至不用,因为随着堆积迭代无法满足后来的业务需求,其主要数据质量有问题,每个报表数据经常不准、报表上根本看不出什么业务问题来,需要多张报表数据下载进一步加工,这是典型的不深入了解业务而导致数据模型、数据报表堆砌效应引起的。

当时大多数 BI 只能发挥不到 1/3 的作用,所受限制在于业务与数据的反复磨合,还有数据洞察与整合的客观的业务需要代沟,所谓的数据驱动只是停留在数据与业务分开干的阶段。

传承者的辛勤

随着互联网企业的出现与发展,大家已经从经营、分析的诉求重点转为数据化的精细运营上。随之而来的面临创新压力、如何做好精细化运营是当今企业遇到的问题。比如一款产品,想在互联网生存下去, 用户是基础,没有用户的产品或许可以自娱自娱自乐,否则将会面临一个问题,如何拉新、如何研究新用户,如何根据不同的用户习惯来调整产品。 对于产品的新用户,使用时会遇到各种问题,产品运营就必须去关注、去分析、以及去解决,这些过程都是需要数据来衡量与定位的。如果整个公司都处在一种由之前简单粗暴运营向经营分析乃至数据驱动的运营,必然会造成数据需求暴增,我前雇主许多运营同事能养成上班先看几十分钟的数据来确认自己运营的各种细节。

数据化运营对数据需求量越来越大,分析师、数据开发在面对大量的数据需求、海量的临时需求疲惫不堪,变成了资源的瓶颈, 用户其聚焦在无法快速的响应日常需求其表现为,做数据的已经无法满足当前业务日益增长的数据需求。

互联网企业在运营上精细化已经对数据的粒度要求由高汇总逐渐转为过程化细粒度明细数据。而传统的各类的 Report、OLAP 工具都无法满足互联网行业个性化的数据需求。

分析师、数据开发对于企业是非常宝贵的资源,每天浪费在各种数据提取、没有经过判断的合理需求、一些无法证明蛋生鸡还是鸡生蛋数据证明上,自己造成的异常数据波动,或者是因为数据平台建设的功能不给力,导致数据分析师费时费力。

统计过某公司近两个月分析师们的工作内容, 背景是从 3 月份 -5 月份大家在邮件、需求登记管理平台等内容。大约覆盖分析师 3 个月工作 85% 左右,临时需求在 69.44% 之间,产品发布评估占到 8.89%、周期性需求为(新业务日报周报)6.11%、专题分析 8%、数据类项占比为 6.67%

分析师 70% 左右时间全部在临时需求上。临时需求 + 周期需求占到总时间的 70%-73% 左右,临时需求 + 固定需求需要 0.5 天 -2 天内完成占比了 77% 左右,1 天内完成零散需求占比 71.66%。

这个团队的分析师平均每月工作天数如果全饱和,单纯临时需求总共消耗分析师超过 140% 时间,均超过 35% 人月,分析师没有一点时间搞其他的。变成了纯粹人肉取数机,更何况分析师还有其它日常工作、专题分析等,更不要说让分析师更有价值。

当数据平台、数据分析师想摆脱临时需求的困扰,提高自身的价值时,开始考虑把需求固定化变为一个面向用户自助式、半自助的产品来满足快速获取数据 & 分析的结果,当总结出的指标、分析方法(模型)、使用流程与工具有机的结合在一起时候,适合互联网时代的一类数据产品就诞生了。

数据产品从早期的形式存在,一直到这几年的爆发与被大家得到逐渐的的认可,但是数据产品不管是在国外与国内没有一个非常完善的说明。不管是百度上、还是谷歌对数据产品、数据产品经理的内容也是不多。

那到底什么是数据产品呢?我觉得要想把数据产品定义清楚,要拆分成“数据”、“产品”两个维度来看。

“产品”这个词我相信大家都非常熟悉,我偷个懒直接借用“人人都是产品经理”中一段,“产品是一组将输入转化为输出的相互关联或相互作用的活动的结果, 即“过程” 的结果“。在经济领域中, 通常也可理解为组织制造的任何制品或制品的组合。产品的狭义概念: 被生产出的物品 ; 产品的广义概念: 可以满足人们需求的载体。”

互联网产品 **** 的概念是从传统意义上的“产品”延伸而来的,是在互联网领域中产出而用于经营的商品,它是满足互联网用户需求和欲望的无形载体。简单来说,互联网产品就是指网站为满足用户需求而创建的用于运营的功能及服务,它是网站功能与服务的集成。大家可以分析下百度、腾讯、新浪、优酷、谷歌、facebook 各自的“产品”是什么?

移动互联网产品又是什么呢?我是没有找到比较贴切的概念,只好依照自己简单的想象“已移动设别、网络为基础,构建满足人们的需求而创造出来的功能与服务”,例如基于手机、平板设备上的各种 App,微信、手机百度、ingress 手游、网易客户端等。

综上所述所谓的产品,简单讲就是满足人们某个需求、或解决某个问题的东西。

那数据是什么呢?组合成的数据产品又是什么呢?

互联网的数据产品又与传统数据平台又是什么关系呢?

我们该如何理解数据产品呢?

数据产品的三要素是什么?

不懂数据的人如何用好数据产品?

数据产品经理的天花板又在哪里?

如何做好数据产品?

等等一系列与数据产品、数据产品经理相关的问题我在后续会逐渐与大家分享。

作者简介

松子(李博源),自由撰稿人。2000 年开始数据领域,从业传统制造业、银行、保险、第三方支付 & 互联网金融、在线旅行、移动互联网行业;个人沉淀在大数据产品、大数据分析、数据模型领域。欢迎关注个人微信订阅号 python2004


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-08-22 17:474130

评论 1 条评论

发布
用户头像
图片挂了
2020-04-15 15:01
回复
没有更多了
发现更多内容

SAP UI5 应用和 Angular 应用视图里控件 id 生成逻辑的异同比较

汪子熙

前端开发 angular SAP SAP UI5 11月月更

行业分析| 智慧消防对讲

anyRTC开发者

人工智能 监控 消防 调度 快对讲

Mybatis中使用${}和使用#{}

@下一站

mybatis MyBatis标签 Java core 11月月更

小令观点丨现代版 “见令如见人”

令牌云数字身份

小令动态 | 令牌云成功通过国家等保三级认证

令牌云数字身份

JS有哪些变态语法,你知道吗?

千锋IT教育

新版阿里神级“高并发”教程《基础+实战+源码+面试+架构》

钟奕礼

Java java面试 java编程 程序员、

HashData携手恒丰银行 入选信通院金融科技创新应用五大“最受关注案例”

酷克数据HashData

云数据仓库

华为云虚拟专用网络VPN,为企业铺就数据上云的安全路

路过的憨憨

嘉为科技彭一宽:组织度量,先做造钟人,再做报时人

嘉为蓝鲸

DevOps 度量

京东二面:MySQL 主从延迟,读写分离 7 种解决方案

钟奕礼

Java 程序员 java面试 java编程

一步一图带你深入理解 Linux 物理内存管理

bin的技术小屋

内存 内存管理 Linux Kenel 内核 内核源码

源自双11混部实战,Koordinator 如何保障应用服务质量?

阿里技术

云原生 混部技术

【iOS逆向与安全】frida-trace命令大全

小陈

iOS逆向 ios安全 Frida ios 开发

小令观点 | 从大批QQ账号被盗,看账号安全与数据资产问题

令牌云数字身份

数据安全 账号安全

云计算:基于互联网的超级计算

Finovy Cloud

云计算 云渲染

SpringBoot邮件发送demo

@下一站

编程 email Java core 11月月更

热门资讯:超大规模数字产业生态正在加快构建!

优秀

数字化转型

AI机器学习模型部署的典型策略

Baihai IDP

人工智能 AI MLOps 模型部署

腾讯云大神亲码“redis深度笔记”,不讲一句废话,全是精华

钟奕礼

Java 程序员 java面试 java编程

一周活动速递|Paper Time第五期;技术征文大赛即将收官

OceanBase 数据库

“天翼云杯”厦门软件开发大赛开赛 为开发者提供“沃土”

Geek_2d6073

鲲鹏开发者创享日杭州站:你想知道的所有精彩都在这里了

Geek_2d6073

LeetCode题解:938. 二叉搜索树的范围和,递归,JavaScript,详细注释

Lee Chen

JavaScript 算法 LeetCode

百度APP iOS端内存优化实践-内存管控方案

百度Geek说

android 后端 内存管理 企业号十月 PK 榜

当Kubernetes遇见Macvlan——网络互通

陆云

小令动态 | 令牌云新获上海市创新资金立项支持,此前还有......

令牌云数字身份

MySQL中支持的字符集和排序规则

@下一站

MySQL 技术 字符集 11月月更

python常用的内置对象

乔乔

11月月更

DevOps制品管理——软件“工业革命”的里程碑式改革

嘉为蓝鲸

DevOps 制品管理

新力量,新希望|明道云伙伴大会2022秋圆满落幕

明道云

深入浅出数据产品三部曲系列之一 前世之旅_语言 & 开发_松子(李博源)_InfoQ精选文章