写点什么

网易严选 x 网易有数:数据产品 + 数据中台双引擎模式实践

  • 2021-07-09
  • 本文字数:4679 字

    阅读完需:约 15 分钟

网易严选 x 网易有数:数据产品+数据中台双引擎模式实践

作为一个“平台+品牌”双模式并存的电商品牌,网易严选(下文简称严选)的数据数据链路天然很长,这给数据化决策和数据化运营带来了不一样的挑战,严选如何打造数据支撑体系支撑业务发展?在 6 月 19 日的“网易数帆技术沙龙”上,网易数帆大数据产品专家顾平分享了网易严选数据产品建设实践心得,以及支撑数据产品建设的一些难点难题的解决策略。自 2017 年开始,顾平作为数据产品负责人参与了从 0 到 1 建设整个严选据产品体系和数据中台,历经 3 年时间打磨,严选数据产品和数据中台已经非常成熟。


严选的模式,从供应端商品的设计、研发、生产一直到最后的消费端,整个链路都有数据,严选通过商品数据运营平台、营销数据运营平台、移动数据工作台和供应链数据运作平台等 4 种数据产品驱动全链路的业务。需要注意的是,数据产品下面一定要有数据中台中台去支撑,否则我们没办法做到数据产品的高效研发和数据质量,这是一种双引擎的模式,数据产品和数据中台,是数据双引擎

数据产品:聚焦商品、营销与供应

网易定义的数据产品,是一类既反映分析思路又能与业务系统联动的决策型产品。数据产品最基础是实现可视化,在这个基础上还要去实现决策建议,比如说监控诊断,最终可能要去驱动决策,比如说这个数据产品里面的一份数据,可以直接同步到业务系统里面,生成采购单。对于数据中台来说,主要是提供高效的高质量的数据服务,来支撑上面的数据产品和业务系统。


严选组织架构主要有商品中心、营销中心和供应链中心,数据产品也是围绕这三大中心,针对不同的用户去开发的。针对营销中心的数据产品,叫伏羲-营销数据运营平台,负责消费者的数字化运营。针对供应链中心,我们有一个叫河洛-供应链数据运作平台,负责数字化供应。针对商品中心,有大麦-商品数据运营平台,面向我们商品中心里面各个商品 BU。中间这一块是负责数字化管理的移动数据工作台,它的核心目标用户是管理层,但也开放给所有的业务部门。它是一个移动端产品,使用非常方便。



严选做的第一款数据产品是做移动数据工作台。因为数据中台或者数据产品最好是自上而下来做,让领导意识到数据的重要性,让他看到可以优化决策,他才能帮助推广数据产品,支持数据团队去做更多的东西。其实严选移动数据工作台最重度的用户就是严选 CEO,他的访问量是第二名的两倍多


严选移动数据工作台是基于 H5,在严选 APP 这个壳的基础上面去增加了一些入口,有针对商品、销售、用户、流量等核心数据,也包括了 KPI 的实现情况,整个业务的监控都会在这里面。


结合严选 APP 做的好处是非常直观。这里面还有一个流量地图,开启之后,在 APP 界面中的每一个模块上面都会有一个半透明浮层,展示各个模块素材的点击量、转化率以及对销售的贡献,非常直观,业务都非常喜欢用这样的东西。


供应链数据运作平台的理念是需求驱动供应。因为严选连接了消费和制造商,对于供应链数据运作平台,核心就是把严选侧的销售计划、需求计划共享给供应商,严选专门为供应商制作了一个平台(业务系统),我们把数据输出到那个系统里面去,使得所有的供应商都能在那里面共享到我们的数据,知道我们的计划是怎么样的,可以提前去生产排程。


供应链数据运作平台如果要定一个核心 KPI,那就是库转,我们应该让库转在一个合理的范围内,所以它核心要解决的问题是商品在什么时间点采多少量,它需要有需求计划之类的东西,还有一些规则,比如安全库存是多少,这个商品如果让制造商去开发了,他的开发周期是多少,这些数据我们都需要知道,才能够定义出一个商品应该在什么时间点采多少量,这里面更多的是业务知识和规则


关于监控诊断,这是我们面向商品中心的大麦产品中的监控诊断,我们可以直接展示出哪些商品慢动销了,哪些库存高了,销量下跌了,有多少商品涉及到这些问题,这些异常情况都可以直接展现出来。如果业务方还要想要继续了解这里面到底是什么原因造成的,我们可以有这种类似于拓扑图的分析,让它直接去定位原因,所以它既是个工具,同时也沉淀了知识。


数据中台:围绕高效、高质量构建

严选对于数据中台的定义,是高效的高质量的赋能数据前台的一系列的数据系统和数据服务的组合。如下是我们数据中台全景图,最上面那层黄的是数据应用层(即数据前台),包括了前面讲的数据产品和业务系统,因为业务系统也会用我们的数据。



还有有数 BI,分析师用有数 BI 生产出来的一些报表,也是属于数据应用的范围。但是有数 BI 这个平台本身是一个敏捷分析的工具,所以我们把它放到了数据中台体系里面。绿色的部分是数据服务,它的核心服务对象是数据产品和业务系统。下面是围绕数仓的管理体系。蓝色区域整块都是基于网易有数去实现的数据中台体系。


高效高质量的实践,首先看高效分析,严选是基于有数 BI 实现的。大家在做数据产品的时候会发现一个问题,做了一个数据产品给业务用,结果数据需求接踵而来,研发都来不及,这个时候我们需要有一个高效交付的方案,让分析师或者业务方能够自助地去完成这些事情,我们把数仓建设好,分析师或业务自己来使用数据。严选的模式是分析师做报告,业务方提需求,所以在 BI 这块,底下是我们的数仓,分析师用数仓里面的数据,在有数上面去做报表出来,提供给业务人员。现在整个严选有数(网易有数·BI 在严选的私有部署)的用户有 900 多人,每天的 UV 要达到 400 多,有 8 万个图表。


具体而言,当我们的分析师收到需求的时候,他会通过有数大数据开发及管理平台提供的指标地图去找这个指标,已经实现了,就拿来直接用,如果还没有,他就提需求给我们的数据开发,然后来定义这个指标(指标定义的流程后文再讲)。数据开发去会利用我们有数的大数据开发及管理平台去进行一个主题域建设。建设过程其实做需求的过程,这是一个螺旋式上升的过程。


通过这个平台数据开发很容易就把需求给做出来,然后分析师用有数 BI 去进行可视化建模,他不需要写代码,本质上它设计的是面向业务的,可以快速完成一个模型,然后通过类似于制作 PPT 的方式去探索和实现数据的可视化。BI 主要是用来高效分析的,核心的价值就在于能够非常高效地迭代,通常上午来的需求下午就能出报表。



数据产品的高效交付,第一种方式,我们借用 BI 里面集成的功能实现,就是说把需求转嫁到 BI 上面,通过 BI 当天就可以把报告做出来,然后通过集成的 API 直接把它集成到我们的数据产品或者是业务系统上面去。现在我们移动数据工作台里面已经有 20 多个报表被集成进去了,基本上都是 CXO 的紧急需求,所以交付要比较高效,很多时候小半天就能交付了,用户对这种高效交付是非常满意的。


另外一种方式是说我们真的要高效研发,我们构建了一个统一查询服务,这个服务其实就只有一个 API,数据需求来了之后,通过它我们只要去设计模型就可以了,这就是“模型即服务”,对于数据产品或业务系统来讲,他完全不用关心这个模型到底用了什么库什么表,只需要关心接口输入。


通过这一层,我们不仅仅把数据带出去,还把指标定义也带出去,这样的一个好处是,不管在数据产品里面还是在业务系统里面,但凡是用到了同一个指标,它的定义也是动态获取的,是统一的。严选现在有 70 多个系统在用我们的统一查询服务。


关于数据质量,我们主要来看下指标一致性的保障,指标一致性我们是怎么去解决的?可能大家都听说过指标管理系统,但是如果真的只有这么一个系统,其实它跟 wiki 或者其他文档系统没有什么本质上的差别。指标管理系统的本质上的差别在于,我通过这个系统跟我整个数据设计、开发、使用的流程全部打通,这才是它最核心的能力。


定义指标的时候,要统一定义,因为指标代表了一种数据需求更是一种业务知识,不能说随便就定义一个指标出来。在严选我们是数据产品经理和分析师一起来定义,我们拿到需求的时候,会一起商量这个指标应该怎么去具体定义。定义完成了之后,我们在有数大数据开发及管理平台里面的模型设计系统去设计它,设计完了之后才会去进行具体的开发。也就是说,我们数仓一定要先定义设计再去开发



最后一层就是统一的使用,通过指标地图,我们的用户可以很清楚地知道他需要的指标在数仓的哪个地方,分析师和业务也能知道这个指标具体的定义是什么。统一查询服务在提供数据服务的同时也把这个指标带进去了,因为在模型设计的时候,会去定义字段绑定到哪个指标,通过这种关系,指标贯穿打通了从数仓到应用层


所以同一个指标在应用层,不管是数据产品,还是业务系统,甚至是我们有数 BI(因为 BI 里面也可以动态引用这个定义),在任何一个场景下面,我们看到一个指标,它就是一个定义。我们的理念是说,不让分析师或者业务自己去开发口径,我们口径的计算逻辑基本上都落在 DW 层,是由数据开发根据指标定义统一开发的,应用层更多只是筛选汇总,这就最大限度地杜绝了相同的指标在不同地方的数据结果不一样的问题。

数据治理:平台、规范与考核都很重要

这里只讲数据治理的大概思路,严选数据治理是围绕数仓建设开展的,利用了整个大数据平台以及一系列的流程规范和考核优化机制。数据治理贯穿了整个数据的生命周期,从需求的评审就开始治理。



严选数据需求评审的时候,数据架构师、分析师、数据产品经理以及业务方通常都会参加。模型设计评审,数据架构师也会严格把关。到了任务开发,是一线的数据开发人员的责任,还有数据测试以及质量稽核、链路感知这些以及任务运维问题处理,这些流程在整个有数大数据平台里面,都是有相应的功能去落地的。


同时,还要定一个考核体系。严选核心考核的有三点,一个是跨层依赖率,这体现了数仓的建设水平。第二个是基线完成率,严选定义了很多基线,比如移动数据工作台,领导们都是 8 点左右就开始看数据了,所以移动数据工作台所有依赖的任务 7:30 时候一定要完成。第三个是有效响应平均时间,是指一旦出了问题,我们能不能在业务方发现之前把它解决掉。


任务需要常态优化,为什么是任务?因为很多问题,业务最终感知到的,就是我们的数据不对,产出晚,核心就这两点,比如说我们数据产品里面的这个指标不对,或者说今天这个时候没产出,这些问题追踪下来,最终都归结到任务上面,所以我们会有一些常态化的优化的机制来优化任务。


严选最近近 30 天的数据,跨层依赖率只有 0.97%,基线完成率 99.92%,有效平均响应时间是 0,因为最近 30 天没有什么报警,数据还是非常亮眼的。


有了上面的方法论和平台工具,真正在落地的时候,我们还是要去以项目的机制去做这件事情,就是专人负责,量化考核。对我们来说,数据治理核心的负责团队就是数仓团队,因为它是围绕数仓展开的。



架构师、数据开发本身有一个固定的职责,是要去建设主题域,这是最核心的一部分。我们还会有很多的虚拟项目小组,针对我们所定义的数据治理的一些 KPI 专门负责。因为如果不这么做,我们会发现任务永远都优化不了,会经常出问题。

总结

网易有数核心有两个产品,一个是 BI,一个是大数据开发及管理平台。基于大数据开发及管理平台,可以快速构建数据中台,包括数仓建设和一整套数据管理体系,并向外提供数据服务。数据服务可以为数据产品和业务系统提供数据。



有数 BI 可以提供自助式的高效分析,主要用里面的报告模块,做好的报告也可以集成到数据产品或者业务系统中。


此外,有数 BI 还有一个模块叫数据门户,企业如果没有严选那样的研发能力去开发单独的数据产品,就可以通过这个数据门户高效交付基于报告的数据产品。


作者简介

顾平,网易数帆大数据产品专家,7 年大数据从业经验,2017 年至 2020 年就职于网易严选,担任数据产品负责人,从 0 到 1 构建了网易严选的数据产品体系和数据中台体系。目前就职于网易数帆,担任网易有数·BI 产品负责人。


本文转载自:DataFunTalk(ID:dataFunTalk)

原文链接:网易严选 x 网易有数:数据产品+数据中台双引擎模式实践

2021-07-09 07:002577

评论

发布
暂无评论
发现更多内容

如何设置Fiddler来拦截Java代码发送的HTTP请求,进行各种问题排查

汪子熙

HTTP fiddler 28天写作 网络抓包 12月日更

Linux之whereis命令

入门小站

Linux

给弟弟的信第24封|盲目的努力没有用

大菠萝

28天写作

模块八-设计消息队列存储消息数据的 MySQL 表格

deng

架构实战营

架构训练营 -- 模块四

LJK

#架构训练营

什么是 DID 身份,为什么需要 DID

Rayjun

区块链 did

Golang中的runtime包

liuzhen007

28天写作 12月日更

元宇宙100讲-0x009

hackstoic

元宇宙

性能基础之理解Linux系统平均负载和CPU使用率

zuozewei

Linux 性能测试 计算机原理 12月日更

MySQL的死锁系列- 锁的类型以及加锁原理

程序员历小冰

MySQL 死锁 28天写作 12月日更

关于分布式系统共识的思考

yuexin_tech

分布式

全链路压测系列(三):技术改造和测试验证

老张

性能测试 全链路压测

学生管理系统详细架构设计

swallowluo

架构实战营 「架构实战营」

Gin-Vue-Admin 使用 gin+vue 进行极速开发的全栈开发基础平台【gva 第二节】

坚果

28天写作 Vue 3 Go 语言 12月日更

Linux 命令 man 全知全会

hedzr

Linux less man man-pages

再见 Typora!这个开源的 Markdown 编辑器爱了!

JackTian

程序员 写作 Typora 编辑器 markdown编辑器

[架构实战营]模块4作业

Vincent

「架构实战营」

全链路压测系列(一):认识全链路压测

老张

性能测试 全链路压测

全链路压测系列(二):方案调研和项目立项

老张

性能测试 全链路压测

语音信号的时域分析

轻口味

28天写作 12月日更

PassJava 开源 (七) :Spring Cloud 整合 OpenFeign 实现声明式远程调用

悟空聊架构

28天写作 passjava 悟空聊架构 12月日更 openfeign

微服务架构 | 怎样解决超大附件分片上传?

码农架构

微服务架构 springboot 断点续传 SpringCloud 大文件断点续传

一文搞懂ReentrantLock的公平锁和非公平锁

Ayue、

ReentrantLock 公平锁 非公平锁

Trino应用Iceberg Catalog写入数据原理分析

漫长的白日梦

数据湖 iceberg trino

学习方法

Tiger

28天写作

Reactor模式和Java NIO

Java·课代表

Java reactor 设计模式 网络编程 nio

设计千万级学生管理系统的考试试卷存储方案

ren

#架构实战营

在线JSON转Go Struct工具

入门小站

工具

区块链在电动车产业中的角色

CECBC

DataPipeline正式加入中国信通院数据库应用创新实验室!

DataPipeline数见科技

数据库 中间件 数据融合 数据管理 信通院

微服务划分的思考

无心水

微服务 微服务架构 SpringCloud 注册中心 微服务划分

网易严选 x 网易有数:数据产品+数据中台双引擎模式实践_大数据_DataFunTalk_InfoQ精选文章