QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

网易严选 x 网易有数:数据产品 + 数据中台双引擎模式实践

  • 2021-07-09
  • 本文字数:4679 字

    阅读完需:约 15 分钟

网易严选 x 网易有数:数据产品+数据中台双引擎模式实践

作为一个“平台+品牌”双模式并存的电商品牌,网易严选(下文简称严选)的数据数据链路天然很长,这给数据化决策和数据化运营带来了不一样的挑战,严选如何打造数据支撑体系支撑业务发展?在 6 月 19 日的“网易数帆技术沙龙”上,网易数帆大数据产品专家顾平分享了网易严选数据产品建设实践心得,以及支撑数据产品建设的一些难点难题的解决策略。自 2017 年开始,顾平作为数据产品负责人参与了从 0 到 1 建设整个严选据产品体系和数据中台,历经 3 年时间打磨,严选数据产品和数据中台已经非常成熟。


严选的模式,从供应端商品的设计、研发、生产一直到最后的消费端,整个链路都有数据,严选通过商品数据运营平台、营销数据运营平台、移动数据工作台和供应链数据运作平台等 4 种数据产品驱动全链路的业务。需要注意的是,数据产品下面一定要有数据中台中台去支撑,否则我们没办法做到数据产品的高效研发和数据质量,这是一种双引擎的模式,数据产品和数据中台,是数据双引擎

数据产品:聚焦商品、营销与供应

网易定义的数据产品,是一类既反映分析思路又能与业务系统联动的决策型产品。数据产品最基础是实现可视化,在这个基础上还要去实现决策建议,比如说监控诊断,最终可能要去驱动决策,比如说这个数据产品里面的一份数据,可以直接同步到业务系统里面,生成采购单。对于数据中台来说,主要是提供高效的高质量的数据服务,来支撑上面的数据产品和业务系统。


严选组织架构主要有商品中心、营销中心和供应链中心,数据产品也是围绕这三大中心,针对不同的用户去开发的。针对营销中心的数据产品,叫伏羲-营销数据运营平台,负责消费者的数字化运营。针对供应链中心,我们有一个叫河洛-供应链数据运作平台,负责数字化供应。针对商品中心,有大麦-商品数据运营平台,面向我们商品中心里面各个商品 BU。中间这一块是负责数字化管理的移动数据工作台,它的核心目标用户是管理层,但也开放给所有的业务部门。它是一个移动端产品,使用非常方便。



严选做的第一款数据产品是做移动数据工作台。因为数据中台或者数据产品最好是自上而下来做,让领导意识到数据的重要性,让他看到可以优化决策,他才能帮助推广数据产品,支持数据团队去做更多的东西。其实严选移动数据工作台最重度的用户就是严选 CEO,他的访问量是第二名的两倍多


严选移动数据工作台是基于 H5,在严选 APP 这个壳的基础上面去增加了一些入口,有针对商品、销售、用户、流量等核心数据,也包括了 KPI 的实现情况,整个业务的监控都会在这里面。


结合严选 APP 做的好处是非常直观。这里面还有一个流量地图,开启之后,在 APP 界面中的每一个模块上面都会有一个半透明浮层,展示各个模块素材的点击量、转化率以及对销售的贡献,非常直观,业务都非常喜欢用这样的东西。


供应链数据运作平台的理念是需求驱动供应。因为严选连接了消费和制造商,对于供应链数据运作平台,核心就是把严选侧的销售计划、需求计划共享给供应商,严选专门为供应商制作了一个平台(业务系统),我们把数据输出到那个系统里面去,使得所有的供应商都能在那里面共享到我们的数据,知道我们的计划是怎么样的,可以提前去生产排程。


供应链数据运作平台如果要定一个核心 KPI,那就是库转,我们应该让库转在一个合理的范围内,所以它核心要解决的问题是商品在什么时间点采多少量,它需要有需求计划之类的东西,还有一些规则,比如安全库存是多少,这个商品如果让制造商去开发了,他的开发周期是多少,这些数据我们都需要知道,才能够定义出一个商品应该在什么时间点采多少量,这里面更多的是业务知识和规则


关于监控诊断,这是我们面向商品中心的大麦产品中的监控诊断,我们可以直接展示出哪些商品慢动销了,哪些库存高了,销量下跌了,有多少商品涉及到这些问题,这些异常情况都可以直接展现出来。如果业务方还要想要继续了解这里面到底是什么原因造成的,我们可以有这种类似于拓扑图的分析,让它直接去定位原因,所以它既是个工具,同时也沉淀了知识。


数据中台:围绕高效、高质量构建

严选对于数据中台的定义,是高效的高质量的赋能数据前台的一系列的数据系统和数据服务的组合。如下是我们数据中台全景图,最上面那层黄的是数据应用层(即数据前台),包括了前面讲的数据产品和业务系统,因为业务系统也会用我们的数据。



还有有数 BI,分析师用有数 BI 生产出来的一些报表,也是属于数据应用的范围。但是有数 BI 这个平台本身是一个敏捷分析的工具,所以我们把它放到了数据中台体系里面。绿色的部分是数据服务,它的核心服务对象是数据产品和业务系统。下面是围绕数仓的管理体系。蓝色区域整块都是基于网易有数去实现的数据中台体系。


高效高质量的实践,首先看高效分析,严选是基于有数 BI 实现的。大家在做数据产品的时候会发现一个问题,做了一个数据产品给业务用,结果数据需求接踵而来,研发都来不及,这个时候我们需要有一个高效交付的方案,让分析师或者业务方能够自助地去完成这些事情,我们把数仓建设好,分析师或业务自己来使用数据。严选的模式是分析师做报告,业务方提需求,所以在 BI 这块,底下是我们的数仓,分析师用数仓里面的数据,在有数上面去做报表出来,提供给业务人员。现在整个严选有数(网易有数·BI 在严选的私有部署)的用户有 900 多人,每天的 UV 要达到 400 多,有 8 万个图表。


具体而言,当我们的分析师收到需求的时候,他会通过有数大数据开发及管理平台提供的指标地图去找这个指标,已经实现了,就拿来直接用,如果还没有,他就提需求给我们的数据开发,然后来定义这个指标(指标定义的流程后文再讲)。数据开发去会利用我们有数的大数据开发及管理平台去进行一个主题域建设。建设过程其实做需求的过程,这是一个螺旋式上升的过程。


通过这个平台数据开发很容易就把需求给做出来,然后分析师用有数 BI 去进行可视化建模,他不需要写代码,本质上它设计的是面向业务的,可以快速完成一个模型,然后通过类似于制作 PPT 的方式去探索和实现数据的可视化。BI 主要是用来高效分析的,核心的价值就在于能够非常高效地迭代,通常上午来的需求下午就能出报表。



数据产品的高效交付,第一种方式,我们借用 BI 里面集成的功能实现,就是说把需求转嫁到 BI 上面,通过 BI 当天就可以把报告做出来,然后通过集成的 API 直接把它集成到我们的数据产品或者是业务系统上面去。现在我们移动数据工作台里面已经有 20 多个报表被集成进去了,基本上都是 CXO 的紧急需求,所以交付要比较高效,很多时候小半天就能交付了,用户对这种高效交付是非常满意的。


另外一种方式是说我们真的要高效研发,我们构建了一个统一查询服务,这个服务其实就只有一个 API,数据需求来了之后,通过它我们只要去设计模型就可以了,这就是“模型即服务”,对于数据产品或业务系统来讲,他完全不用关心这个模型到底用了什么库什么表,只需要关心接口输入。


通过这一层,我们不仅仅把数据带出去,还把指标定义也带出去,这样的一个好处是,不管在数据产品里面还是在业务系统里面,但凡是用到了同一个指标,它的定义也是动态获取的,是统一的。严选现在有 70 多个系统在用我们的统一查询服务。


关于数据质量,我们主要来看下指标一致性的保障,指标一致性我们是怎么去解决的?可能大家都听说过指标管理系统,但是如果真的只有这么一个系统,其实它跟 wiki 或者其他文档系统没有什么本质上的差别。指标管理系统的本质上的差别在于,我通过这个系统跟我整个数据设计、开发、使用的流程全部打通,这才是它最核心的能力。


定义指标的时候,要统一定义,因为指标代表了一种数据需求更是一种业务知识,不能说随便就定义一个指标出来。在严选我们是数据产品经理和分析师一起来定义,我们拿到需求的时候,会一起商量这个指标应该怎么去具体定义。定义完成了之后,我们在有数大数据开发及管理平台里面的模型设计系统去设计它,设计完了之后才会去进行具体的开发。也就是说,我们数仓一定要先定义设计再去开发



最后一层就是统一的使用,通过指标地图,我们的用户可以很清楚地知道他需要的指标在数仓的哪个地方,分析师和业务也能知道这个指标具体的定义是什么。统一查询服务在提供数据服务的同时也把这个指标带进去了,因为在模型设计的时候,会去定义字段绑定到哪个指标,通过这种关系,指标贯穿打通了从数仓到应用层


所以同一个指标在应用层,不管是数据产品,还是业务系统,甚至是我们有数 BI(因为 BI 里面也可以动态引用这个定义),在任何一个场景下面,我们看到一个指标,它就是一个定义。我们的理念是说,不让分析师或者业务自己去开发口径,我们口径的计算逻辑基本上都落在 DW 层,是由数据开发根据指标定义统一开发的,应用层更多只是筛选汇总,这就最大限度地杜绝了相同的指标在不同地方的数据结果不一样的问题。

数据治理:平台、规范与考核都很重要

这里只讲数据治理的大概思路,严选数据治理是围绕数仓建设开展的,利用了整个大数据平台以及一系列的流程规范和考核优化机制。数据治理贯穿了整个数据的生命周期,从需求的评审就开始治理。



严选数据需求评审的时候,数据架构师、分析师、数据产品经理以及业务方通常都会参加。模型设计评审,数据架构师也会严格把关。到了任务开发,是一线的数据开发人员的责任,还有数据测试以及质量稽核、链路感知这些以及任务运维问题处理,这些流程在整个有数大数据平台里面,都是有相应的功能去落地的。


同时,还要定一个考核体系。严选核心考核的有三点,一个是跨层依赖率,这体现了数仓的建设水平。第二个是基线完成率,严选定义了很多基线,比如移动数据工作台,领导们都是 8 点左右就开始看数据了,所以移动数据工作台所有依赖的任务 7:30 时候一定要完成。第三个是有效响应平均时间,是指一旦出了问题,我们能不能在业务方发现之前把它解决掉。


任务需要常态优化,为什么是任务?因为很多问题,业务最终感知到的,就是我们的数据不对,产出晚,核心就这两点,比如说我们数据产品里面的这个指标不对,或者说今天这个时候没产出,这些问题追踪下来,最终都归结到任务上面,所以我们会有一些常态化的优化的机制来优化任务。


严选最近近 30 天的数据,跨层依赖率只有 0.97%,基线完成率 99.92%,有效平均响应时间是 0,因为最近 30 天没有什么报警,数据还是非常亮眼的。


有了上面的方法论和平台工具,真正在落地的时候,我们还是要去以项目的机制去做这件事情,就是专人负责,量化考核。对我们来说,数据治理核心的负责团队就是数仓团队,因为它是围绕数仓展开的。



架构师、数据开发本身有一个固定的职责,是要去建设主题域,这是最核心的一部分。我们还会有很多的虚拟项目小组,针对我们所定义的数据治理的一些 KPI 专门负责。因为如果不这么做,我们会发现任务永远都优化不了,会经常出问题。

总结

网易有数核心有两个产品,一个是 BI,一个是大数据开发及管理平台。基于大数据开发及管理平台,可以快速构建数据中台,包括数仓建设和一整套数据管理体系,并向外提供数据服务。数据服务可以为数据产品和业务系统提供数据。



有数 BI 可以提供自助式的高效分析,主要用里面的报告模块,做好的报告也可以集成到数据产品或者业务系统中。


此外,有数 BI 还有一个模块叫数据门户,企业如果没有严选那样的研发能力去开发单独的数据产品,就可以通过这个数据门户高效交付基于报告的数据产品。


作者简介

顾平,网易数帆大数据产品专家,7 年大数据从业经验,2017 年至 2020 年就职于网易严选,担任数据产品负责人,从 0 到 1 构建了网易严选的数据产品体系和数据中台体系。目前就职于网易数帆,担任网易有数·BI 产品负责人。


本文转载自:DataFunTalk(ID:dataFunTalk)

原文链接:网易严选 x 网易有数:数据产品+数据中台双引擎模式实践

2021-07-09 07:002617

评论

发布
暂无评论
发现更多内容

金九银十喜提offer!秋招蚂蚁金服Java研发岗四面

程序员啊叶

Java 编程 程序员 架构 java面试

上海移动基于亚信科技AntDB完成核心账务数据库的国产化替换

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

浅谈智能家居应用及传输方式

家和万事兴

物联网,

面试官:小伙子你来说说MySQL底层架构设计

程序员小毕

Java MySQL 数据库 程序员 面试

SpringBoot 遗忘后的简单快速回忆之环境搭建与常见注解

程序员啊叶

Java 编程 程序员 架构 java面试

传统渲染农场和云渲染农场选择哪个好?

Finovy Cloud

云渲染 GPU服务器

Jenkins 如何玩转接口自动化测试?

Liam

测试 jenkins 自动化测试 API 测试框架

面试被问到 HashMap 底层原理?我有点慌.

程序员啊叶

Java 编程 程序员 架构 java面试

直播实录 | 37 手游如何用 StarRocks 实现用户画像分析

StarRocks

数据库 大数据

第三届云原生编程挑战赛正式启动,Serverless 赛道邀你参加!

Serverless Devs

详解异步任务 | 看 Serverless Task 如何解决任务调度&可观测性中的问题

Serverless Devs

云原生

版本更新 | 极狐GitLab 15.2 发布飞书通知机器人、多层史诗调整至专业版、实时 Wiki 图表预览和全新设计的合并请求报告

极狐GitLab

git DevOps 敏捷开发 CI/CD 极狐GitLab

微信公众号借助小程序云函数实现支付功能

Geek_24ed5f

签约计划第三季

如何写好设计文档

观测云

闭关三月:整理出了这份对标阿里p7的java秋招面试必备指南。

程序员啊叶

Java 编程 程序员 架构 java面试

NFTScan 与 PANews 联合发布多链 NFT 数据分析报告

NFT Research

区块链 以太坊 NFT

要卖课、要带货,知识付费系统帮你一步搞定!

CRMEB

2022最新首发!全网最全Spring Boot学习宝典(附实战项目教程)

了不起的程序猿

java程序员 Spring Boot CLI SP【ring

KubeMeet 报名 | 「边缘原生」线上技术沙龙完整议程公布!

阿里巴巴云原生

阿里云 容器 云原生 边缘计算

算力顶天地,存力纳乾坤:国家超级计算济南中心的一体两面

脑极体

专访亚信科技张桦:AntDB面向企业核心业务支撑的数据库产品

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

顶礼膜拜!阿里内部出品,全网首发Spring Security项目实战搭建

冉然学Java

编程 spring security springboot Spring 框架漏洞

面试官:MySQL如何根据执行计划调优SQL语句?

程序员小毕

Java MySQL 数据库 程序员 面试

2022年最全大厂面试真题解析:java集合+spring+并发编程+MyBatis

程序员啊叶

Java 编程 程序员 架构 java面试

Rust P2P网络应用实战-1 P2P网络核心概念及Ping程序

李明

rust 网络 Libp2p

重磅来袭!豆瓣评分9.9,万人血书的多线程与高并发v2.0版本

冉然学Java

编程 源码 高并发 线程池 多线程并发

SR-TE的功能架构概述

穿过生命散发芬芳

7月月更 SR-TE

SQL 开始日期、结束日期查询

孙永潮

在 Spring Boot 中使用 Dataway 配置数据查询接口

程序员啊叶

Java 编程 程序员 架构 java面试

这88道阿里高级岗面试题,刷掉了80%以上的Java程序员

程序员啊叶

Java 编程 程序员 架构 java面试

腾讯开源摘星计划培养开源贡献者的实践思考

腾源会

开源 腾源会

网易严选 x 网易有数:数据产品+数据中台双引擎模式实践_大数据_DataFunTalk_InfoQ精选文章