写点什么

网易严选画像建设实践

  • 2020-12-13
  • 本文字数:4840 字

    阅读完需:约 16 分钟

网易严选画像建设实践

导读:在数字化转型的浪潮下,企业越来越重视自身数据资产的沉淀和应用。画像作为一种重要的数据资产形式,受到了越来越多的关注。网易严选作为一家自营电商,业务链路长、场景多,所涉及的核心业务实体也多,如用户、商品、供应商、渠道等等。通过画像去洞察这些业务实体对企业精细化运营有着重要的帮助。基于此背景严选打造了具备行业特色的标签和画像中台。本文的主题为网易严选画像建设实践,主要介绍严选标签和画像中台的工具和方法论。


关于标签和画像


1. 什么是标签和画像


标签:

标签是对业务实体某个维度特征的刻画和描述,是一种面向业务的数据组织形式。例如,我们在大众点评上看到某家店是“必吃店”,这就是一种标签,又或者某部电影在豆瓣上的评分,这也是一种标签。


画像:

画像是对业务实体多个维度特征的刻画和描述,是多个标签的集合。例如,在游戏中每个角色都有自己的力量、智力和敏捷属性,这就是角色的画像,这个画像由力量、智力、敏捷这三个标签集合而成。


2. 标签和画像的价值


标签:

  • 提供信息:标签的本质还是数据,数据的价值在于提供信息,进而提升决策的科学性和准确性。企业的运营主要围绕业务对象和业务活动,所谓的精细化运营,无非是通过信息,来区分对待业务对象和业务活动,而标签可以很好地承载信息,是精细化运营的重要工具。


  • 面向业务:标签是面向业务的一种数据组织形式,可以让业务直接用起来,帮助业务从“看数据”变成“用数据”,真正意义上起到数据驱动业务。


画像:

画像作为标签的集合,可以综合提供多维度的正交信息,帮助我们更准确、形象地洞察实体。


为什么要建设标签和画像中台


严选建设标签和画像中台主要是两个目的:解决共性需求(用户价值)和加速数据资产化及价值落地(商业价值)


1. 解决共性需求


目前行业中的标签和画像主要都是用户标签和用户画像,其应用场景主要是精准营销和消费者洞察。


严选的业务场景较多,如消费者洞察、供应商寻源、爆品打造等,涉及到的核心业务实体比较多,如用户、商品、供应商、渠道等等。



这些业务实体都存在建标签、用标签和看画像的需求。比如在营销活动的时候需要基于用户标签去圈用户、看用户画像,在为商品寻找优质供应商的时候需要基于供应商标签去圈供应商、看供应商画像等等。


2. 加速数据资产化及价值落地


前文有提到,标签作为面向业务的数据组织形式,可以更直接、有效地创造数据价值。通过建设标签和画像中台可以更快速地构建标签,更全面地管理标签以及更便捷地使用标签。


标签和画像中台工具

1. 产品简介


严选标签和画像中台定位为提供从数据管理、标签萃取、洞察分析的全流程数据驱动能力,下图为严选标签和画像中台的产品大图:



2. 功能特性


严选标签和画像中台主要分为数据管理、标签萃取、洞察分析三个功能模块:


① 数据管理


数据管模块目的是统一管理业务实体及其全域数据,为标签萃取提供数据源,核心是以下两个功能:


  • 业务实体的管理:包括实体的命名、主键标识等

  • 多种数据源的导入和管理:支持 hive、kudu、es、hbase 四种数据存储引擎,不同的标签数据存储引擎主要是为了满足不同的场景


下图为不同存储引擎的适用场景:



严选标签数据源包括一方和二方数据,数据经过统一的加工处理后存储在数仓 DM 层的标签数据表中。


  • 一方数据:来自于严选域内各个业务过程的数据,包括但不限于行为日志、统计指标、预测模型等。

  • 二方数据:来自于网易集团层的共建数据,包括但不限于网易传媒的广告数据、网易云音乐的用户行为数据等。


② 标签萃取


标签萃取模块目的是将数据快速、灵活地萃取为标签。


为了满足更灵活的标签需求,我们将标签划分为基础标签和复合标签。前者可以是任意数据类型,使用起来可以自定义规则和参数,后者是布尔值类型,规则和参数已经定义好,两者的实现过程及存储方式都有所不同(限于篇幅此处对技术方案不做介绍)。例如,【年龄】是一个基础标签,【年龄介于 20~30】是一个复合标签。


基础标签的萃取方法:


  • 关联表字段:通过直接关联数据表中的字段创建标签,这也是标签最主要、直接的萃取方式

  • SQL 自定义:基于已有的标签构建计算字段作为标签,例如已有【销售额】【成本】两个标签,可以构建出【利润】标签(利润=销售额-成本)


复合标签的萃取方法:


  • 可视化建模:通过可视化界面自由组合海量标签创建新的标签,实现 0 成本标签自助生产,快速满足业务需求。例如,我们要构建一个【有孩子、近 7 天有高消费且未待业的家长】,可以按照下图的规则建模:



  • 手动、接口打标:除了规则建模以外,还会有些来线下/三方的数据以及一些事件驱动类的打标需求(例如,供应商在完成审核入驻后需要立刻给该供应商打上标),这些情况下需要业务同学手动打标或者业务系统通过接口来打标。


③ 洞察分析


洞察分析模块目的是通过标签圈选实体,通过画像洞察实体。


实体圈选:


实体圈选分为标签圈选、手动上传、分组加工三种方式:


  • 标签圈选:通过海量标签的组合来圈选实体

  • 手动上传:上传包含实体 ID 的文件作为一个分组

  • 分组加工:基于已有的分组做高级计算(交并差计算、分组提取)


画像分析:


画像可分为个体画像和分组画像,个体画像就是个体的标签结果集合,较为简单,此处略过,本节主要介绍画像的具体功能。


多种分析类型:


  • 画像的分析类型可分为:单标签属性分布、多标签交叉分析

  • 单标签属性分布:某个标签的各个属性值的分布,如人群的性别分布

  • 多标签交叉分析:以某个标签为维度分析另一个标签,如不同类目商品的销售额分布


分组对比及 TGI 分析:


  • 分组对比是画像常用的一种分析方法。在选取目标组和对照组后,通过对比我们可以看到两个分组的差异性。

  • TGI 作为度量差异性的重要指标可以让我们更直观地看到目标组的显著特征(TGI=[目标分组中具有某一特征的实体所占比例/对照组中具有相同特征的实体所占比例]*标准数 100)



画像模板和自定义画像信息:


  • 画像模板是一些固化下来的常用画像分析思路,便于快速浏览画像;而自定义画像信息则为了满足画像分析的个性化需求。


标签和画像中台方法论


在有了工具之后就是着手去搭建并应用标签和画像了,本节主要介绍标签体系建设和画像应用的方法论以及严选实践的一些具体案例。


1. 标签体系建设


从 0-1 搭建标签体系有两种方式,分别是自下而上和自上而下,在实操过程中往往这两种方式结合运用。


① 自下而上


自下而上的标签体系建设方式分为产技主导和业务主导,产技主导主要负责标签体系冷启动的问题,业务主导主要负责标签体系的自增长


产技主导:


在标签体系从 0-1 的起步阶段,可能很多业务同学不清楚什么是标签,标签能用来做什么,对他的工作有什么帮助。那么这个时候可以由产技同学主导,选择 1-2 个核心场景切入,明确这个场景中的角色、流程、需求、痛点,思考在这个场景下如何通过标签去辅助业务,以及如何量化标签的价值、预估标签可以产生的价值。


在和业务同学沟通确认后,推动这个场景落地。业务同学在有了实操体验后自然会对标签有一定的认识,会举一反三联想到其他哪些场景也能用到标签(这一步业务同学一定比产技同学反应快得多),进而逐步切入到其他场景,渐渐地从产技主导过渡到业务主导。


案例:例如,在从 0-1 搭建供应商标签体系的时候,可以先主动调研供应商相关的核心业务场景,如供应商寻源,然后明确供应商寻源的具体业务规则,进而推导出哪些标签会有帮助,如“供应商评级”、“采购降本比例”等等标签,最后推动标签落地。


业务主导:


业务主导指业务方有某个具体的运营策略,需要由标签来辅助完成,这类标签的建设和落地会容易的很多。


案例:例如,营销的同学要挽回高价值的流失人群,那么就需要有用户价值、用户流失概率等签,有了这些标签我们就能圈出这部分用户,再结合这部分用户的画像,就可以输出一些的营销策略。


② 自上而下


业务运转机制服务于商业目标,业务运转机制中两条主线就是业务流程和业务对象的生命周期,我们可以通过这两条线结合具体的商业目标和运营策略来自上而下构建标签体系。


按照业务流程拆解:


首先要明确企业的业务流程,例如零售企业的基本业务流程可以分为:设计研发-生产-营销-仓储-配送-售后,然后基于商业目标推导每个环节的运营策略。


案例:例如,当我们要降低供应链成本的时候,对应到仓储环节就是要降低库存持有成本,然后我们会有一系列的运营策略来管理库存,比如销量的预测、库存的监控、动销情况等等。基于这些具体的策略我们可以推导需要哪些标签,比如在预测商品销量时,我们需要商品的季节标签、历史销量标签等等。


按照业务对象的生命周期拆解:


业务对象的生命周期和业务流程穿插在一起,且可以从多个维度去拆解。以用户为例,我们可以按照 AARRR、AIPL 等生命周期模型拆解。同样的,我们基于商业目标拆解到每个生命周期的具体运营策略,进而推导出需要哪些标签。


案例:例如,对于流失期的用户,具体的运营策略是一系列的召回措施,那么就会用到用户最近一次购买时间、商品兴趣偏好、优惠圈敏感度等等标签。有了这些标签后,我们可以把运营策略做进一步的精细化,例如,有明显品类偏好的用户通过品类的上新/促销活动来召回,对优惠圈敏感度高的用户可以通过优惠券召回。

2. 画像应用


画像是一个火了很久的概念,画像功能看起来很酷炫,但是大家普遍会觉得这个东西没有实际用处,所以画像到底要怎么用呢?


画像应用的核心在于,通过对比发现显著特征并转化成具体的运营策略。常见的画像分析方法有以下几种:


① 分组内特征对比


分组内特征对比指分析单个分组内各个特征的分布情况,这也是目前用到最多的画像分析方法,比如分析某个人群的性别分布、城市分布、偏好商品的分布。


案例:例如我们可以圈选出加购但是还未购买某爆款猫粮的用户并分析该人群的常驻城市分布,然后我们可以基于城市分布去调整这款猫粮的库存分布,通过调拨让猫粮离这些用户更近,这样就可以提升供应链的响应速度



但是,这种方法往往只能了解到一些大致情况,很多时候并不能直接产出运营策略。


② 分组间特征对比


分组间特征对比指对比多个分组(一般是 2 个)的特征情况,这是目前最有用的画像分析方法。分组间特征对比的核心在于 TGI,通过 TGI 发现显著特征。这里我们通过商品画像和用户画像的 2 个案例来说明:


商品画像:


我们通过对比“销量前 10%的商品”和“全量的商品”发现用户更倾向于购买零售价在 0-20、20-40,风格为居家生活、日式的商品。因此在后续商品研发和爆品打造的时候可以主攻这个方向,以及在做首单转化的时候也可以针对这类商品做更大力度的优惠。



用户画像:

我们通过对比“严选的超级会员人群”和“严选全量用户人群”发现严选的超会人群具备以下显著特征:性别女、常驻上海市、有车、偏好海淘服饰类等。基于这些显著特征我们可以输出以下两条运营策略:


  • 拉新:在线上、线下的广告投放时更加倾向于具备女性、上海市、有车等特征的用户。

  • 促活和留存:对于已经开通超级会员的用户,可以给予更多的海淘服饰类的超会折扣或者每月可以免费领取汽车用品等等权益。



③ 分组跨时间维度特征对比


单分组跨时间维度特征对比指对比同一个分组在不同时间的特征情况。例如,我们要测试一下某个营销工具的效果情况,我们可以对比使用营销工具前和使用后的某个人群的 ARPU(单用户平均收入)、近 30 日消费次数等特征的变化,发现使用营销工具后这个人群的 ARPU 值和近 30 日消费次数都有更好的表现,证明这个营销工具是有一定效果的(实际情况中还要排除一些其他因素)。



总结


本文首先介绍了标签和画像是对业务实体维度特征的刻画和描述,标签和画像的价值在于提供信息、面向业务。然后介绍了严选为什么要建设标签和画像中台:解决共性需求、加速数据资产化和价值落地。进一步介绍了严选标签和画像中台工具的具体能力:数据管理、标签萃取和洞察分析。最后介绍了标签体系建设 ( 自下而上和自上而下 ) 和画像应用 ( 多种特征对比方式 ) 的方法论,并结合了严选的实践案例。


当然,在实际的落地过程中还有很多其他困难要克服,例如如何更全面地收集数据、如何保障标签的准确性、如何保障数据及服务链路的稳定性等等。


今天的分享就到这里,谢谢大家。


本文转载自 DataFun 社区(ID:datafuntalk)

原文链接:网易严选画像建设实践


2020-12-13 13:222281

评论

发布
暂无评论
发现更多内容

Hologres技术揭秘:JSON半结构化数据的极致分析性能

阿里技术

json 半结构化数据

易观千帆 | 2023年2月证券APP月活跃用户规模盘点

易观分析

金融 证券 经济

看完这份SpringBoot神级文档,面试真的可以为所欲为

三十而立

Java IT java面试

微服务架构中的链路超时分析

做梦都在改BUG

Java 架构 微服务

ElasticSearch 拼音搜索自定义扩展插件(长拼音序列)

alexgaoyh

中文分词 分词 Elastic Search 自定义插件

过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

构建云边端一体的分布式云架构,软硬结合驱动边缘计算创新场景

百度Geek说

人工智能 架构 分布式 边缘计算 企业号 3 月 PK 榜

简述家居物联网体系架构

毛广斌

利用Jackson序列化实现数据脱敏

京东科技开发者

Jackson 数据脱敏 企业号 3 月 PK 榜

DTALK直播预约 | 数据资产管理:金融机构数据价值释放的必经之路

袋鼠云数栈

数据资产管理

飞针测试的流程有哪些?华秋一文告诉你

华秋电子

重现一条简单SQL的优化过程

GreatSQL

MySQL greatsql greatsql社区

软件测试丨JavaScript脚本注入,完成Selenium 无法做到的那些事

测试人

JavaScript 软件测试 自动化测试 测试开发 selenium

AIGC时代:未来已来

华为云开发者联盟

人工智能 华为云 AIGC 华为云开发者联盟 企业号 3 月 PK 榜

vivo 手机云服务建设之路-平台产品系列04

vivo互联网技术

系统设计 稳定性 数据安全 用户数据 手机云服务

数据擘画资产全景 AI诊断故障真因

用友BIP

龙蜥 Node.js/WebAssembly SIG 重磅发布 Node.js/Noslate 性能优化白皮书

OpenAnolis小助手

node.js Web 白皮书 龙蜥社区 sig

企业号 4 月 PK 榜,火热开启!

InfoQ写作社区官方

热门活动 企业号 4 月 PK 榜

拯救脂肪肝第一步!以飞桨3D医疗影像分割方案MedicalSeg自主诊断脂肪肝

飞桨PaddlePaddle

深度学习 计算机视觉 语义分割 PaddlePaddle

阿里内部进阶学习SpringBoot+Vue全栈开发实战文档

三十而立

软件测试/测试开发丨移动端App自动化之App控件定位

测试人

软件测试 自动化测试 测试开发

2023年最新美团、字节、阿里、腾讯 Java 面经,已拿 offer(附面经分享)

采菊东篱下

Java 面试

利用自动化平台可以做的那亿点事 |得物技术

得物技术

自动化

标星90K,这份Leetcode刷题手册在GitHub爆火!完整版开放下载

架构师之道

Java 编程 算法

以前端视角,漫谈「云端」

京东科技开发者

云计算 前端 云技术 企业号 3 月 PK 榜

机器学习实战系列[一]:工业蒸汽量预测(最新版本下篇)含特征优化模型融合等

汀丶人工智能

数据挖掘 机器学习 数学建模

下游需求趋势长期向好,高端产品国产替代空间广阔

华秋电子

聚焦「就近」与「轻计算」,阿里云边缘云连续3年领跑!

阿里云视频云

云计算 边缘计算 边缘云

华秋一文带你读懂PCB中的“金手指”设计

华秋电子

【3.24-3.31】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

用友BIP智能财务,助力企业构建世界一流预算管理体系

用友BIP

全面预算

网易严选画像建设实践_大数据_DataFunTalk_InfoQ精选文章