写点什么

用户画像从 0 到 100 的构建思路

  • 2020-04-09
  • 本文字数:6884 字

    阅读完需:约 23 分钟

用户画像从0到100的构建思路

导读:用户画像作为当下描述分析用户、运营营销的重要工具,被全部互联网人熟知,用户画像的定义并不复杂,是系统通过用户自行上传或埋点上报收集记录了用户大量信息,为便于各业务应用,将这些信息进行沉淀、加工和抽象,形成一个以用户标志为主 key 的标签树,用于全面刻画用户的属性和行为信息,这就是用户画像。


画像这种结构化的用户信息加工方式,极大程度上做到了完整、全面且直观地刻画用户。画像是用户在产品的档案,便于人工使用、机器输入和算法理解。简而言之:画像是由标签树及末级标签的标签值构成的,全面定量刻画用户的结构化信息产品。画像是标签的总成,用户标签是具体刻画用户的结构化信息,以下简称标签。


本文将介绍用户画像的构建思路,在画像构建的过程中,我们把工作分为两步:


  • 第一步:介绍从 0 到 1 的构建思路。

  • 第二步:介绍从 1 到 100 的构建思路。

1. 画像从 0 到 1 的构建思路

一个比较成熟的画像系统,会有成千上百的标签,这些标签的生产不是一次完成的,而是随着业务的发展需要,逐步补充完善,最终呈现在大家眼前的就是一棵庞大的标签树。


跟自然界的树木一样,要想长得茁壮参天,必须有一个稳定的根基和合理的结构,用户画像的构建也是一样的,前期最重要的仍然是搭好画像骨架,确保后续的发展过程中,依然保持清晰的结构和高延展性。相反的,如果一开始为了抢时间,将大量标签无序的堆在线上,后期管理和使用的难度会迅速凸显出来,重构的代价巨大。


上面说到,一个好的标签树结构要满足两个条件,“高概括性”和“强延展性”,高概括性意味着结构体系能够很好的包含一个用户的基本属性和产品交互的相关行为,同时对于业务重点单独强调,没有遗漏;“强延展性”意味着结构全面的同时也有一定的抽象概括能力,保证新增的标签可以很好的找到对应的分类,整个体系不会过于收敛局限。


按照这个原则,画像通常从八个维度组织标签,分别为:基本属性、平台属性、行为属性、产品偏好、兴趣偏好、敏感度、消费属性、用户生命周期及用户价值。


下图所示为用户整体架构示例:



用户画像整体架构示例


① 基本属性


基本属性是指一个用户的基本社会属性和变更频率低的平台特征,例如真实社会年龄、性别、婚姻状况、昵称、号码、账号、lbs 等标签。这些标签类型多为直采型,可从用户基本信息表中直接获取,不需要统计或者算法挖掘。


示例:社会性别_女


② 平台属性


平台属性是用户在平台上表现出的基本属性特征,是利用用户行为进行算法挖掘,标识用户真实属性的标签。


最典型的平台属性标签例如平台年龄标签,这里就有一个疑问,为什么在用户的基础属性中已经有年龄标签,但在平台属性中重复又有一个呢,这里就涉及两者之间的差别。设想一个真实的场景:一个用户社会身份为 20 岁,但他喜欢中年人的穿衣风格,在使用 app 购物的时候,表现出的真实偏好为 30-40 岁,对于这样使用产品时表现出的用户心智和真实年龄不相符合的用户,如果只采用上传的基本属性,给他推荐年轻人喜欢的物品,是不是很难命中个体用户的兴趣呢?


两种不同的标签,本质上是用户自己上传信息的随意性和挖掘信息的权威性差异,是用户社会属性和真实属性差异。


我们仔细分析一下两者在数据源、计算逻辑、标签格式、标签值和应用场景的差异,如下:


数据源与计算逻辑:基础属性是利用用户自行上传的存储在用户基础信息表里的数据,平台属性则利用客户端或者服务端埋点上报采集的用户行为数据进行挖掘计算生成。基本属性是典型的直采型标签,平台属性是典型的算法挖掘型标签。


末级标签和输出标签值:以性别为例,基本属性代表用户真实的社会身份,是确定的事实,所以典型标签形式为“性别_女”,而平台属性则代表用户在性别维度的偏好概率,所以典型形式为“性别_女_0.80”其中‘女’为末级标签,0.80 则代表用户在平台的女性身份上表现出的倾向程度。


应用场景:平台属性通过用户行为进行挖掘,更能代表用户的真实倾向,输出结果比基本属性准确率高,在定向营销和算法里,年龄、性别等通常采用平台属性。而社会属性中电话、身份证、账号、昵称等使用较多。


③ 行为属性


行为属性记录的是用户的全部单点行为,用户的单点行为包括启动、登录、浏览、点击、加车、下单等非常多,而且跟不同的产品,不同的模块交互,不同的时间窗选取,行为就更加复杂了,如何能够全面的梳理,可以按照“产品*功能模块*用户单点行为*时间”四大要素来组织。


这里的“产品*功能模块*用户单点行为*时间”意思是一个完整的行为应该包含“哪个产品”“哪个功能模块”“哪个行为”“哪些时间要求”几要素,例如某浏览器体育频道距今最近一次访问时间。按照这几要素组织行为,不容易发生遗漏。


示例:产品初次登录时间,最后一次启动距今时间,30 天内搜索行为频次,一个月内闪屏访问次数等。


④ 产品偏好


产品偏好是对用户使用某些产品、产品核心功能或者其他渠道的偏好程度的刻画,属于挖掘型标签,其中产品的选取可以包括自家产品、竞品;功能和渠道包括站内产品功能,也包括 push、短信、开屏、弹窗等几大运营和产品法宝。


示例:搜索模块偏好、直接竞品_京东偏好、短信偏好。


⑤ 兴趣偏好


兴趣偏好是用户画像内非常重要的维度,以电商产品为例,用户对商品的喜爱程度是用户最终的信息之一,兴趣偏好就是对用户和物品之间的关系进行深度刻画的重要标签,其中最典型的要属品牌偏好、类目偏好和标签偏好。


示例:品牌偏好_优衣库_0.91 类目偏好_美妆_0.80、标签偏好_红色_0.70。


⑥ 敏感度


在营销活动时,我们留意到有些用户不需要优惠也会下单,而有些用户一定要通过优惠券刺激才会转化,优惠券的额度也影响了用户下单的金额,这种情况下,如何识别对优惠敏感的用户发放合理的券额的优惠券,保证优惠券不浪费,去报促销活动的 ROI 最大,其中一个很重要的标签就是用户的敏感度标签,敏感度代表用户对平台活动或者优惠的敏感程度,也是典型的挖掘类标签。


示例:热点敏感度、折扣敏感度。


⑦ 消费属性


无论是电商、内容或者其他领域,公司的目标最终都是收益,所以消费属性往往作为一个单独的维度重点刻画。消费属性包括统计型标签——消费频次、消费金额、最近一次消费时间等,也包括挖掘型标签——消费能力和消费意愿,同时包含敏感度标签——优惠促销敏感度、活动敏感度、新品敏感度、爆款敏感度等。


⑧ 用户生命周期及用户价值


用户生命周期是用户运营的重要法典,一个用户从进入产品到离开,通常会经历“新手”“成长”“成熟”“衰退”“流失”5 个典型阶段,每个阶段对用户运营存在策略差异,画像在其中的作用是明确标记用户所处生命周期的阶段,便于后续业务同学落地。


用户价值是体现用户为产品贡献价值高低的标签,最经典的是 RFM 模型获得交易维度标签,与此同时,也应该看到用户的其它价值,例如为产品贡献活跃度,通过裂变拉来新用户,这些都可设计相应的标签。


示例:新手、成长、成熟、衰退、流失、高价值用户、VIP 等级等。

2. 画像从 1 到 100 的构建思路

在前面一节,我们讨论了一个用户画像的基础框架应该如何搭建,这一节讨论一下,有了基础框架,到底应该如何着手一步一步完善画像标签树,如何从一个基于业务的需求落地为标签的设计,如何将标签应用到具体的业务中。


要解决“如何做”“如何用”两大问题,要从这个问题的根本入手思考,也就是我们为什么要做用户画像,用户画像的作用是什么,了解了这个问题,便能水到渠成的根据用途合理的设计方案。


用户画像的主要目的有三个,具体如下:


第一用于用户信息的统计,建立对产品对用户的基本认知;第二用于用户定向营销,利用人群圈选投放物料;第三用于算法,沉淀用户特征,供模型使用。所以标签的完善也可以按照这三个维度不断丰富,以下分别举例说明标签建设的思路。


① 用于统计,对产品对用户的基本认知


每个产品功能策略完善,都需要建立在对产品对用户的充分认知基础上,也就是说,用户是谁,有何特点,基本情况如何,这些是用户画像需要回答的重要问题。


思路拆解:既然要了解用户的基础信息,就需要将用户基本属性进行拆解:年龄、性别、居住城市(几线)、家庭结构(婚否、孩否)等。为了盈利考虑,还需要了解基本的收入水平、消费能力等。将拆解的维度抽象,构建对应标签,然后进行分布统计,便能生成一份基本的用户认知报告。


标签结果:年龄、性别等。


② 用于定向营销和精细化运营


运营同学作为画像的重要业务使用方,每天都会通过标签圈选人群,做定向的用户、活动、内容精细化运营,以及各 app 每天都在进行的促销活动。这些运营和活动的场景分布在产品的各个渠道和各个资源位,对场景和人群的惊喜程度要求都很高。


我们举例一个日常工作中最常见的需求:通过一次数据分析发现,产品的流失用户占比提升,通过讨论,大家认为通过一次结合利益点的 push 推送,召回流失用户,是有效且快速的手段,同时 push 作为各个业务都在争取的有限资源,希望可以提高使用效率,确保 push 这个资源渠道的整体 ROI,以上需求希望画像可以支持。


思路拆解:从这个需求背景中,我们做一次关键词提取,不难发现,关键词如下是“流失用户”、“利益点”、“push”“效率”。其中流失用户是用户身分识别,利益点是用户优惠敏感度,push 是产品渠道资源,效率意味着要尽可能的确保全选人群精准,不能为了覆盖率牺牲准确率。


思路拆解完毕,具体落地就变得简单多了,参考步骤如下:


第一步:需要流失用户的口径和标签,这里需要用到用户生命周期的划分,从中识别并标识出流失用户。


第二步:分析对流失用户拉回效果最好的利益点,例如优惠券、折扣、礼品或者是其他内容。这一步需要运营和数据同学根据日常经验和数据分析获得,对于画像的要求是基于分析结论,挖掘不同用户对于优惠折扣的敏感程度,这一部分在标签架构敏感度部分有论述,最终目的是确保每一分钱都能花在刀刃上。


第三步:确定拉回的明确目标,是拉回规模还是准确率,通过需求分析可以确定,本次拉回在资源有限的情况下,需要提升人群识别的准确率,画像实现准确率的方法有两条路径,一是提升画像算法的准确率,这部分主要依赖算法本身,无法一蹴而就,所以这里选择的方法是增加人群全选的条件,可就是新增标签,供圈选求交


根据背景分析,我们可以增加流失用户关于 push 渠道的打开意愿的标签,提高 push 资源的使用效率。


经过上述分析,需要生产的标签如下:


  • 用户生命周期_流失。

  • 用户折扣优惠敏感度。

  • push 使用标签:这里可用统计型标签,例如 push 最近一次访问时间,在使用时设置条件为“最近 3 天,最近 7 天”;也可用综合的算法挖掘型标签,即 push 渠道偏好。


通过以上需求分析和思路拆解,画像的建设过程应该比较明确,这里再留一个思考的 case,可以尝试如何分析如何落地:平台新上一款商品,初期需要在某模块展示给目标用户做推广,同时尽量不打扰其他非目标用户,不降低该资源位的整体转化效率。


思路拆解提示:商品的目标用户——商品可以按照哪些维度拆分关键信息?模块位置——用户的模块功能使用偏好是什么?准确率的要求——如何提升画像应用的准确率?


回答好以上问题,这个需求的标签便能顺利获得。


③ 用于算法,主要应用于搜索推荐、风控广告等策略方向,标签可以直接作为用户特征使用


标签除了用于基本的用户群体描述,定向营销和精细化运营,还有一个相对来说新颖又广泛的用途,用于各算法的各个环节,在召回和排序两大经典策略流程中,都可以用到用户画像,这里我们举例画像在推荐系统的召回层应用案例。


需求背景:推荐系统的本质是从海量信息中计算用户最感兴趣的部分,对应推荐系统的“召回-粗排-精排”,是一个“层层精选”的过程。其中召回层是精选的第一道流程,为后续计算打分准备初步的兴趣候选集,这里候选集的生成方法之一就是用户画像法。仍然以电商业务为例,讲述如何用用户画像做兴趣召回。


思路拆解:召回的作用是粗筛,帮助推荐系统计算第一道用户兴趣池,这里用户对物品的兴趣兴趣可拆解为对商品品牌、类目和商品标签的兴趣,这部分就已经转化为上述文章中的已知内容,用户标签中是有品牌偏好标签、类目偏好标签和标签偏好标签的,只需要在所有品牌、类目、标签下维护一个按照商品质量或者热度倒叙的列表,这样只要获取到用户标识,边能从用户画像中获取偏好的品牌、类目和标签,再从品牌、类目和标签下的商品列表中召回相应的商品,根据候选集大小的设计,做 top k 截断召回。这部分商品完成了初步的召回,为进入下一个流程进行粗排和精排做准备。


以上章节,选自:《数据产品经理:实战进阶》


新书推荐



本书鲜读专栏价:89 元=电子书(提前三个月看到)+纸质书+12 个作者维护的付费知识星球。如果转发链接,还可以拿到更大优惠:可以得到成交返利的 40%。(具体操作方法,可识别文末海报二维码,获得详细教程,以及知识星球加入方式。)


以下为作者杨楠楠老师对本书的介绍


1. 为什么要写这本书


本书诞生于数据产品经理社群。


四年前,我在知乎上开始写数据产品经理的专栏,几个月间,有几千名读者关注我,加我微信,于是我就建立了数据产品的微信群。


很多人都在群里问,有没有一本可以让数据产品经理系统学习的书?


世上本没有这样的书,问的人多了,我决定自己写一本。


考虑到个人的经历,始终只是数据产品的众多种类中的一部分,于是我在群里召集大家一起写。


响应者众,有 20 多名数据产品经理,报上来的章节有 30 章。超过了我的预期。而我挨个聊下来,发现每个人手里,都有足够好的项目,在自己的领域,也有足够的资历来传播经验。


于是跟华章的总编辑杨福川老师商量,我们决定出两本书,一本讲专业知识:《数据产品经理进阶》,一本讲案例:《数据产品经理实战》。


在三四年处理众多问题和咨询的过程中,我发现数据产品经理随着成长,主要分成以下几个阶段:


  • 初级/中级阶段:自己怎么样可以在团队中发挥更大作用。很多产品经理要么是执行业务的需求,要么执行老板的需求,要么是在帮算法 RD 标数据,价值感不足;

  • 中级/高级阶段:怎么让数据对公司业务产生价值;


我们的每个作者,都已经超越了上述两个阶段。


他们是这个行业的中坚力量,也愿意给这个行业留下自己的痕迹。


《数据产品经理实战》书,主要回答了第二个问题,每个案例在业内都属于非常好的项目,给公司带来了较大的收益。


而《数据产品经理进阶》(以下简称《进阶》)这本书,主要笃实数据产品经理的知识结构,帮助读者度过第一个阶段,包括以下内容:


① 为了让你可以进一步了解数据产品经理,我们提供了:数据产品的行业视野、产品经理自身的能力要求、以及面试和招聘;


② 为了让你 hold 住全场,成为团队的驱动力,我们提供了通用能力模块,包括数据分析能力、产品经理的项目运转能力;


③ 只有数据部门能使用数据,没法做到数据驱动。让公司的每个部门、每个人,都能方便快捷的使用数据做决策,才算是数据赋能,才能够极大的提升整个公司的数据水平。


这需要良好的数据建设能力。


所以,我们提供了数据采集、治理、应用、能力输出的整个链条的内容:


  • 数据采集:埋点体系

  • 数据治理:数据中台、指标体系、数据管理;数据治理是数据建设的基础,所以这一步共提供了三章内容。

  • 保证数据良好的应用:ab 测试系统;

  • 数据能力输出,把数据赋能于各个部门:数据服务。


④ 策略产品可以直接将数据变现,是非常重要的一个数据产品的方向,我们提供了搜索、用户画像等常见的策略产品的知识。


不同的公司对数据的要求不同,有些公司会更关注可以直接进行数据变现的能力,有些公司会更关注数据建设的能力。


那对于一个新手,要不要了解这么多内容?


这里提供一个做事思路:不要给自己设限。你先留意了这些内容,才会对公司的数据现状进行思考和认知积累,才能知道公司的数据有哪些机会。


产品管理的主动权,应该是产品经理自己争取来的,而不是等待别人给你。


在你去争取之前,我们希望,我们提供的这些章节,是你最好的武器。


2. 读者对象


  • 数据产品经理:完善自己的数据知识体系和职业成长。

  • 企业领导者:了解数据团队在数据、产品、运营、市场等多个方面如何产生价值。

  • 想要转行数据产品经理:了解数据 pm 具体的工作内容。


3. 致谢


非常感谢 12 名作者,在工作的百忙之中,牺牲自己的休息时间,辛苦撰写文章。


感谢机械工业出版社华章公司的编辑杨福川老师:在这半年多的时间中始终支持我的写作,对书的架构和写作提出宝贵意见。


感谢项目经理徐湲策:同时协调两本书的 20 位作者,是一件非常辛苦和琐碎的事情。在项目开始的前半个月,我几乎都在协调,没有时间写书,可见这份工作实在是占用时间和精力。于是我在群里招项目经理,小徐主动站出来承担了这个责任,并展现了他在项目管理方面的专业性。


有十余名志愿者参与了本书的试读,并提出宝贵意见,对本书的质量有很大帮助。他们是:黄宇、梦婷、范昱辉、王资涵;


感谢数据产品群千余名群员的活跃和分享。


谨以此书献给数据产品经理路上的前行者!


本文来自 DataFunTalk


原文链接


https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247498766&idx=1&sn=938552dcc239419eeb7f9de91d7695ad&chksm=fbd74e62cca0c774f64ebfc91d250b066747d2be2f1464af05536a392a9e0e95db6f6d51f701&scene=27#wechat_redirect


2020-04-09 10:076777

评论

发布
暂无评论
发现更多内容

广告与数据算法系列1.1.1: 什么是广告

黄崇远@数据虫巢

互联网 算法 广告

初入响应式编程(下)

CD826

spring 微服务 响应式编程 reactor

redis数据结构介绍三-第三部分 整数集合

Nick

redis 源码 数据结构 源码分析 算法

MySQL死锁与Spring事务

Dean

MySQL

C++数组可以为变量吗

泰伦卢

c++ 互联网 编程语言

redis数据结构介绍二-第二部分 跳表

Nick

redis 源码 数据结构 源码分析 算法

忆秦娥·记游(三)

轩辕御龙

工作时间都去哪儿了?

伯薇

效率 时间管理 个人提升 团队

Django 中如何优雅的记录日志

AlwaysBeta

Python django Web 后端

要不要重新认识一下递归与迭代?

西了意

编程

没有永恒的技术,只有适合的技术

MavenTalker

技术 个人成长 职业规划

B站、Quora、InfoQ,哪个的阅读/播放量会先到10W+?

赵新龙

写作平台 B站 Quora

废掉一个人最好的办法是让他忙到没有时间思考

熊斌

程序员 职场 思考

如何学习区块链技术

比特币 区块链 以太坊

记游(四)

轩辕御龙

西江月·记游(一)

轩辕御龙

菩萨蛮·记游(二)

轩辕御龙

音视频已强势崛起,我们该如何快速入门音视频技术?

音视频专家-李超

音视频 WebRTC ffmpeg 在线教育

格局不行,有机会也抓不住

池建强

创业 格局 MacTalk

回"疫"录(6):致敬最美逆行者

小天同学

疫情 回忆录 现实纪录 纪实 创新突破

Java并发编程系列——Fork-Join

孙苏勇

Java Java并发 并发编程 线程

从翻译到本地化:我在Airbnb做本地化经理的经历

葛仲君

产品 翻译 Airbnb 本地化 全球化

开发机直连Docker中的redis容器小案例

麦洛

redis Docker

多人实时互动之各WebRTC流媒体服务器比较

音视频专家-李超

音视频 WebRTC 在线教育 mediasoup janus

Istio 1.5:对开发人员有什么帮助?

麦洛

云原生 istio servicemesh

最通俗易懂的H264基本原理

音视频专家-李超

音视频 WebRTC ffmpeg H264

Netty系列之源码解析(一)

猿灯塔

Netty

Ledge:这可能是距今最好的『DevOps + 研发效能』知识平台

Phodal

DevOps 敏捷开发 软件开发 研发效能

Make Tmux Great Again

ccx

tmux

Flink Weekly | 每周社区动态更新

Apache Flink

大数据 flink 流计算 实时计算

程序员陪娃漫画系列——排队问题

孙苏勇

程序员 生活 陪伴 漫画

用户画像从0到100的构建思路_架构_DataFunTalk_InfoQ精选文章