写点什么

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?

  • 2020-03-08
  • 本文字数:3822 字

    阅读完需:约 13 分钟

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?

对企业而言,得用户者得天下,能够有一套科学的精准营销、个性化推荐模型,无疑会促进业务的增长;对开发者而言,用户画像也是频繁被提及的技术,这样可以根据目标用户的动机和行为上进行产品设计,远远优于为脑中虚构的东西做设计。


用户画像的应用场景甚多,但即使是从事这方面研发的人,对其内部逻辑也是似是而非。大家都希望自己的用户画像模型更加精准,如何做到?这就要深入解剖,理解用户画像与标签的关系、根据何种理论建模更加有效?大数据时代,需要上帝的视角,有了科学的大数据思维方法和理论指导,才能在结合实际业务建模中游刃有余。

DT 时代要从比特流中理解人类行为

水有源木有本,之所以需要用户画像,是因为 DT 时代相较传统 IT 时代发生很大变化:DT 时代的数据是现实世界的虚拟化表现,数据本身构成了一个虚拟世界,这使得 IT 系统构建在虚拟系统上,也变得更加智能。


尤其表现在信息化建设、可穿戴设备、信息网络的发展,使全社会的信息化程度越来越高,越来越多的业务需要计算机应用,将设备和人连接在一起,用户与这些应用、设备交互中产生大量数据。


在这种社会科技发展趋势下,人与人沟通的方式发生了根本变革,这就导致“要学会从比特流中解读他人”,因此要构建用户画像;但数据这么大,人工显然无法应对,所以“还要教会机器从比特流中理解人类”,再在画像的基础上构建一些应用,比如个性化推荐、精准广告、金融征信等,进行机器与人的交互。

你真的理解用户画像是什么意思吗?给你深度解析

用户画像、标签、360 度用户视图等这些词经常被提起,但实际上连从事研发工作的人,对这些概念也不甚了解。要想搞清楚,还需要从理论层面解读。


用户画像从某种程度上说来源于对事物的描述,但每个人描述事物的方式和角度不一样,梳理共性,可将用户画像分为五个层次:


第一个是目标,目标都是为了描述人、认识人、了解人、理解人。这是用户画像最大的目标。


第二是描述的方式,分为非形式化(语音、文本、视频、图像……)和形式化(读卡器读取信息的形式)两种手段。

第三是组织方式,就是结构化和非结构化的组织方式,我们前面看到的球员数据它就是结构化的。

第四个就是用户画像标准,包括常识、共识、体系。这个很重要(比如说某个人特别二次元,这个词对方就可能听不懂,是因为双方对二次元这个词没有达成共识,所以必须有一套达成共识的知识体系,不然用户画像这件事是没有办法达到的。)

最后一个是验证,依据:事实、推理过程、检验。为什么一定要验证?举个例子,比如说某个人“特别不靠谱”,相当于打上标签,但会被反问为什么不靠谱、依据是什么?所以要提前验证,否则会丧失可信力。


据此,可以得出用户画像的定义:用户画像是对现实世界中用户的数学建模。



一方面,用户画像是描述用户的数据,是符合特定用户需求的对用户的形式化描述。从业务中抽象出来,可以形容为“来源于现实,高于现实”。另一方面,用户画像是一种模型,是通过分析挖掘用户尽可能多的数据信息得到的。对数据做抽象,可以形容为“来源于数据,高于数据”。反过来,根据这个模型,可以挖掘出更多用户画像。

如何构建用户画像?让机器根据一套知识体系理解人类

在 90 年代流行一种”本体论”方法,但非常复杂。所以重点来了,用户画像构建需要根据一套原则,在这里分享一套相对朴素的方法:



朴素的知识表现方法:符号-概念法。符号与概念是相对应的,比如,狗这个词是一个符号,但人们脑子中的概念是”四条腿、看家的、一个能汪汪叫的动物”。



朴素的用户特征表现方法:标签-模型法。标签的定义是用户特征的符号表现,模型定义是经验总结的用户特征。什么是标签?举例来说,比如”收入高、坐办公室” 这个群体可以打上白领这个标签;同时标签是跟业务场景绑定在一起的,脱离业务场景的符号没有明确的含义。比如在阿里内部,关于男女,这样最简单的标签,也有 12 个男和女,它与业务密切相关,不仅仅是指生理上的男和女,还包括在互联网喜欢买男性的商品或者女性的商品定义的男女等等。


那么,用户画像和标签有什么关系?其实二者是整体和局部的关系,用户画像是整体,标签是局部,而整体和局部的关系可以通过“标签体系”体现。



根据这个逻辑,可以得出,用户画像可以用标签的集合来表现,即“标签体系”方法,用户画像(整体)和标签(局部)还包含两方面的关系:化整为零,整体如何反映在局部;化零为整,局部如何组成整体。


举例来说:“人都有一双眼睛一个鼻子”,化整为零来看:应该观察到每个人都有一双眼睛和一个鼻子;化零为整:只有位置合适的一双眼睛和一个鼻子才被认为是一个人。


至于标签体系,因为标签是和业务密切相关的,对应的标签体系也要搜集所有业务方的需求,制定出标签体系后,给每一个标签标准进行定义,最后进行标签开发。


另外,在用户画像建模方面,可以将标签建模分为四层:第一层是事实类标签,譬如用户购物了什么品类;第二层是机器学习模型的预测标签,譬如当下需求、潜在需求等;第三层是营销模型类标签,譬如用户价值、活跃度和忠诚度等;第四层是业务类的标签,譬如高奢人群、有房一族等,它是由底层的标签组合生成的,通常由业务人员定义。



最后是验证,对模型的验证可以分成两个方面,一个是准确率的验证,标签打得准不准;第二个是标签打得全不全。但这两个方面没有办法同时满足的。现实业务中无法追求 100%完备的标签体系。不过,目前谈得最多的是准确率。其分为两种,一种是有事实标准的,譬如生理性别;另外一种是无事实标准的,譬如用户的忠诚度,只能验证过程,具体效果需要通过线上业务 A/B Test 进行验证。

构建用户画像的关键难题:需要上帝视角

要想精准构建用户画像还面临着许多技术难题,比如用户多渠道信息打通、多渠道的产品打通、实时采集用户数据,以及用户数据挖掘建模等方面。重点解读下用户多渠道信息打通和多渠道的产品打通两个关键问题。


首先是用户多渠道信息打通,大数据时代我们需要上帝视角。


因为用户与企业的触点非常多,譬如手机、邮箱、Cookie 等,要将同一个用户的多个触点进行打通。方法就是把用户 ID 视为图中的顶点,如果用户的两个触点在同一个场景出现(比如用邮箱登陆),那么就可以把在用户的邮箱和 Cookie 用一条边进行连接,从而构建一张图。



用户打通可以基于图例的方法进行强拉通,也可以采用机器学习方法进行模糊拉通,预测出拉通的概率。




除了用户打通,不同渠道的产品也需要拉通,可采用标签体系拉通方法:建立一套标准的分类标签体系,比如一颗分类树,任何商品都能划分到这个分类树的叶子节点。根据百分点的实践经验,手工映射的方法成本高、难以大规模开展,实际工作中会采用机器学习模型+少量的人工规则来实现。


但要实现自动分类,其中难点不在于模型,而在于获得训练数据、feature engineering,以及分类树层级节点之间的依赖问题。

用户画像应用,是业务和技术的最佳结合点

可以说,“用户画像”在行业应用中算是曝光率最高的技术之一,有很多用武之地,总结来说,包括:售前的精准营销、售中的个性化推荐,以及售后的增值服务等;用户画像的标签维度包括人口属性、上网特征、购物偏好等。



需要强调的是,标签和应用是相互相承的关系,一方面可以根据现有的标签维度开发应用,另一方面也可以根据应用的需求扩展标签的维度,两者互相促进。


首先,根据用户画像进行精准营销。不同于门户广告等 DSP 公司投放的程序化广告,百分点着眼点在于帮助企业整合、拉通自己的第一方数据,建立企业用户画像、实现全渠道营销。


而且结合百分点的营销管家产品,可以实现触发式的营销。


比如,用户在某网站下单购买一款手机,便可以立马给他推送该品牌手机对应的手机配件广告。最终效果是,通过用户拉通用户画像,对 59 万个潜在消费者形成 4 个精准人群,并进行投放,是盲投点击率的 10 倍。


其次是售中的个性化推荐。这是百分点最开始创立时做的事情,目前已经服务超过 1500 家的电商和媒体客户,是国内最大的第三方推荐服务提供商。


值得一提的是百分点推荐引擎的设计架构,核心为四大组件:场景引擎、规则引擎、算法引擎和展示引擎,尤其是规则引擎非常强大,可以根据客户的业务需求可视化配置推荐逻辑,譬如推新品、清库存等等,而不仅仅是点击率最优。


比如百分点的某个团购网站客户,采用这个推荐引擎解决下单率的问题,通过分析发现了该网站用户的一系列特征,譬如忠诚度低、区域性购买等。



最后是如何结合用户画像提供“售后”增值服务。上图是百分点客户的应用系统方案,通过数据接口实时反馈用户相关信息,包括历史维修、历史咨询并进行知识推荐等内容,支撑服务效率、提升客户满意度;同时收集用户的服务满意度数据,进一步补充、完善用户画像信息。

小结

在大数据时代,机器要学会从比特流中解读用户,构建用户画像变得尤其重要,是上层各种应用的基础。


用户画像不是数学游戏,而是严肃的业务问题。构建用户画像的核心是进行标签建模,标签不仅仅是个符号,更要和业务紧密关联,是业务和技术的最佳结合点,是现实与数据化的最佳实践。不断从更深的逻辑角度思考建模理论,并有效匹配业务应用,用户画像在实际业务中的重要价值将会越来越大。


作者介绍


苏海波,百分点集团研发总监,清华大学电子工程系博士。擅长文本分析、机器学习,精于个性化推荐以及计算广告学;多篇论文发表于 GLOBECOM、ICC、IEICE Transactions 等国外顶尖学术会议和期刊;曾负责当当网百货搜索以及 adsmart 广告系统的算法效果优化;曾负责新浪微博信息流广告产品整体算法策略的设计及研发。


2020-03-08 16:441588

评论

发布
暂无评论
发现更多内容

这份数据安全自查checklist请拿好,帮你补齐安全短板的妙招全在里面!

Java-fenn

java;

Docker常用命令原理与实战

Java-fenn

java;

干货 | Web自动化测试中显式等待与隐式等待该怎么用?

霍格沃兹测试开发学社

详谈 MySQL 8.0 原子 DDL 原理

Java-fenn

Java

C++ STL deque 容器底层实现原理(深度剖析)

C++后台开发

容器 后端开发 C++后台开发 C++开发 C++ STL

Go 语言创始人:复制亿点点代码比用别人轮子好!

Java-fenn

java;

从负载均衡到路由,微服务应用现场一键到位

Java-fenn

Java

干货 | JavaScript脚本注入,完成Selenium 无法做到的那些事

霍格沃兹测试开发学社

干货 | 一改测试步骤代码就全写?为什么不试试用 Yaml实现数据驱动?

霍格沃兹测试开发学社

干货 | 仅需4步,即可用 Docker搭建测试用例平台 TestLink

霍格沃兹测试开发学社

VS Code加码Java生产力,IDEA危险了

Java-fenn

Java

透过Redis源码探究Hash表的实现,你学废了吗?

Java快了!

龙蜥开发者说:海纳百川,有容乃大,我在龙蜥社区的升级之旅 | 第 11 期

OpenAnolis小助手

开源 Linux内核 sig 龙蜥开发者说 epbf

干货 | 一文搞定 Docker 容器技术与常用命令

霍格沃兹测试开发学社

同事多线程使用不当导致OOM,被我怒怼了

Java-fenn

Java

云对象 - 重新定义前后端交互

Java-fenn

Java

干货 | H5性能分析实战来啦~

霍格沃兹测试开发学社

干货 | REST-assured 获取日志到文件并结合 Allure 报告进行展示

霍格沃兹测试开发学社

让泛型的思维扎根在脑海——深刻理解泛型时间

Java-fenn

Java

内卷时代下的前端技术-使用JavaScript在浏览器中生成PDF文档

Java-fenn

Java

python 基于aiohttp的异步爬虫实战时间

Java-fenn

Java

Java 进阶 (八)Java 加密技术之对称加密、非对称加密、不可逆加密算法

Java-fenn

Java

【9.2-9.9】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

干货 | 一文搞定 uiautomator2 自动化测试工具使用

霍格沃兹测试开发学社

openGauss内核分析:SQL by pass & 经典执行器

Java-fenn

Java

2022年哪些工具适合设计企业产品手册?

Baklib

产品 产品手册

设备健康管理平台如何为企业打造五大核心设备管理体系?

PreMaint

企业设备管理 预测性维护 设备健康管理

一文带你弄懂Kubernetes应用配置管理时间

Java-fenn

java;

用了Fabric.js后突然想到了...

为自己带盐

实时音视频 Fabric.js 9月月更

干货 | web自动化总卡在文件上传和弹框处理上?

霍格沃兹测试开发学社

干货 | 初窥 Pytest 测试框架,基础薄弱也能轻松 hold 住

霍格沃兹测试开发学社

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?_文化 & 方法_百分点科技技术团队_InfoQ精选文章