写点什么

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?

  • 2020-03-08
  • 本文字数:3822 字

    阅读完需:约 13 分钟

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?

对企业而言,得用户者得天下,能够有一套科学的精准营销、个性化推荐模型,无疑会促进业务的增长;对开发者而言,用户画像也是频繁被提及的技术,这样可以根据目标用户的动机和行为上进行产品设计,远远优于为脑中虚构的东西做设计。


用户画像的应用场景甚多,但即使是从事这方面研发的人,对其内部逻辑也是似是而非。大家都希望自己的用户画像模型更加精准,如何做到?这就要深入解剖,理解用户画像与标签的关系、根据何种理论建模更加有效?大数据时代,需要上帝的视角,有了科学的大数据思维方法和理论指导,才能在结合实际业务建模中游刃有余。

DT 时代要从比特流中理解人类行为

水有源木有本,之所以需要用户画像,是因为 DT 时代相较传统 IT 时代发生很大变化:DT 时代的数据是现实世界的虚拟化表现,数据本身构成了一个虚拟世界,这使得 IT 系统构建在虚拟系统上,也变得更加智能。


尤其表现在信息化建设、可穿戴设备、信息网络的发展,使全社会的信息化程度越来越高,越来越多的业务需要计算机应用,将设备和人连接在一起,用户与这些应用、设备交互中产生大量数据。


在这种社会科技发展趋势下,人与人沟通的方式发生了根本变革,这就导致“要学会从比特流中解读他人”,因此要构建用户画像;但数据这么大,人工显然无法应对,所以“还要教会机器从比特流中理解人类”,再在画像的基础上构建一些应用,比如个性化推荐、精准广告、金融征信等,进行机器与人的交互。

你真的理解用户画像是什么意思吗?给你深度解析

用户画像、标签、360 度用户视图等这些词经常被提起,但实际上连从事研发工作的人,对这些概念也不甚了解。要想搞清楚,还需要从理论层面解读。


用户画像从某种程度上说来源于对事物的描述,但每个人描述事物的方式和角度不一样,梳理共性,可将用户画像分为五个层次:


第一个是目标,目标都是为了描述人、认识人、了解人、理解人。这是用户画像最大的目标。


第二是描述的方式,分为非形式化(语音、文本、视频、图像……)和形式化(读卡器读取信息的形式)两种手段。

第三是组织方式,就是结构化和非结构化的组织方式,我们前面看到的球员数据它就是结构化的。

第四个就是用户画像标准,包括常识、共识、体系。这个很重要(比如说某个人特别二次元,这个词对方就可能听不懂,是因为双方对二次元这个词没有达成共识,所以必须有一套达成共识的知识体系,不然用户画像这件事是没有办法达到的。)

最后一个是验证,依据:事实、推理过程、检验。为什么一定要验证?举个例子,比如说某个人“特别不靠谱”,相当于打上标签,但会被反问为什么不靠谱、依据是什么?所以要提前验证,否则会丧失可信力。


据此,可以得出用户画像的定义:用户画像是对现实世界中用户的数学建模。



一方面,用户画像是描述用户的数据,是符合特定用户需求的对用户的形式化描述。从业务中抽象出来,可以形容为“来源于现实,高于现实”。另一方面,用户画像是一种模型,是通过分析挖掘用户尽可能多的数据信息得到的。对数据做抽象,可以形容为“来源于数据,高于数据”。反过来,根据这个模型,可以挖掘出更多用户画像。

如何构建用户画像?让机器根据一套知识体系理解人类

在 90 年代流行一种”本体论”方法,但非常复杂。所以重点来了,用户画像构建需要根据一套原则,在这里分享一套相对朴素的方法:



朴素的知识表现方法:符号-概念法。符号与概念是相对应的,比如,狗这个词是一个符号,但人们脑子中的概念是”四条腿、看家的、一个能汪汪叫的动物”。



朴素的用户特征表现方法:标签-模型法。标签的定义是用户特征的符号表现,模型定义是经验总结的用户特征。什么是标签?举例来说,比如”收入高、坐办公室” 这个群体可以打上白领这个标签;同时标签是跟业务场景绑定在一起的,脱离业务场景的符号没有明确的含义。比如在阿里内部,关于男女,这样最简单的标签,也有 12 个男和女,它与业务密切相关,不仅仅是指生理上的男和女,还包括在互联网喜欢买男性的商品或者女性的商品定义的男女等等。


那么,用户画像和标签有什么关系?其实二者是整体和局部的关系,用户画像是整体,标签是局部,而整体和局部的关系可以通过“标签体系”体现。



根据这个逻辑,可以得出,用户画像可以用标签的集合来表现,即“标签体系”方法,用户画像(整体)和标签(局部)还包含两方面的关系:化整为零,整体如何反映在局部;化零为整,局部如何组成整体。


举例来说:“人都有一双眼睛一个鼻子”,化整为零来看:应该观察到每个人都有一双眼睛和一个鼻子;化零为整:只有位置合适的一双眼睛和一个鼻子才被认为是一个人。


至于标签体系,因为标签是和业务密切相关的,对应的标签体系也要搜集所有业务方的需求,制定出标签体系后,给每一个标签标准进行定义,最后进行标签开发。


另外,在用户画像建模方面,可以将标签建模分为四层:第一层是事实类标签,譬如用户购物了什么品类;第二层是机器学习模型的预测标签,譬如当下需求、潜在需求等;第三层是营销模型类标签,譬如用户价值、活跃度和忠诚度等;第四层是业务类的标签,譬如高奢人群、有房一族等,它是由底层的标签组合生成的,通常由业务人员定义。



最后是验证,对模型的验证可以分成两个方面,一个是准确率的验证,标签打得准不准;第二个是标签打得全不全。但这两个方面没有办法同时满足的。现实业务中无法追求 100%完备的标签体系。不过,目前谈得最多的是准确率。其分为两种,一种是有事实标准的,譬如生理性别;另外一种是无事实标准的,譬如用户的忠诚度,只能验证过程,具体效果需要通过线上业务 A/B Test 进行验证。

构建用户画像的关键难题:需要上帝视角

要想精准构建用户画像还面临着许多技术难题,比如用户多渠道信息打通、多渠道的产品打通、实时采集用户数据,以及用户数据挖掘建模等方面。重点解读下用户多渠道信息打通和多渠道的产品打通两个关键问题。


首先是用户多渠道信息打通,大数据时代我们需要上帝视角。


因为用户与企业的触点非常多,譬如手机、邮箱、Cookie 等,要将同一个用户的多个触点进行打通。方法就是把用户 ID 视为图中的顶点,如果用户的两个触点在同一个场景出现(比如用邮箱登陆),那么就可以把在用户的邮箱和 Cookie 用一条边进行连接,从而构建一张图。



用户打通可以基于图例的方法进行强拉通,也可以采用机器学习方法进行模糊拉通,预测出拉通的概率。




除了用户打通,不同渠道的产品也需要拉通,可采用标签体系拉通方法:建立一套标准的分类标签体系,比如一颗分类树,任何商品都能划分到这个分类树的叶子节点。根据百分点的实践经验,手工映射的方法成本高、难以大规模开展,实际工作中会采用机器学习模型+少量的人工规则来实现。


但要实现自动分类,其中难点不在于模型,而在于获得训练数据、feature engineering,以及分类树层级节点之间的依赖问题。

用户画像应用,是业务和技术的最佳结合点

可以说,“用户画像”在行业应用中算是曝光率最高的技术之一,有很多用武之地,总结来说,包括:售前的精准营销、售中的个性化推荐,以及售后的增值服务等;用户画像的标签维度包括人口属性、上网特征、购物偏好等。



需要强调的是,标签和应用是相互相承的关系,一方面可以根据现有的标签维度开发应用,另一方面也可以根据应用的需求扩展标签的维度,两者互相促进。


首先,根据用户画像进行精准营销。不同于门户广告等 DSP 公司投放的程序化广告,百分点着眼点在于帮助企业整合、拉通自己的第一方数据,建立企业用户画像、实现全渠道营销。


而且结合百分点的营销管家产品,可以实现触发式的营销。


比如,用户在某网站下单购买一款手机,便可以立马给他推送该品牌手机对应的手机配件广告。最终效果是,通过用户拉通用户画像,对 59 万个潜在消费者形成 4 个精准人群,并进行投放,是盲投点击率的 10 倍。


其次是售中的个性化推荐。这是百分点最开始创立时做的事情,目前已经服务超过 1500 家的电商和媒体客户,是国内最大的第三方推荐服务提供商。


值得一提的是百分点推荐引擎的设计架构,核心为四大组件:场景引擎、规则引擎、算法引擎和展示引擎,尤其是规则引擎非常强大,可以根据客户的业务需求可视化配置推荐逻辑,譬如推新品、清库存等等,而不仅仅是点击率最优。


比如百分点的某个团购网站客户,采用这个推荐引擎解决下单率的问题,通过分析发现了该网站用户的一系列特征,譬如忠诚度低、区域性购买等。



最后是如何结合用户画像提供“售后”增值服务。上图是百分点客户的应用系统方案,通过数据接口实时反馈用户相关信息,包括历史维修、历史咨询并进行知识推荐等内容,支撑服务效率、提升客户满意度;同时收集用户的服务满意度数据,进一步补充、完善用户画像信息。

小结

在大数据时代,机器要学会从比特流中解读用户,构建用户画像变得尤其重要,是上层各种应用的基础。


用户画像不是数学游戏,而是严肃的业务问题。构建用户画像的核心是进行标签建模,标签不仅仅是个符号,更要和业务紧密关联,是业务和技术的最佳结合点,是现实与数据化的最佳实践。不断从更深的逻辑角度思考建模理论,并有效匹配业务应用,用户画像在实际业务中的重要价值将会越来越大。


作者介绍


苏海波,百分点集团研发总监,清华大学电子工程系博士。擅长文本分析、机器学习,精于个性化推荐以及计算广告学;多篇论文发表于 GLOBECOM、ICC、IEICE Transactions 等国外顶尖学术会议和期刊;曾负责当当网百货搜索以及 adsmart 广告系统的算法效果优化;曾负责新浪微博信息流广告产品整体算法策略的设计及研发。


2020-03-08 16:441611

评论

发布
暂无评论
发现更多内容

week 10

Geek_2e7dd7

十二张图搞懂浏览器安全——(同源策略、XSS、CSRF、跨域、HTTPS、安全沙箱等知识点)

执鸢者

https 浏览器安全 同源策略 XSS 跨域

十五张图带你彻底搞懂从URL到页面展示发生的故事

执鸢者

大前端 浏览器 页面展示

低代码平台会让程序员失业?测评了5个工具,谁能让效率提高N倍?

代码制造者

编程 编程语言 低代码 零代码 测评

MySQL“被动”性能优化汇总!

王磊

MySQL

英特尔推出“OpenVINO领航者联盟”,携手DFRobot推进AI商业落地新探

最新动态

腾讯SaaS千帆对渠道的态度——合作共赢的诚意

人称T客

DT时代释放金融数据价值,驱动金融商业裂变

华为云开发者联盟

金融科技 华为云 modelarts 数据价值 用户细分

微服务架构

不在调上

5招详解linux之openEuler /centos7防火墙基本使用指南

华为云开发者联盟

centos7 网络安全 防火墙 openEuler 网络环境

煌煌中原 化鲲为鹏

脑极体

week 10

Geek_2e7dd7

9个常用ES6特性归纳(一般用这些就够了)

华为云开发者联盟

Java 程序员 编程语言 ES6 编程效率

计算机网络基础(十七)---传输层-TCP的可靠传输

书旅

TCP 计算机网络 网络协议 计算机基础 TCP/IP

【漫画】最近,老王又双叒get了CDN的新技能—可编程化敏捷开发

阿里云Edge Plus

CDN

联盟链落地与激励机制

CECBC

【权限系统设计】ACL, DAC, MAC, RBAC, ABAC模型的不同应用场景

小隐乐乐

支持 100 种语言的 Canva 是怎么做本地化管理的?

葛仲君

产品经理 本地化 产品本地化 国际化

LeetCode题解:21. 合并两个有序链表,迭代(优化),JavaScript,详细注释

Lee Chen

大前端 LeetCode

超英文邮件50%!Flink 中文邮件列表必须有姓名

Apache Flink

flink

F5G的星光闪烁,为工业而明,向未来而歌

脑极体

libuv 异步网络编程之 TCP helloworld

Huayra

网络编程 libuv

2.2.2 类反射场景与使用 -《SSM深入解析与项目实战》

谙忆

你是否真的懂数组?

架构师修行之路

数组 数据结构与算法

贵州:“区块链+”促经济转型产业升级

CECBC

当我们谈注册中心时谈什么?

捉虫大师

zookeeper nacos 注册中心

Github+docsify零成本轻松打造在线文档网站

Java全栈封神

Java GitHub 全栈 文档 docsigy

LeetCode题解:21. 合并两个有序链表,递归,JavaScript,详细注释

Lee Chen

大前端 LeetCode

主权投资基金或有助于实现可持续发展目标

CECBC

论做AI芯片的正确姿势

flow

为什么 90 后一言不合就跳槽?

非著名程序员

程序员 个人成长 职业成长 延迟满足感 即时反馈

大数据学院:技术大咖告诉你,为什么你做的用户画像模型不精准?_文化 & 方法_百分点科技技术团队_InfoQ精选文章