写点什么

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

  • 2019-05-17
  • 本文字数:2309 字

    阅读完需:约 8 分钟

贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频

贝壳找房的用户策略团队如何从 0 到 1 构建贝壳用户画像体系?


在用户找房的场景下,影响用户购房意愿的因素较多,用户决策周期较长,贝壳作为一家居住服务平台,需要能精准挖掘用户需求,预知用户决策,才能帮助提升用户找房体验,基于此,贝壳找房的用户策略团队从 0 到 1 构建了贝壳的用户画像体系。


InfoQ 记者有幸在QCon 2019 全球软件开发大会上,采访到了贝壳找房用户策略部负责人郭凯,由他亲自讲解画像体系构建过程中的思考。


以下是视频采访的全部内容,为方便读者查看,视频下方也附上了文字内容。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    InfoQ:非常感谢您参加 QCon 2019 的视频采访,首先请您做一下简单的自我介绍,包括您的工作经历和学习经历。


    郭凯:我于 2010 年硕士毕业于哈尔滨工业大学,在 2018 年的 5 月份加入贝壳找房,目前担任数据智能中心用户策略部负责人。在加入贝壳之前,曾先后就职于搜狗和阿里妈妈从事广告策略相关的工作。


    InfoQ:基于什么样的背景,贝壳找房决定构建用户画像系统?主要用于解决什么样的问题?


    郭凯:贝壳找房是 2018 年 4 月新上线的居住平台,在找房场景下,用户决策周期很长,从线上开始看房到最终线下成交平均需要 200 多天。在这样长的决策周期里,平台需要全方位了解用户,才能更好的服务用户,这就需要我们挖掘用户行为,刻画用户需求。


    InfoQ:您可以简单介绍一下机器学习在贝壳用户画像上的应用?关键技术以及面临的挑战分别是什么?


    郭凯:在贝壳的用户画像体系中,刻画用户的标签可以分为三类:事实性标签、挖掘性标签和预测性标签,机器学习在挖掘性标签和预测性标签里都有非常广泛的应用,比如预测用户的线上留存/流失、线下带看和签约,挖掘用户工作地/居住地等等。面对这么多的维度,首先需要设计一套高可复用的模型框架,包括样本抽取、特征设计、效果评估、数据可视化分析等。在统一的框架下针对每一个具体的 Target,我们需要结合实际业务场景在特征设计上做较多的探索。


    另外,数据是所有机器学习模型的基础,贝壳作为一家成立刚满一年的互联网公司,在数据的埋点采集上还有一些需要完善的地方,对模型的效果分析和优化会产生一定影响。


    InfoQ:通过应用人工智能部分技术,目前的准确率大概是多少?


    郭凯:需要分目标来看,不同目标上差异较大,比如在预测用户留存/流失上,准确率可以达到 90%,在挖掘用户工作地和居住地上,准确率在 70%左右。


    InfoQ:在机器学习的模型选型,特征设计和效果评估等各阶段分别遇到了什么样的难点,又是如何解决呢?


    郭凯:最近几年深度学习的应用非常广泛,在广告、推荐和搜索领域都相对传统机器学习方法取得了更好的效果,起初我们也在想要不要直接上深度学习,经过一番考虑之后决定先以传统机器学习模型开始,主要基于以下三点:


    1、深度学习需要更多的调参优化,每一轮的训练时间较长,迭代的时间成本很大;


    2、学习过程需要大量的数据样本,在我们的一些线下场景里数据量不是那么的大,深度学习模型的 variance 可能会比较大;


    3、深度学习的最优化求解过程需要进行大量的计算,对硬件要求较高,在一个新的业务场景还没有验证效果增量的时候,投入过大的硬件成本有较大风险。基于以上几点考量,我们决定先采用传统的机器学习模型快速迭代,目前采用的是 XGBoost+LR,也取得了不错的效果。其实任何一个场景里,模型迭代都是由简到繁的过程,适合自己的才是最好的。


    在数据抽取上,居住这个领域比较特殊的是线下行为比例比较重,并且线下的行为也更加重要,需要将用户线上线下数据打通。在传统机器学习模型中,特征设计是非常重要的一环,为了高效支持特征的迭代,这个模块需要设计的足够灵活来支持任意特征的组合。


    InfoQ:未来是否考虑向深度学习方向迁移?


    郭凯:会的,深度学习是趋势,我们会结合数据赋能的场景,优先针对在更多场景下得到应用的数据维度向深度学习迁移,不断拓展技术边界。


    InfoQ:整个过程用到了哪些开源技术?


    郭凯:传统机器学习模型在工业届已经应用很多年有比较成熟的应用体系了,很多的技术工具都不需要重复造轮子,可以借用开源的技术来实现,算法工程师将更多的精力放在效果调优上。在我们的框架里 XGBoost 和 LR 都是使用的开源工具。


    InfoQ:方便介绍一下如何通过数据分析更好的调优模型,包括模型调优的重要性主要体现在哪些方面?


    郭凯:模型调优是非常体现算法工程师的能力的环节,过程中需要结合数据上的 badcase 深入到模型内部去分析。以决策数模型为例,需要根据决策树的生成过程、根据节点分裂的逻辑来分析产生 badcase 的原因,进而寻找优化方案,这是一个抽丝剥茧的过程。模型调优首先直接影响的就是效果,另外这个过程也会加深工程师对数据的认识、对模型的认识,对工程师的成长有很大帮助。


    InfoQ:目前,贝壳找房的用户画像系统在提高用户体验方面取得的效果如何?


    郭凯:用户画像在贝壳内的很多用户场景下都有应用,比如营销上的新客获取和老客唤醒,消息 Push 和短信分发,站内的搜索和推荐,以及面向经纪人端的一些产品上,都取得了不错的效果,比如提升推荐点击率 20%以上,降低老客唤醒成本近 30%。除了已经取得的效果,我们会继续提升刻画用户的能力,致力于给用户带来更好的服务体验。


    InfoQ:接下来,整个贝壳找房用户画像系统的改进方向,主要会用到哪些技术包括面临的挑战?


    郭凯:对用户画像系统而言,数据是基础,算法模型是方法,接下来的改进也是围绕这两方面。数据上将继续拓展数据源,比如用户和经纪人的交互数据、用户在线下门店的访问数据、用户在 VR 场景下的轨迹数据等,这里面数据的采集、数据的转换和融合都是我们要去解决的问题。算法模型上会从传统机器学习向深度学习模型升级,在对工程师的数据认知以及对模型的理解和调优上都将面临更大的考验。


    2019-05-17 10:437115
    用户头像
    赵钰莹 InfoQ 主编

    发布了 881 篇内容, 共 630.6 次阅读, 收获喜欢 2677 次。

    关注

    评论 2 条评论

    发布
    用户头像
    感觉像面试呢?
    2019-05-28 18:40
    回复
    用户头像
    目前最热的技术不一定是最适合企业的,就好像本文的深度学习
    2019-05-17 13:57
    回复
    没有更多了
    发现更多内容

    智能运维(AIOps)系列之四:智能运维落地的思路

    micklongen

    AIOPS 智能运维

    福布斯解读区块链行业如何改变全球人才供给

    CECBC

    模块 2. 架构设计

    Geek_ywh40v

    微信朋友圈的高性能复杂度

    张文龙

    #架构实战营

    八位阿里大牛耗时三年总结出Java面试复盘手册!带你实现逆风翻盘

    白亦杨

    Java 编程 程序员

    【面试&个人成长】2021年过半,社招和校招的经验之谈

    王知无

    vivo S系列的爆款密码:自拍,自然,自出机杼

    脑极体

    金九银十马上要来了,我熬夜整理10 万字节详细面试笔记(带完整目录) 良心分享

    Java 编程 程序员 架构 面试

    一文入门 Go 的性能分析

    Rayjun

    pprof Go 语言

    Data Mesh,数据网格的道与术

    王知无

    Spark SQL和DataFrames:与外部数据源进行交互(五)

    Databri_AI

    sql spark

    科学主义 -- 个人进步的杀手

    俞凡

    认知

    golang解析---进程,线程,协程

    en

    线程 进程 协程 Go 语言 goroutine

    Fil矿机怎么购买?Fil矿机哪里买?

    fil矿机怎么购买 fil矿机 ipfs矿机

    华为数据治理及数据分类管理实践

    王知无

    心理韧性:如何让自己从逆境中走出来

    石云升

    学习 心理学 7月日更

    微服务架构服务容错设计分析

    慕枫技术笔记

    架构 微服务 后端

    OLAP 扫盲

    Galaxy数据平台

    OLAP 高基数

    两个月面试5家,(美团、360、新浪网、完美世界、搜狐)已拿美团18k*16薪offer

    Java 编程 程序员 架构 面试

    华为18级工程师耗时三年才总结出这份Java亿级高并发核心编程手册

    Java 编程 程序员

    模块二作业

    A先生

    模块二作业

    SAKIN

    和12岁小同志搞创客开发:检测按键状态的两件法宝

    不脱发的程序猿

    DIY 中断 创客开发 按键检测

    一文搞懂二分查找面试

    泽睿

    算法 二分查找

    模块-6 拆分电商系统为微服务

    小遵

    模块一作业

    A先生

    Python OpenCV 对象检测,图像处理取经之旅第 37 篇

    梦想橡皮擦

    7月日更

    八位阿里大牛耗时三年总结出Java面试复盘手册!带你实现逆风翻盘

    模块-1 微信业务架构图 和 备选方案

    小遵

    项目管理实践篇(一):技术人如何做好风险把控

    后台技术汇

    项目管理

    北鲲云计算,用技术成就生物科学领域发展

    北鲲云

    贝壳找房郭凯:贝壳用户画像系统的构建历程 | 视频_AI&大模型_赵钰莹_InfoQ精选文章