写点什么

行业知识图谱在贝壳的应用实践

  • 2020-04-07
  • 本文字数:2357 字

    阅读完需:约 8 分钟

行业知识图谱在贝壳的应用实践

导读:现如今传统行业纷纷拥抱互联网,将业务逐渐线上化。但由于传统行业的数字化程度不高,以及信息流通速度比较慢,导致难以快速了解到市场发生的变化以及自身所处的位置。而行业知识图谱技术通过合理的引入内部和外部数据,并进行充分的融合和挖掘,可以清晰的看到行业整体的发展趋势,更好的赋能传统行业的进一步发展。


本文将从以下几个方面进行阐述:


为什么要做行业知识图谱


首先回答下上面的三个问题:


1. 我是谁



通过对公司内部数据,如业务流水交易数据,行为数据等进行分析,可以准确的了解到自身的发展状况。比如对贝壳找房的相关内部数据分析,可以知道目前的门店数有 13000 多家,以及具体的体量规模,挂牌交易量和覆盖人群等情况。但仅内部数据难以准确的描述公司在整个市场中的位置。


2. 我在哪



通过引入外部数据,可以定量化的描述行业整体的发展状况,从而了解自身所处的位置。比如通过业界对贝壳的评价,以及一些市场行业数据的分析,可以得到贝壳的交易规模和房源挂牌量都是业界第一。从横向维度上进行比较,即与房产中介和房源平台对标的情况,可以知道贝壳找房现为业界领头羊;从纵向时间维度上来看,可以对比十年前的自己和竞争对手与现在的自己的变化情况;从数据上来看,比如门店挂牌量和门店带看量可以反映经纪人作业的情况,或者通过区域门店与 GMV 的占比来进一步明确自身的市场定位。


3. 我去哪



通过融合后的行业数据图谱对行业整体进行分析,可以清楚的看到市场潜在的增长空间和增长方向,从而更好的设定自己的发展目标和价值追求点。比如贝壳找房的愿景是服务 2 亿家庭的品质居住平台。

行业知识图谱解决问题的思路

1. 做什么



经过自我剖析和了解市场后,可以制定明确的发展目标和具体实现的步骤、方案,以及合理的效果评价,从而形成一个正向的循环过程。



举例来说,通过行业图谱,明确了贝壳找房发展的价值空间,如房源量预计可以年增长 11%。基于此便可以制定公司层面的核心目标,比如 GMV 的年增长率。再然后到具体的业务部门,为了促进 GMV 的增长,可能需要提高差异化的房源增量线索供给。进一步的,依据业务目标就可以制定技术目标,即搭建我们的情报分析平台,以及引入更多的数据。


2. 怎么做


首先需要有一套知识图谱技术应用的框架:



具体有:


  • 智能问答:比如对话助手,智能客服,和经纪人的知识赋能。

  • 智能推理:基于图谱的关联关系进行推荐搜索,并给出排序理由,以及利用智能推理实现文本生成。

  • 社区发现:有风控预警,用户画像,和知识融合。


有了技术平台后,便可以构建情报系统。包括提供给决策者或作业人员使用的提效工具,以及线索增量和大盘决策等应用。


3. 做啥样


通过算法,数据和应用,构建起整体的技术平台:



重点是要评价目标的达成效果和目标设定本身。从而解决垂直领域在情报上的欠缺。

行业数据引入的逻辑和方法


为了构建行业知识图谱,需要引入的外部数据有以下五个方面:


  • 对标竞品:竞争对手的产品情况。

  • 专业内容:房地产政策,如金融,原材料,宏观经济情况。

  • 上下游:开发商,物业,建筑商等。

  • 环境周边:医院,学校等 POI 点

  • 用户群体:长租住户,短租住户等

数据加工的过程和实体融合


通常引入的不同来源的数据格式多种多样,因此需要经过数据清洗和实体融合的过程。对于贝壳找房来说,重点融合小区,楼栋,门店,指标体系这几方面的数据。


小区的融合:贝壳目前的覆盖的小区有 40 多万,只占到 70%左右。通过数据融合,得到全国小区 73 万,准确率有 98%。从而确定贝壳在小区维度之后的发展方向。


门店的融合:因为成交数据难以获取到,通常采用门店数据量的对比间接评价与竞品之间的价值比例。

行业图谱的建立和情报分析的过程

1. 行业图谱的建立



目前,贝壳构建好的行业图谱包含的三元组数量有 480 亿。实体类型有经纪人,门店,学校,公园,房源,购物中心,幼儿园等 140 多个类别,主要采用其中高频的 60 多个。关系数量有 230 个,加上属性有 1800 个左右。目前采用的存储平台从以前的 Neo4j 和 JanusGraph,逐渐迁移到 Dgraph。


图谱建立的难点在于如何构建图谱的关联关系,因此需要相关的业务专家支持才能做好实体的属性。另外,通过在公司层面建立图谱编辑平台,从而统一不同部门的所构建的图谱本体。


2. 情报分析的能力



通过构建好的图谱,可以大大提高情报分析的能力,主要包括三个方面:


提效:包括报盘匹配和门店选址两个应用。报盘匹配是将成交的房源与具体的门店进行关联,之前主要由经纪人来完成,现在通过图谱,可以实现 90%-80%的准召率;门店选址是通过对某个区块内的门店数,商业体,人流量等进行加权计算,从而得到给定区域可以容纳的商家数,以及最佳选址。该功能目前还在研发中。


增量:由于某些小区没有在内部挂牌,或者地址不准确,可能导致搜索没有数据,从而不能进行相应的关联推荐。但通过情报系统可以了解到其他商家挂牌的小区,从而更好的辅助经纪人作业。


决策:GMV 数据通常不能直接得到,但可以通过挂牌数,门店数和经纪人作业情况等数据来模拟得到 GMV 数据,从而为贝壳的进一步发展给予指导。

行业知识图谱在智能应用上的作用和表现


目前基于贝壳行业知识图谱开发的应用有:


小贝助手:IM 场景下基于三元组的知识问答。当经纪人接受多个客户的同时咨询时,可以对客户问题进行相应答案的提示,从而提高经纪人的回答准确率,为经纪人提效。


搜索效果:当搜索不到任何结果时,可以推荐对应的站外热度,相关房源和对应的地址。


AI 讲房:主要是 VR 看房场景的文稿自动生成。


今天的分享就到这里,谢谢大家。


作者介绍


孙拔群,贝壳找房行业知识图谱负责人


本文来自 DataFunTalk


原文链接


https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247498789&idx=1&sn=b41dc6bcc64a56b1f7f4ae18810ba980&chksm=fbd74e49cca0c75f1bb4cfde02c6f4d797731d7cb1207dcad67167ec1bfadc58cd7b49ff8fb7&scene=27#wechat_redirect


2020-04-07 14:041991

评论

发布
暂无评论
发现更多内容

中科柏诚本地生活,率先发力场景金融新营销模式

联营汇聚

最强最全面的数仓建设规范指南(二)

五分钟学大数据

11月日更

TDSQL | 数据异常的本质和价值详解

腾讯云数据库

数据库 tdsql

恒源云(GPUSHARE)_教你如何团队合作搞算力!

恒源云

人工智能 深度学习 云算力

如何使用SAP CRM Marketing Survey创建一个市场问卷调查

Jerry Wang

SAP abap 11月日更 Survey

Java 处理表格,真的很爽!

程序员鱼皮

Java

欢迎 Apache ShardingSphere 社区海外新晋 Committer!

SphereEx

开源社区 ShardingSphere SphereEx Committer

Docker心经

卫先生

Python 编译器 编译器远程连接docker docker常用命令 docker总结

Alibaba 新产 SpringCloud Aliababa(全彩第四版)开源

Geek_1df311

Java 编程 架构 微服务

并发高?可能是编译优化引发有序性问题

华为云开发者联盟

Java 编译 代码 并发 指令

TDSQL | 云时代,我们到底需要怎样的数据库?

腾讯云数据库

数据库 tdsql

图文并茂!你管这破玩意儿叫TCP?

热爱java的分享家

Java TCP 程序人生 编程语言 经验分享

Elasticsearch 倒排索引详细剖析

大数据技术指南

11月日更

供应链安全隐患迫在眉睫,2021年全球APT攻击暗藏何种趋势?

科技热闻

保持清洁的Git提交记录,三招就够了

Geek_1df311

Java 开源 架构 git 学习

分析师机构发布中国低代码平台现状分析报告,华为云AppCube为数字化转型加码

华为云开发者联盟

低代码 数字化 华为云 低代码平台 AppCube

什么是色彩心理学?

坚果

心理学 11月日更

如果你正在准备面试TCP,看这一篇就够了

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

第四范式x英特尔“AI应用与异构内存编程挑战赛”圆满收官

第四范式开发者社区

不止承上启下,带你了解工业物联网关

华为云开发者联盟

物联网 边缘计算 网关 工业物联网 工业物联网关

模块四作业提交

21°Char

嵌入式系统软件开发:你需要知道的一切

龙智—DevSecOps解决方案

嵌入式系统 嵌入式系统软件开发

金融级数据库新坐标:腾讯云TDSQL发布全自研新敏态引擎

腾讯云数据库

数据库 tdsql

前端避坑指南丨辛辛苦苦开发的APP竟然被判定为简单网页打包?

YonBuilder低代码开发平台

vivo统一告警平台建设与实践

vivo互联网技术

软件架构设计 运维监控 告警系统

入驻快讯 | 欢迎TDengine正式入驻 InfoQ 写作平台!

InfoQ写作社区官方

入驻快讯

云小课 | SA基线检查---给云服务的一次全面“体检”

华为云开发者联盟

态势感知 华为云 基线检查 上云合规 全面体检

大咖说·未来组织的底层逻辑

大咖说

云计算

使用ABAP代码返回S/4HANA Material上维护的Attachment明细

Jerry Wang

SAP S/4HANA 11月日更 Material

TDSQL | HTAP系统的问题与主义之争

腾讯云数据库

数据库 tdsql

秀出新天际的SpringBoot笔记,让开发像搭积木一样简单

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

  • 扫码加入 InfoQ 开发者交流群
行业知识图谱在贝壳的应用实践_文化 & 方法_DataFunTalk_InfoQ精选文章