写点什么

个数是如何用大数据做行为预测的?

  • 2019-02-15
  • 本文字数:2609 字

    阅读完需:约 9 分钟

个数是如何用大数据做行为预测的?

“个数”是“个推”旗下面向 APP 开发者提供数据统计分析的产品。“个数”通过可视化埋点技术及大数据分析能力从用户属性、渠道质量、行业对比等维度对 APP 进行全面的统计分析。


“个数”不仅可以及时统计用户的活跃、新增等,还可以分析卸载用户的成分、流向,此外还能实现流失、付费等用户关键行为的预测,从而帮助 APP 开发者实现用户精细化运营和全生命周期管理。其中很值得一提的是,“个数”在“可视化埋点”及“行为预测”方面的创新,为 APP 开发者在实际运营中带来了极大便利,所以,在下文中,我们也将围绕这两点做详细的分析。

可视化埋点

埋点是指在产品流程的关键部位植入相关统计代码,以追踪用户行为,统计关键流程的使用程度,并将数据以日志的方式上报至服务器的过程。


目前,数据埋点采集模式主要有代码埋点、无埋点、可视化埋点等方式。


“代码埋点”是指在监控页面上加入基础 js,根据需求添加监控代码,它的优点是灵活,可以自定义设置,可以选择自己需要的数据来分析,但对复杂网站来说,每次修改一个页面就得重新出一份埋点方案,成本较大。目前,采用这种埋点方案的代表产品有百度统计、友盟、腾讯云分析、Google Analytics 等。


可视化埋点通常是指开发者通过设备连接用户行为分析工具,直接在数据接入管理界面上对可交互且交互后有效果的页面元素(如:图片、按钮、链接等)进行操作实现数据埋点,下发采集代码生效回数的埋点方式。目前,可视化埋点的代表产品有个数、Mixpanel、神策数据等。


“无埋点”与“全埋点”相似,它的原理是“全部采集,按需选取”,也就是说它可以对页面中所有交互元素的用户行为进行采集,它是先尽可能多收集检测页面的内容,然后再通过界面配置决定分析哪些数据,但它是标准化采集,如果需要设置自定义的采集方式仍需要代码埋点助力。这种方案的代表产品有 GrowingIO、数极客、百度统计等。

“个数”为什么会选用可视化埋点?

当下移动互联网正处于高速发展且发展形势瞬息万变的阶段中,开发者需要及时根据大数据的分析、反馈,对业务功能等做出调整,在传统的操作模式中,如果想要了解不同节点的数据,就要修改相应代码里面的埋点,然后测试发布,之后再在应用商店审核、上线,整个周期可能长达几个星期,这显然无法满足业务的需求。所以,“个数”采用的“可视化埋点”技术就是为了帮助开发者解决这个问题的。


“个数”的可视化埋点灵活、方便,不需对数据追踪点添加任何代码,使用者只需要通过设备连接管理台,对页面可埋点的元素圈圈点点,即可添加随时生效的界面追踪点,同时在数据采集模式及数据分析能力上,个数能够提供给开发者们准确的、有效的数据。



可视化埋点主要具有以下特性:


  • 零代码,无需代码,节省成本

  • 免更新,新增便捷,无需升级

  • 易测试,圈选测试,实时呈现


换而言之,可视化埋点不仅可以节约企业成本,还可以提高开发人员和运营人员的工作效率。

行为预测

“个数”的行为预测主要包括流失预测、卸载预测、付费预测等,它的原理是基于 App 历史行为数据构建算法模型预测用户关键行为,从而帮助开发者达到用户精细化运营和全生命周期管理的目的。


在这里需要注意的是,“个数”的行为预测与电商平台常用的个性化推荐不同,后者主要是基于用户近期的行为,如浏览记录、购买记录而推出用户可能需要的东西,而“个数”是基于 App 各渠道卸载数、卸载趋势等指标的综合分析,更多的是对人群的聚类分析,而非仅仅基于个人的行为。

行为预测的步骤

据“个推”大数据科学家朱金星介绍,“个数”的行为预测主要分为以下几个步骤:


1.找样本,主要从历史数据库中抽取;


2.特征抽取,将用户与数据库打通,做匹配;


3.特征筛选,保留相关性高的或有价值的特征;


4.模型训练,将保留下来的特征放到模型中训练,在模型的选用上,个数主要用了逻辑回归,原因是逻辑回归的模型相对深度学习等其他模型来说,简单一些,而且在特征筛选上相对好处理,得到的结果好解释,也相对稳定。


5.参数优化,根据效果进行调整,如果结果不理想,即可返回调整参数重新走一次以上流程。

实例分析

下面我们以付费预测为例,为大家梳理一下具体的实现过程。



个数付费预测的流程主要包括以下几点:


1.目标问题分解


明确需要进行预测的问题即付费预测,以及未来一段时间的跨度。


2.分析样本数据


(1)提取出所有用户的历史付费记录,这些付费记录可能仅占所有记录的千分之几,数据量会非常小;


(2)分析付费记录,了解付费用户的构成,比如年龄层次、性别、购买力和消费的产品类别等;


(3)提取非付费用户的历史数据,这里可以根据产品的需求,添加条件、或无条件地进行提取,比如提取活跃并且非付费用户,或者不加条件地直接进行提取;


(4)分析非付费用户的构成。


3.构建模型的特征


(1)原始的数据可能能够直接作为特征使用;


(2)有些数据在变换后,才会有更好的使用效果,比如年龄,可以变换成少年、中年、老年等特征;


(3)交叉特征的生成,比如“中年”和“女性”两种特征,就可以合并为一个特征进行使用。


4.计算特征的相关性


(1)计算特征饱和度,进行饱和度过滤;


(2)计算特征 IV、卡方等指标,用以进行特征相关性的过滤。


5.选用逻辑回归进行建模


(1)选择适当的参数进行建模;


(2)模型训练好后,统计模型的精确度、召回率、AUC 等指标,来评价模型;


(3)如果觉得模型的表现可以接受,就可以在验证集上做验证,验证通过后,进行模型保存和预测。


6.预测


加载上述保存的模型,并加载预测数据,进行预测。


7.监控


最后,运营人员还需要对每次预测的结果进行关键指标监控,及时发现并解决出现的问题,防止出现意外情况,导致预测无效或预测结果出现偏差。


其他场景下,如流失预测、卸载预测等,在流程上与付费预测类似,所以在这里就不再一一介绍了。


有了精准的行为预测,运营者则可以将运营目标进行拆分、细化,具体到每个场景、每个流程,针对不同用户采取不同的推广渠道、运营策略。例如基于流失预测,运营能够提前洞察到用户流失行为,提早进行干预,通过个性化内容推荐、消息推送等运营手段对即将流失的用户进行挽留,从而降低流失率。总的来说,在大数据行为预测的帮助下,运营能够更及时、更全面地了解用户,从而达到精细化运营的目的。

关于未来

接下来“个数”还将在商品推荐等领域做更多的探索,例如开发精准的推荐技术等,也会不断挖掘大数据的潜力,结合反馈的数据做进一步的优化,围绕客户提供的样本数据做更深入的训练学习等,为开发者提供更全面的大数据服务,大家敬请期待。


公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2019-02-15 15:053331
用户头像

发布了 83 篇内容, 共 47.3 次阅读, 收获喜欢 187 次。

关注

评论

发布
暂无评论
发现更多内容

【OH干货】如何向OpenHarmony社区提交代码

拓维信息

OpenHarmony

Java&Go高性能队列之channel性能测试

FunTester

Go 性能测试 队列 channel FunTester

云原生微服务技术趋势解读

阿里巴巴中间件

阿里云 微服务 云原生 中间件

如何构建一个流量无损的在线应用架构 | 专题中篇

阿里巴巴中间件

阿里云 云原生 中间件

DG-IoT: 开源项目职业教育助力解决过度补课难题

dgiot

物联网 2月月更 2月日更 dgiot dgiot物联网

知名信息安全厂商渔翁信息加入龙蜥社区,共建开源生态

OpenAnolis小助手

Linux 开源 信息安全

mark: centos 镜像下载地址

webrtc developer

Linux centos

Linux常用的命令

龙空白白

linux 文件权限控制 linuc

英特尔CEO:开启超级摩尔定律的时代,推动前沿进展

科技新消息

白盒绕过、黑盒绕过——绕过waf(一)

喀拉峻

网络安全

G7完成2亿美元融资

Geek_2d6073

微服务从代码到k8s部署应有尽有系列(二、网关)

万俊峰Kevin

微服务 RPC web开发 go-zero Go 语言

在线YAML转JSON工具

入门小站

工具

运维安全是指什么?如何做好运维安全?

行云管家

运维 网络安全 IT运维 运维安全

北京冬奥有哪些AI“黑科技”?

澳鹏Appen

人工智能 自动驾驶 计算机视觉 nlp 黑科技

低代码如何解锁制造业数字生态系统?

TOBESOFT特碧软件

低代码 数字化 TOBESOFT

3种基于深度学习的有监督关系抽取方法

华为云开发者联盟

文本检测 区域重组 文本检测算法 PixelLink TextSnake

【C语言】一篇速通常量变量

謓泽

编程语言 C语言 2月月更 常量变量

如何通过测试用例保障交付质量

阿里云云效

阿里云 云原生 开发测试 测试用例 研发

后端新手如何从 0 到 1 打造一款 Apache APISIX 插件

API7.ai 技术团队

后端 插件 Apache APISIX APISIX 网关

网络编程懒人入门(十四):到底什么是Socket?一文即懂!

JackJiang

TCP 网络编程 socket IM 即时通讯IM

优秀程序员的30种思维--分析总结篇(13/100)

hackstoic

架构思维

CTF中PHP相关题目考点总结(二)

H

网络安全 CTF

X6在数栈指标管理中的应用

袋鼠云数栈

Java 大数据 前端

CRM重构项目

Mars

如何构建一个流量无损的在线应用架构 | 专题尾篇

阿里巴巴中间件

阿里云 云原生 中间件 EDAS

移动开发平台WorkPlus | 快速实现企业移动应用集成化

WorkPlus

教你用Elastic Search:运行第一条Hello World搜索命令 原创

华为云开发者联盟

数据库 全文检索 索引 Elastic Search 分布式实时搜索引擎

第十二节:Springboot多环境配置

入门小站

spring-boot

手把手带你基于嵌入式Linux移植samba服务

华为云开发者联盟

Linux 嵌入式 Samba UNIX系统 SMB协议

消除if-else之为Enum添加行为实现策略模式

topsion

Java clean code

个数是如何用大数据做行为预测的?_大数据_覃云_InfoQ精选文章