我们每一天都在使用手机,手机成为大家日常离不开的一样物品。
手机的数据在后台是怎样处理和运作的?
成千上万条数据又是怎么被筛选和分类的?
手机使用过程中极致快速的体验从何而来?
NIUDAY 深圳站中,努比亚技术有限公司互联网产品开发部部长佘坤博士为大家分享了“大数据在努比亚的应用”。
大数据在努比亚的应用
01 传统手机厂商做互联网业务有一定的特殊性
互联网公司在最初创立时,都会为自己的产品选择一个用户群体。但绝大部分用户是与手机用户高度重合的,作为互联网企业,没有办法去选择自己的用户。
以努比亚为例,99.9% 都是努比亚的用户。一方面,是有好处的。基于努比亚手机品牌的定位,用户群体非常优质,其中平均年龄大概在 26 - 28 岁,男性占多数。也就是说,游戏可以很好的卖给这些用户。但另一方面,却没办法选择自己的用户。因此,做业务就只能是基于更好的理解用户。
从互联网业务开启之初,努比亚就把基于用户洞察的精细化经营作为互联网的根本策略。
02 大数据是实施经营策略的关键工具
大数据已经深入到各个层次的产品体系,在大数据发展的目标金字塔里:
最基础的是数据基础平台。把用户在手机上产生的海量数据收集并加以加工,为用户提供唯一的标识,对各个业务的运行情况进行监控。比如你的用户是稳步增长还是增长受挫,以及基于此的用户体验。
其次是精细化的经营和运营。比如个性化推荐,是基于对用户的了解,选取我们或合作伙伴的潜在客户,精准地把产品信息通过广告送达给他们。
再上一层是市场洞察。基于对用户和业界的了解,努比亚能输出一些手机市场或者业务市场的行业分析报告。努比亚不是专业的数据公司,这样的报告虽然不会成为一个专门的产品,但可以给手机内部了解市场提供很好的参考。
再接着是经营分析。努比亚的大数据平台,不光是服务于互联网业务,也服务于整个手机产品。基于趋势分析可以了解到,比如:某一款手机在市场上反应如何?它是否要推出下一代?这个系列是否有很好的市场潜力?
最后是公司的战略分析,也是基于大数据平台做出的。
03 努比亚的大数据平台
基于以上的发展目标,在努比亚体系里,大数据平台成为了独立的产品。
大数据平台的产品架构及产品模块:
完整体系是:从基础的计算平台、数据采集、分析、开发和管理以及基于此上的分析工具。像各个业务的一些经营报表,都是通过大数据平台生成。应用引擎的重点是搜索、广告、推荐等,目前已经集成到各个业务模块中。整个业务是以这样的产品模块组成的。
大数据平台的业务架构:
业务架构说明大数据平台自身业务的组成情况,这里有接入服务、存储和计算、平台服务、产品层。努比亚的各个互联网业务体系相互之间是关联的,包括帐号和监控系统,都是和大数据平台紧密结合在一起,从而实现前面讲到的发展目标。
大数据平台的技术架构:
关于技术架构,很多技术是业界通用的,这里用的是一个比较成熟的方案。在此基础之上,主要做的工作:一方面是把它进行集成,另一方面是进行优化。比如调度,努比亚本身的用户规模还不算太大,服务器规模也并不大,现在基本是基于云主机。怎么样充分利用云上的计算资源,是一个很重要的课题。接触过大数据的都知道,数据计算量是非常大的,因此我们在任务调度、计算引擎上做了大量优化工作,之后会给到一组数字,是关于本身在性能上的情况。
大数据平台现在是作为努比亚内部的一个系统,服务于努比亚自身的业务。但同时,为了自身业务部署开发的效率,也开发了一套给内部用的开发系统。一般的业务,关于大数据处理的需求,都可以利用上图所示的这套在线的基于 Web 的开发工具,通过组件的整合,完成相应的逻辑开发工作。
这是对性能进行优化的结果。目前大数据平台这个产品,投入的资源并不多:总共用了 9 台云主机。目前获得的性能已经在产品层面支撑起 50 个业务产品,总的数据量为 600T,每日新增数据 500G,计算任务是 2000 个。
基于最初大数据平台的产品目标,对用户的洞察和理解也是最重要的目标之一。现在的大数据平台,已经具备了对用户自动识别出相应标签的能力。比如像性别、年龄、教育程度,包括消费信用水平、家里是否有小孩,这样的用户标签可以通过用户数据进行识别。这些用户标签可以进一步使得本身的互联网业务更加智能,像推荐、广告以及社区服务,能更加精准贴近用户的需要。
下图为详细支持的标签属性:
04 基于大数据平台的业务案例:应用推荐
关于应用推荐,所有应用市场都有这个功能。我们的应用推荐支持以下几个方面:
第一,猜你喜欢。根据用户之前的应用下载使用情况,推荐可能感兴趣的应用。
第二,相似推荐。比如你下载了一个王者荣耀,跟王者荣耀相似的有哪些应用。
第三,拓展推荐。安装了这个游戏的用户,还喜欢一些什么应用。
从各种维度向你进行推荐。这是业务应用推荐本身的能力。
应用推荐的模块架构:
这个架构分为几个层次:
第一,候选级,形成召回集合。这里会综合利用以下数据,比如历史、实时、用户偏好,根据的是 CF,协同过滤,或者 CB,基于内容的推荐。也会利用行业热门或者相关信息,热门就是将下载最多的推荐给用户。这一层次最重要的是形成用户推荐级、候选级。
第二,是对候选级进行过滤。比如按照历史情况,已经下载安装了,就把它从机会里去掉,或者根据性别,例如男性对游戏和应用有明显的偏好,或者根据年龄、负行为反馈,比如你删了一类应用,这类应用就不会再推了。然后排序,第一屏被点击的可能性是最大的,再往后翻两三屏,基本不会再点击。一屏就只有 5 - 7 个应用,因此把用户最有可能喜欢和点击的应用排在前面非常重要。
第三,是 Rank,基于的算法是 CTR 和 CVR 的预估。CTR 是点击转化率,CVR 是点击价值率,即点击之后购买的比率。
第四,是融合层。一些被运营干预的排序结果,在融合层可以进行干预。
最后是 Rerank,进行最后的调整。基于自定义规则或者 Badcase 进行调整,或者多样化。比如应用推荐,某个用户很喜欢游戏,但却不能推荐的全是游戏,里面可以插入一些用户感兴趣的应用。或者如果连着几个都是同一类的游戏太单调,中间可以把排序结果打乱,插入其他类型,使得结果相对多样化。
应用推荐的技术流程:
为什么说它是基于大数据平台的?这个应用推荐是基于大数据平台开发的应用,数据采集、数据处理等基础的能力都是由数据平台提供。作为应用推荐的应用,开发团队主要关注在算法层面上。这里的技术流程,主要是聚焦于算法方面。把收集上来的数据经过特征工程抽取行为,然后形成初始推荐级,再根据 CTR 和 CVR 的情况进行排序,最后生成推荐级。
算法涉及的相关技术领域:
最基础的 Hadoop、Spark,前面都已用到。上面是相关的模型或者应用到的子系统。
这是应用推荐用到的一些算法:
CB,基于内容的推荐;CF,用了 item-CF 和 Model-CF;CTR 预估,用了因子分解器、SVM;同时尝试引入机器学习算法,进一步加强应用推荐方面在 CVR、CTR 预估的性能,计划引入 L2R 和 FTRL。
目前推荐引擎的主要性能指标:
和淘宝产品竞赛结果比对,可以让大家有一个基本的概念,目前也在不断探索和改进过程中。一般业界衡量推荐系统,主要是三个指标:准确率、召回率、综合评分。
那么关于准确率达到的 11% 是怎样进行衡量和计算的?把采集上来的用户数据分成两类:第一类叫训练级,是对算法引擎进行训练;另外一类叫做验证级。根据训练出的模型,预测训练级的用户可能会下载的用户,预测的准确率为 11%。召回率指的是,测试级中用户下载的应用处于通过计算、预估的结果中的大概 40%。最后综合评分是在 17.2%,这是努比亚目前能交出来的成绩单。
努比亚在 2012 年时,正式开始做手机品牌,之前一直是跟运营商做定制手机。对于互联网业务,努比亚的起步不是最早的一批,但目前随着良好、优质的用户群体,在互联网的发展还是非常快的,其中大数据平台起了至关重要的作用。
本文转载自公众号七牛云(ID:qiniutek)。
原文链接:
https://mp.weixin.qq.com/s/bB_ddE160apWASHiSLQTtQ
评论