随着互联网用户数的增长,数据量和流量的爆发式增长,常规的数据处理和服务推荐手段已经很难适应当下复杂的业务场景,如何精细、准确、高效、智能的将产品和用户联系起来,成为各个平台系统越来越关注的点。因此,基于千人千面的个人性推荐系统成为各个业务场景不可或缺的一环。
周寻老师之前在爱奇艺负责的工作都和数据和算法相关,包括爱奇艺主要流量端的个性化推荐,大数据平台化建设,比如 A/B 实验平台,用户分析平台,用户画像平台等等,总的来说是一个为全公司的业务提供数据能力,利用算法和大数据技术让业务能更加高效运转和增长的大数据中台团队。周寻有十年大数据和智能算法经验,在个性化推荐算法和平台架构、大规模 OLAP 系统、用户画像、数据科学等领域有深入的实践经验。
在 2021 年ArchSummit全球架构师峰会上,我们邀请周寻老师来担任“新时代推荐系统技术”专题出品人,策划大数据和推荐系统探索方面的议题,以下是和周寻老师的沟通整理。
亲历数据平台架构的升级
此前作为爱奇艺推荐系统和大数据应用团队的负责人,周寻老师亲历并主导了多次数据平台架构的升级,对于爱奇艺大数据架构的建设和改造,印象深刻。周寻刚加入爱奇艺的时候,负责的其中一个项目是用户画像,简单来讲就是利用用户的各种行为轨迹数据为用户打标签,当时的一个比较大的困难是用户数据散落在各个业务和系统中,数据团队花费了很多精力从各个业务系统和数据库中抽取这些信息,有时还存在用户 ID 不一致,行为埋点信息不准确等一系列问题,可以说这个阶段是非常痛苦的。
大概在 2017 年的时候,随着公司内的数据团队逐渐整合在了一起,数据的标准化和统一化成为了大数据部门的首要任务,周寻带领团队先设计了统一的公司埋点规范和用户 ID 规范,随后通过接近 2 年时间的数据中台化的建设和推进,很好的解决了第一阶段的各种痛点。随后,他们对公司内的数据产品进行了整合和 SaaS 化建设,比如面向用户侧分析的系统,面向内容侧分析的系统,A/B 实验系统等等,并在实时化、智能化、移动化三个方向着力,把数据能力前置让数据应用产品成为业务进行分析和决策的首要依靠。
推荐中台的建设背景
推荐中台本质要解决的是效率问题,当我们有很多推荐场景需要同时并行迭代优化的时候,人效提升和能力共享变成了一个亟需解决的问题。
周寻拆分成两个阶段来介绍:第一个阶段,团队实现了一些最简单的可配置化场景上线,大多是通过复用其他场景模型的方式,这样的优点是能快速接入和上线,缺点是无法很好的进一步优化推荐效果,这种方案在爱奇艺进行个性化改造的初期是一个比较好的选择。
而在用户产品的个性化渗透达到比较高程度的时候,数据团队开始着手进入推荐中台第二阶段的工作,主要目的是把一些核心组件进行配置化和开放化,这样负责不同推荐场景的工程师可以进一步开展深度优化,在配置化建设过程中也比较重视经验沉淀,把一些好的“算子”进行抽象管理,方便团队直接互相借鉴经验。随着算法成熟度和业务复杂度的不断提高,推荐中台的角色也将越来越重要。
当然,中台架构在建设过程中难免也会走些弯路。周寻认为,架构的升级往往是业务和技术双驱动,用更先进技术更好解决更复杂的问题,但架构升级往往会带来业务的阵痛期。从周寻的经验角度看,只有把架构跑在业务前面才能更加优雅的解决问题,周寻对团队的要求是架构至少应该领先业务半年,当然,这要求架构师对业务的理解和预判有更高的要求。
算法是推荐系统的灵魂
大数据个性化推荐系统的好坏,最相关的便是其采用的推荐算法,它是整个系统的灵魂。有基于关联规则、基于内容和基于协同过滤的推荐,在选取规划上的考量因素有哪些呢?周寻说,现代的推荐系统都是多种算法的融合,同时考虑多样的业务目标,算法的选择一定要从业务本质出发,他甚至认为,关于商业逻辑的思考是算法工程师必备的课程。
此外,用户数据在推荐中扮演着重要的角色。周寻说,除了常见的用户画像能力,更重要的包括了用户行为数据的颗粒度和实时性,在爱奇艺的推荐系统中,用户的行为数据可以分为三个层次(实时,近线和离线)来影响算法策略。另外,埋点的颗粒度也会直接影响推荐系统的上限,比如用户在看视频中的拖拽行为,跳出点信息等等都可以为算法模型拿来学习。
虽然大数据个性化推荐在当前互联网行业的使用已变得炙手可热,但不可否认,很多产品的推荐效果还远远没有达到期望的那样,未来的路还很长。正如周寻所说的,推荐效果的衡量方式在不同公司不同行业的定义都不同,内容类的可能会强调用户时长,电商类的可能会强调交易,社交类的强调关系建立等等。如何定义好推荐效果指标是首先要解决的问题,这涉及到前面说的对商业逻辑的思考。同时,在产品发展的不同时期,也应该策略性的去调整推荐目标,没有定式但一定是从业务本质出发同时是数据可衡量的。
周寻:eBay 中国研发中心(CCOE)总监
推荐广告团队负责人,前爱奇艺主 App 推荐和大数据应用平台团队负责人,有十多年大数据和智能算法经验,在推荐广告算法及系统架构,用户画像,AB 实验数据科学,大规模 OLAP 等领域有深入的实践经验。
【活动介绍】
ArchSummit全球架构师峰会(北京)将在 2022 年 3 月 24-25 日举办,会议日程已上线,邀请了字节跳动、阿里、百度、京东、小米等企业的技术专家来演讲,分享微服务架构、客户端架构设计、数据库选型、LakeHouse 架构演进与数据治理实践等话题。如果您对会议感兴趣,欢迎点击【阅读原文】查看会议日程。参会购票请联系票务经理 17310043226。
评论