在 5 月 25 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 38 期百度技术沙龙活动上,百度推荐与个性化部高级架构师陈天健、百度个性化推荐部门资深研发工程师姚旭、前淘宝搜索算法专家何杰和 Zalora South East Asia 架构师翁伟分享了各自的推荐系统实践方面的经验,话题涉及“推荐系统实时化的实践和思考”、“百度个性化推荐实践”、“个性化推荐在电商行业迷思”和“利用 20% 时间开发推荐引擎”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。
主题一:推荐系统实时化的实践和思考 (下载讲稿)
推荐系统时效性对于推荐效果往往有着重大的影响,百度推荐与个性化部高级架构师陈天健接下来和大家探讨在实际系统中推荐的实时性是如何从原理到系统各个层面得到体现并做提升的。
他首先提到了推荐系统实时化的需求:
- 简单热身:实时更新的新热推荐
- 主流选择:基于反向索引的系统
- 延伸探索:协同过滤实时化
通过推荐系统实时化,能够加快兴趣发现和收敛速度,获取对于智能程度的感知,提高推荐的质量,并且算法设计和工程实现成本很低,但是缺点是新颖性差,个性化的拓展空间小。基于反向索引召回的系统,与之相比能很好的平衡准确性和新颖性,并且时效性比较好,但是缺点是在召回的过程中存在性能问题。最后,他提到了协同过滤实时化的优缺点,即:时效性大为改进、准确性几乎与之前的方式相当,然而工程的代价比较大;
主题二:百度个性化推荐实践(下载讲稿)
百度个性化推荐部门资深研发工程师姚旭则着重介绍了百度的个性化的实践经验,首先他谈到搜索是为了满足用户主动表达的需求,而推荐则是为了挖掘并满足用户的潜在需求。推荐系统主要具有过程发现和兴趣发现的功能,目前百度将整个推荐系统应用在电影、音乐、资讯等,其主要的流程是:进行 item 的相似度和 user 的亲密度计算,然后候选 item 召回,进行 item ranking,生成推荐理由并反馈。
基于内容的推荐,不需要依赖用户的数据,回避了产品初期用户不足和数据稀疏性的问题,并且覆盖率高。然而其数据建设成本大,不具有扩展性,并且人对于内容理解额多样性和多层次也造成了误差。而基于临域的推荐,能能在利用群体智慧,无需依赖背景知识,通用性也高,但是强依赖于用户行为数据。
对于不同的推荐算法,他随后列举了工业界和学术界的不同方式。
主题三:个性化推荐在电商行业迷思(下载讲稿)
前淘宝搜索算法专家何杰首先以寻找另一个地球为例,引发了其与对于个性化的相似性探讨,并引用前者的现实成果来为后者做指引。在电商行业中,个性化推荐经常被用到,通过它能够提高商品的购买率、实现流量分配,解决长尾需求,并进一步降低营销成本。但是个性化推荐也面临很多问题,他用“啤酒和尿布的故事”和“少女怀孕的故事”揭示了其中的困境:
- 促销数据过分干扰
- 数据稀疏是永远的问题
- 大量重复数据
- 跨类目推荐难题
- 没有统一的模型整体解决问题
个性化推荐应该是基于业务经验,辅助数据,结合产品经验,利用算法来加以实现的,这对不同的需求场景,他做出了方案介绍:
- 整体指标没有明显的提升,则需要基于群体的个性化
- 采用 Click Log 来进行个性化推荐系统的数据分析
随后,他举例了一些具体的用户模型的训练流程与操作方式。并最终对于推荐系统的未来做了一次预测:
- 推荐系统逐步替代常规的活动运营
- 算法重点将放在商业特征和规律的发现
主题四:利用 20% 时间开发推荐引擎(下载讲稿)
来自新加坡Zalora South East Asia 的架构师翁伟随后为大家分享了他们的推荐引擎开发历程。Zalora 是一家电商公司,成立有1 年的时间,他们起初尝试购买第三方的服务,但是发现推荐引擎的存在对于交易额没有影响,并没有发挥他的作用。这时团队面临一个选择,是购买新的服务还是自己开发?最后的选择是自己做开发,因为他们最熟悉自己的业务架构,也知道自己的数据需求。随后他分享了自己在存储和处理数据、统计模型实现等方面的看法以及在实现的过程中使用Groovy 和Python 的性能问题对比等。
跨界分享
上海岸泊信息科技有限公司创始人& 交互设计师高磊为大家带来了关于硬件创业的跨界分享,他提到了“为身边的人而设计”,例如通过加入竞技、社交的元素,利用智能设备检测用户的健康等。高磊的团队目前正在做的就是利用智能硬件的方向,他谈到在硬件创业的过程中其实比较难以控制的并不是项目的实现和执行,而是供应链的管理,如何保障稳定的供应等。最后,他也介绍了目前整个团队的组织架构以及试用于硬件创业的项目管理方法等;
Open Space(开放式讨论环节)
为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。
在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。
姚旭:主要讨论了百度的个性化推荐策略和实现,以及如何在工程实现中平衡性能和效果;
翁伟:我们讨论的比较分散,主要是讨论推荐算法在工程上的实现,例如如何根据项目需求来分析项目功能、如何构建解决方案以及算法的优化等;
何杰:大家问我如何进入个性化的行业,我个人认为实际项目最重要,要通过实际的数据做指导,辅助以机器学习、统计学等知识构建,就能慢慢的不如正轨;
高磊:我们讨论了在硬件创业的过程中,供应链的维护和发展的一些方式和方法,还有就是很多想法说出来是没有用的,需要做出来,让人能够真切的感受到;
会后,一些参会者也通过新浪微博分享了他们的参会感受:
haimingfg : 这次只是增长了知识!推荐搜索,数据统计,发掘知识薄弱!没有发起疑问!没有疑问就没有理解!听他们的交谈发现,所有问题都好像一个根本问题击败!你理解你系统的数据么?分析了吗!有什么特征!说实话!我还是不了解我做紧的产品!
Missy 席梦思的梦:将话题进行到底:我们都知道 UGC(用户生成内容)是伴随着 web2.0 而诞生的,UGC 标签系统也是很多 web2.0 网站的必要组成部分。那么紧跟着 web3.0 的重要标签会是什么呢?又会引发什么样的格局呢?尽管现在热门趋势走向了移动互联网。
liushengbing : 一个用户在多类目下存在不同的隐含因子分布,但是又存在一定的关联。多类目无区分推荐,效果应该不佳,独立推荐抛弃了关联,如何利用这种关联改进推荐?多任务学习或者迁移学习是不是派上用场了。
林夕合鸟:在 3w 咖啡参加百度技术沙龙,听五位老师从不同角度解读推荐系统,学到很多东东,更感受到了现场大家强烈的求知欲和活跃的思维,受益匪浅~ 除了精神上的收获外,还拿到了 3 样小礼物喔~
有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往 37 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容。
特别提示:第39 期百度技术沙龙将在6 月29 日,在北京举行,欢迎关注 @InfoQ 、 @百度技术沙龙获取后续的活动信息。
评论