比图文推荐更难，考拉FM如何实现车载音频个性化产品？_行业深度_Tina

AICon 上海站｜90%日程已就绪，解锁Al未来！了解详情 



 写点什么

推荐系统发展了二十年，极大的提升了主流应用的效率，亚马逊通过推荐系统销售收入提升 35%，Youtube 主页上 60%的浏览来自推荐服务…到现在，各主流应用基本都用到了推荐系统。我们知道，在个性化推荐中，与用户的交互非常重要。比如在淘宝购物中浏览和购买的物品，以及点击的“喜欢”和“不喜欢”，都会成为提升推荐精准度的关键。但是在车载环境中，为了安全起见，主动用户行为很少，这种推荐系统产品构建好的关键是什么？一直深耕车载音频领域的考拉 FM 是一个典型案例。

2013 年 6 月正式上线的考拉 FM（去年升级改名为听伴）是一家音频内容分发平台，拥有大量的音频内容资源，每日服务全国数百万的车载收听用户。最开始他们通过手机与车机互联的方式，向车主提供车载特色精品内容。但由于交互路径过长，通过手车互联来映射内容的方式，用户活跃率并不理想。随后听伴改变了策略，通过前装的方式与车厂合作，将音频应用预装到车机里，同时提供内容推荐算法应用，为听众提供想听的内容。

听伴的推荐从场景化与智能电台流两方面着手。比如长时间开车是一件枯燥的事，遇到堵车容易产生焦躁情绪，这时候就需要播放一些娱乐放松性的内容。场景化是基于车载特点，打造专属内容库，结合车主的时间+地点+人物的个性需求，分场景打造内容。听伴副总裁李建刚表示：“我们有一百多个场景，在不同的场景下推荐规则不一样。不同的天气、地点、路况，推荐内容都不一样。举个例子，车主在四环上开车，路况很拥挤，听伴会自动推荐一些堵车时车主爱听的内容。另外，早晚高峰的场景差异是很明确的。做到这一点非常难，比图文要难，这也是听伴非常核心的技术。”

在手机上用户可以通过点播专辑收听，换节目的成本比较低，随时可点击切换到下一个。在车上并不方便“点播”，用户在不同专辑之间切换的操作很麻烦。这时候就需要流式收听。流式收听类似于 Feed 流，基于这一点听伴做了独有的智能电台。手机上大家都是点播，在找特定节目，电台流不会受欢迎。但对于车载，电台流这个形式却是最合适的。智能电台以车主画像为基础，结合场景化，用个性化推荐进行主动推送，用语音进行交互。

李建刚曾介绍，听伴在北美设有专门的实验室研究个性化推荐，他们的音频个性化推荐大体流程分四步：

用户标签：由程序初步给节目打上标签，编辑团队再次人工复检标签的质量，维度的完整性等。
用户画像：通过汽车厂商初步共享的用户画像信息（脱敏后，不涉及隐私），比如性别、年龄、城市等标签帮推荐引擎冷启动。
用户行为：用户红心/完整收听了某一档节目/语音主动搜索/主动点播被视为正向反馈；用户经常跳过某一档节目被视为负向反馈。
特征维度机器精排：通过机器学习验证所有特征维度的有效性，在粗排候选集的基础上通过特征维度的打分对候选结果进行精排。输出精排结果即为实时推荐的节目单。

最初在车载端使用的是手机端一样的一套推荐模型。但车载场景特殊，后来发现推荐的结果非常收敛，覆盖率和多样性都出现了问题。经过分析，发现是因为交互少导致的。对于如何趟过这个坑，李建刚说：“针对这种情况，我们就摒弃了手机端的那套基于用户主动行为的推荐模型，而重新去思考、开发针对车载端这种用户少交互，更多伴随式收听的推荐模型。在这个过程中，大数据对我们构建推荐模型起了及其重要的作用。基于考拉十多年车载音频娱乐服务的数据，我们针对数百万车载用户行为做了挖掘与学习，产生了非常有价值的结果”。针对交互的问题，未来听伴会加入语音交互。他表示“一个推荐系统中，算法、交互、数据都是极其重要都因素，但最关键的还是需要对使用场景的深入理解”。

InfoQ：个性化推荐产品在听伴的定位是什么样的？重要性程度如何？听伴有哪些利用推荐系统技术的频道？

李建刚：在车上，用户的交互成本非常高，主动交互的频次很低，要让用户有优质的收听体验，个性化推荐就非常重要，所以基于车载场景的音频个性化推荐是我们非常重要的产品。

和手机上的展示类推荐相比，音频的推荐会更复杂。

手机端的推荐模型，我们主要基于用户反馈，为用户发现和展示内容；但在车载端，我们必须根据车载伴随收听的特性，进行音频流式推荐，这种推荐用户不会主动点击，推荐出来的内容，直接给用户收听。因为没有用户主动点击的行为，要有好的体验，对推荐的要求非常高。

我们的推荐产品，主打两款智能网联车载音频新品 K-radio 和品牌电台。K-radio 以场景化+智能电台流技术给用户提供简单、便捷的车载音频娱乐服务，拥有车载直播互动、AI 电台流，多源内容融合、娱乐语义满足、帐号云端互通五大核心能力。它的特点一是可以私有化部署，用户数据部署在车企自有服务器，隔离起来以保护用户隐私；二是支持 SDK+APP+车载桌面多种合作模式，同时可以很方便地集成；三是一站式音频娱乐信息服务解决方案，可以将音乐、电台整合到一起收听。

InfoQ：一些人也用过手机上的 FM，那么车载端 FM 和手机 FM 相比有哪些差异？

李建刚：我们同时有做车载和手机端，手机跟车载差异很大，场景、使用方式、服务形态都不一样。手机是个相对专注的场景，主动点播行为会更多。在车上点播收听偏少，更多是伴随式被动收听。手机上进行推荐的核心逻辑是挖掘用户行为，召回用户会喜欢的内容。基于所有用户对推荐结果的点击行为，进行排序优化。车载上进行推荐的核心逻辑是通过建立车载娱乐知识图谱，召回特征相关的内容，基于用户自身主动行为，优化推荐结果顺序。

	手机/PC推荐	车载推荐
用户意图	从海量数据中，帮助用户决策，找到想要的信息	在有限的路途时间里，推荐优质内容
行为特点	注意力集中，隐式/显式主动行为丰富	注意力在驾驶上，主要行为是伴随式被动收听；用户行为很少
时间	随时随地	通常驾车时间不会太长
形式	基本以点播为主	流式，持续收听
内容	广度长尾内容	头部精品内容
维度	用户和行为	用户、行为、车和场景
模型特点	个性召回，共性排序	共性召回，个性排序
核心逻辑	挖掘用户行为，召回用户会喜欢的内容。基于所有用户对推荐结果的点击行为，进行排序优化	通过建立车载娱乐知识图谱，召回特征相关的内容。基于用户自身主动行为，优化推荐结果顺序。

InfoQ：推荐的内容如新闻类、情感类和音乐类，针对不同的内容，技术上最大的区别在哪里？

李建刚：

新闻类：时效性很强，选择基于分类、主题、关键词等维度表示一篇新闻；通过自然语言处理，提取新闻要素，结合知识图谱消岐，另外新闻的消费时间属性很强，不同的时间段对新闻类型的需求也是不同的，比如早间希望听资讯内容，晚上喜欢听娱乐内容等。

情感类：深挖用户画像，尤其是社会方面的特征（婚姻、家庭、社交）。

音乐类：挖掘用户开车出行时的场景、车速、位置甚至天气等，结合音乐内容的场景化表示，推荐出此时此刻最符合车载下的音乐内容。

InfoQ：一个典型的音频推荐系统架构是怎么样的？您是否能给出图片来解释？

李建刚：

我们的推荐架构从底层到上层，分为数据平台、数据挖掘和推荐投放。

数据平台提供用户行为数据的存储、分布式/流式计算的能力。

数据挖掘是利用数据平台的大数据，结合机器学习和自然语言处理等技术，构建用户画像、训练模型等中间数据，并提取领域知识。通过 nosql、搜索引擎、key-value 缓存等中间件提供给推荐投放系统。

推荐投放，是基于 Actor 模型的的并发框架 akka，利用数据挖掘层的训练模型和知识图谱，提供高可用、可扩展、低延迟的结果内容投放能力。

InfoQ：音频推荐系统，一些先驱是如何做的，考拉 FM 做过哪些独特尝试？

李建刚：音频领域做得比较多的，是针对歌曲的推荐。目前流行两类模式：第一类模式是专家对歌曲进行多维度标记，然后基于这些标记做相似度计算并进行推荐，譬如 pandora 就采用了这种模式。第二类模式是基于协同过滤算法进行推荐，譬如网易云音乐就采用了这种模式。

但音频内容，和歌曲还是有较大差异的，譬如用户很少重复收听同一段内容，但会反复听同一首歌。所以对音频内容的推荐，和歌曲推荐就会不一样。而且在车载端，用户的行为相对较少。因此为了更精准地满足用户的需求，一方面，我们独创了共性召回、个性排序的推荐模型。另一方面，我们把用户场景纳入了推荐模型里，让场景成为推荐维度里的重要因素。

InfoQ：音频推荐系统中，跟踪用户的偏好主要是通过隐式的方式进行获取。而听伴有细分到上百个不同场景，那么如何确定不同情景，根据哪些因素判定情境，并进行个性化推送并满足听众的不同需求的？

李建刚：场景推荐，是听伴针对车载行为独家推出的内容推荐产品。车载行为和手机端行为并不一样，用户需要专注于开车，行为被车载场景所限制，对屏幕和内容的控制力都大为降低。我们针对这种情况，从推荐逻辑及内容层面，都做了针对性的优化。

针对场景的推荐，主要从用户属性、车辆属性，车主当前所处的开车场景等多个维度，去做内容的推荐。为了能完整的用户画像、场景等，我们除了利用用户的收听数据之外，我们还需要和车的信息深入的结合，从各个维度信息挖掘用户当前的状态和驾车场景，全面了解用户画像和当下需求。为了精准推荐内容，我们会根据几十个不同维度的特征进行判定，比如时间、天气、路况、车速、目的地、车主心情、乘客情况等。比如，我们可以结合位置信息和区域天气，推荐不同天气场景的电台内容；还可通过 LBS 信息及衍生出的车速、轨迹信息来判断用户的行驶状态，是城区还是高速公路，是通畅行驶还是拥堵状态，以此推荐适合不同心情的音频内容。

InfoQ：接上，针对不同场景，听伴如何将音频内容进行分类、相关性判定、标定、评分、排序的？

李建刚：不是所有音频内容，都适合在车载场景进行收听。譬如恐怖惊悚类，就不适合夜晚开车的情景去收听。有些长篇内容，也不适合短途开车行为收听。但在长途驾驶时，类似人物传记等的长篇，就会有用户去收听。因此我们会从声音及内容两个维度，做细致的梳理，包括声音及情绪、内容类型、上下文关系等特征。

InfoQ：（车载）用户行为分析主要是哪几方面。依行为分析作出什么 action？

李建刚：我们主要分析用户的内容选择、内容订阅、内容切换、收听时长、完播率、语音搜索等行为。所有的行为都会作为用户画像特征的计算依据，经过离线或实时计算，从而优化用户画像。

InfoQ：听伴如何度量推荐结果？通过哪些度量方法？

李建刚：推荐流量下，可以通过如下指标评估：完播率，点击率，播放时长，收听留存，日总负反馈次数等.

InfoQ：构建一个优秀的音频推荐系统产品，您觉得最关键的成功因素是什么？

李建刚：对于一个成功的推荐系统来说，算法、内容和产品策略，三者缺一不可。但是最关键的还是需要对使用场景的深入理解，如果不深入理解用户的场景，一定不能满足好用户的需求，对我们来说，车载场景和手机场景就有非常大的区别，完全照搬手机推荐的场景肯定不行，所以我们针对车载场景的独特特性，设计了一套适合车载的推荐系统，已经在用户那里得到了很好的反馈。同时，一个推进系统一定需要持续迭代。基于数据的反馈，不断优化内容、产品策略及算法，就可以让推荐产品持续的进步。

InfoQ：未来计划里，您们最想攻克的推荐系统问题是什么？

李建刚：在车载端的用户行为，与手机端/pc 端完全不一样，因此不能用手机端或 pc 端的推荐模型来做。针对车载端，我们思考了很多策略，构建了很多的模型，但针对车载行为的场景化推荐及有多个乘客时的推荐，是我们最希望取得成功的领域。尤其是开车行为，与很多因素相关，譬如车况、天气、速度、目的地等，而不仅仅是用户兴趣或意图相关联。如何把各个因素融合进推荐模型里，去优化推荐结果，是我们重点关注的。

本文系 “推荐系统”专题系列文章之一：

进击的下一代推荐系统：多目标学习如何让知乎用户互动率提升 100%？

阿里妈妈新突破：深度树匹配如何扛住千万级推荐系统压力

发布

暂无评论

创作场景

比图文推荐更难，考拉 FM 如何实现车载音频个性化产品？

评论

架构师训练营第5周总结

[架构师训练营] Week02 - 作业

再谈任务分解

创业使人成长系列（1）- 从失败中学习

你真的在做持续集成吗？

Spring Boot 最流行的 16 条实践解读，值得收藏！

功利学习法：我为什么要这么功利？

深入理解CAS：以AtomicInteger为例

小姐姐面试蚂蚁金服被虐经历，哪吒心疼.

Atlassian Team Playbook | OKR 好的不只是逼格

一篇文章深入理解JDK7 HashMap

一篇文章深入理解JDK8 HashMap

我终于弄懂了Python的装饰器（一）

Homework-我的一致性Hash算法

编程能力 —— TicTacToe（井字棋）

一致性Hash算法

架构师训练营第5周作业

想怎么玩，就怎么玩！搭载桌面级十代酷睿的神舟超级战神真香！

第五周作业

猿灯塔：spring Boot Starter开发及源码刨析（一）

[架构师训练营] Week02 - 学习总结

架构师训练营 0 期第五周

小师妹学JVM之:Dirty cards和PLAB

架构师训练营总结 -5

week5 总结

可读代码编写炸鸡四(下篇) - 提炼注释的下一步是提炼注释

如何写一份合格的技术简历？

第五周学习总结

直接赋值,深拷贝和浅拷贝

推荐 10个 NB的 IDEA 插件，开发效率至少提升一倍

week5 coding

创作场景

比图文推荐更难，考拉 FM 如何实现车载音频个性化产品？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载