Google Brain算法推荐赋予YouTube看单全新面貌

2017 年 9 月 20 日

去年某一天,当我正在玩一款名为《冤罪杀机 2》的电子游戏时,我在 YouTube 上常规搜索了一下,看看这个游戏中一个棘手的部分怎么通关。像往常一样,我找到了回答我这个问题的一个视频。但当我下次打开 YouTube 的时候,网站却给我推荐了更多更复杂的关于如何玩这个游戏的视频:玩家如何玩这个游戏而不被敌人发现的视频剪辑;玩家用高超的方法杀死每一个敌人的视频剪辑;采访游戏制作者的视频;精彩绝伦的讽刺评论。我只是去 YouTube 搜索一个问题的答案,它却像我展示了一个全新的宇宙。

后来,我发现自己每天都会访问 YouTube 好几次。大多数时候,我打开这个网站都没有什么特别的目的,我已经习惯了被动地让网站自动给我推荐点什么我可能喜欢的东西。一月份的时候,我开始痴迷于一个叫 Pinegrove 的民谣乐队,几个礼拜的时间里,YouTube 给我推荐了几乎所有上传到它服务器的这个乐队的现场演出视频。当我春天住进一个新公寓的时候,开始越来越多地做饭,在我搜索了一次如何做意大利面包沙拉之后,YouTube 很快就让我认识了它的家庭主厨阵营:Byron Talbott、Serious Eats 频道的 J. Kenji López-Alt,以及 Tasty 等等。

YouTube 总是很有用,它从 2005 年创办以来,就成了互联网的支柱之一。但在过去的几年里,对我来说,YouTube 变得出奇地棒。它开始极端准确地预测出我可能感兴趣的视频剪辑是什么,比它过去所做的要强得多。到底是什么发生了改变?

在过去的 12 年时间里,YouTube 已经把自己从一个搜索驱动的网站转变成了一个为自己目的服务的网站。要到达自己的目的地,它需要成百上千种尝试、大量的重新设计,以及在人工智能方面的巨大飞跃。但真正让 YouTube 提升的还是它朝 Feed 的方向进化。

现在想起来很难记得了,但最开始,YouTube 只是一个基础设施。它提供了一种方便地把视频植入其他网站的方法,通过这种方法,你最有可能看到这些视频。随着网站壮大,YouTube 成了一个寻找过期电视节目剪辑的地方,它会随时跟进最新的午夜喜剧,用来观看最近的病毒式传播视频。和维基百科一样,YouTube 或许也是互联网上最臭名昭著的地方。你的同事在茶水间提了一句 Harlem Shake 搞笑视频,然后你就登录 YouTube 看了一晚上。

同时,Facebook 发明了我们这个时代的标准格式:News Feed,一种根据你的兴趣定制的永不间断的信息流。Feed 占领了整个消费者互联网,从 Tumblr 到 Twitter、Instagram 和 LinkedIn。YouTube 早期像个人定制化的发展很有限,它主要是让用户去订阅频道。这个主意是从电视那里借用的,它拥有混杂的复杂结果。根据 ComScore 的数据,在 2011 年,YouTube 一次大规模的推送取得了一些成功,但人均观看 YouTube 视频的时间却和之前持平。

“频道”已经不能像以往一样主宰 YouTube 了。现在,打开你手机上的 YouTube,你会发现“频道”被隐藏在了一个单独的菜单里。取而代之,这个应用会根据你的兴趣量身定制一些混合的视频,并以 Feed 的形式呈现给你。这些视频中当然也有你订阅过的频道的视频,但其中也包括和你以前看过的视频相关的视频。

这就是为什么,当直接搜索了关于《冤罪杀机》视频之后,我就开始看那些推荐的通关视频和刻薄评论。YouTube 开发了各种工具,让它的推荐不仅是个人定制化的,还是高度准确的,这些就最终提升了整个网站的观看时间。

YouTube 推荐的技术带头人 Jim McFadden 说:“我们知道,人们来 YouTube 是来找他们想要的东西,但我们还希望,在人们不知道他们想要找什么的时候,同样满足他们的需求。”McFadden 从 2011 年就加入了这家公司。

我第一次拜访 YouTube 也是在 2011 年,就在 McFadden 加入这家公司几个月之后。就是那时候,YouTube 开始让用户花更多时间来看它们的视频,现在,这也依然是 YouTube 的核心目标。在那个时候,事情还进展得并不是非常顺利。McFadden 说:“YouTube.com 作为一个主页,它并没有带来大量的娱乐性。我们就想,好吧,那我们就把让它具备大量娱乐性作为转型目的。”

这家公司什么事情都尝试了一下:它为顶级的创作者购买了专业的摄像设备,发起了“leanback”功能,它可以在你观看视频的时候,自动排列新的视频给你。YouTube 重新设计了它的主页,以此强调订阅频道,而不是看单独的视频。

每个用户观看的时长依然持平,但有一个变化出现了,那就是它们的推荐算法并非基于有多少人点击了视频,而是基于人们花了多长时间来观看这些视频,正是这个变化驱动了接下来那个春天发生的剧变。

几乎是一夜之间,那些受益于误导性标题和视频略缩图的视频创作者就看到他们的观看数字急转直下。质量较高的视频往往和更长的观看时间相关,它们开始急剧上涨。在接下来的三年里,YouTube 的观看时长每年都增长了 50%。

我订阅了一些频道,并且自认为是个 YouTube 的普通用户。但是它要成为一个一天内多次访问的目的地,还需要一系列的新工具,那些在过去 18 个月内成为可能的工具。

当我这个月拜访 YouTube 办公室的实话,McFadden 向我介绍了 YouTube 精确推荐视频的根源:Google Brain,它是 YouTube 的母公司 Google 的人工智能部门,YouTube 从 2015 年开始使用它。Google Brain 并不是 YouTube 第一次尝试使用 AI,YouTube 此前曾把 Google 建立的 Sibyl 系统中的机器学习技术应用到推荐算法中。然而,Google Brain 引入了一种见无监督学习的技术,它的算法能在不同的输入中寻找到联系,这是软件工程师们从未曾想过的。

McFadden 说:“最关键的一点是它能够普及推广,在此之前,如果我看了一个喜剧的视频,推荐算法会说,又有一个人喜欢了这个视频。但是 Google Brain 的模型会识别出类似于此的其他喜剧,但又不是完全相同,它们拥有更毗邻的关系。它能够识别出不那么明显但相似的模式。”

举个例子,一个 Google Brain 算法会给一个移动应用用户推荐短小的视频,但给 YouTube TV 的用户推荐长一些的视频。它猜测,根据平台的不同推荐不同长度的视频会最终提升观看时长,它是正确的。YouTube 在 2016 年实施了 190 多个类似这样的改变,而今年计划要做出 300 个改变。YouTube 发现小组的产品经理 Todd Beaupre 说:“现实就是,它是随时间推移累积起来的一大批微小的改进。对每一个改进来说,你都要尝试 10 件事最终实施一件事。”

Google Brain 的算法比 YouTube 之前的算法要更快。公司表示,在过去的几年里,一个用户行为要经过好几天才会被整合进未来的视频推荐中,这样就很难识别出趋势。Beaupre 说:“如果我们希望把用户吸引过来了解当下在发生什么,我们就必须修补这个问题,现在,延迟被设定在几分钟或几小时的时间里,而不是几天。”

把 Google Brain 整合到 YouTube 中有一个重要的影响:人们在 YouTube 上看视频的时间,现在有超过 70%都来自 YouTube 的推荐算法。每一天,YouTube 会推荐两亿个不同的视频给用户,涉及语言有 76 种。和三年前相比,人们在 YouTube 主页上看视频的总时长增长了 20 倍。

这也基本上和我个人的用户行为相符合。几年前,我基本上通常只在午饭休息的时候访问 YouTube 主页,一边吃饭一边看点什么。但他们的推荐实在太好了,我开始用更多的空闲时间看视频。这礼拜,我在 PS 4 上登录了 YouTube,这样我就能用我最大的屏幕来看它推荐的视频了。

这就是一个真正强大的个人定制化 Feed。对我来说,令人惊讶的是,YouTube 对我数字生活的改变比其他任何东西都要强大。Facebook 的 Feed 是基于你的朋友们发了什么东西,还有你喜欢的主页发了什么内容。知道谁订婚了或者生小孩了很有用处,但除了这些里程碑意义的事件外,我从朋友们发表的内容中没找到什么乐趣。Twitter 会给你看你关注的人们的推文,还有这些人选择转发的东西。作为一个记者,我必须依赖于 Twitter,即使有些时候我的时间线真是看似没有尽头,充满了焦虑的呐喊。

每一个 Feed 都有长度限制,虽然 2017 年取消了这个限制。在 Twitter 上,不管你关注谁,关于政治的争论永远主宰者讨论。Facebook 对于“事件”和“团体”这些功能的短暂热情让 Feed 每周都以令人震惊的方式发生变化,这让我感觉和每一个朋友的连接都更少了。(以图片为重的 Instagram 看起来就像一片绿洲,也难怪这个应用还在如此迅速地增长。)

Facebook、Twitter 和 Instagram,看起来那些 Feed 都要求人们不断地为它们表演点什么。而 YouTube 很显然是表演驱动的,但很少一部分用户会给它上传视频,而且 YouTube 也从来没有强迫用户去上传。YouTube 可以被人们被动地享受着,就像它那么努力地去尝试取代的电视频道所做的一样。在我们这样一个疯狂的年代,能不被询问我们对某个新闻的看法,这真是让人感到平静啊。

YouTube 对你可能喜欢的相关视频的强调,意味着它的 Feed 和其他 Feed 相比更宽广,更具有好奇心。它越是寻求不同的内容,就越让人觉得它在逃离其他 Feed 的模式。在一个黑暗的时代,我更倾向于选择 YouTube 的逃避主义。

在 2013 年,《大西洋月刊》上有一篇文章,在那篇文章里,Alexis Madrigal 假设我们所知的 Feed 有其顶峰。他认为,未来会属于有限的经历:电子邮件的 newsletter、Medium 的合集、10 集长度的 Netflix 剧集。毕竟,无穷无尽的信息流内容让人感到疲惫。Madrigal 说:“当媒体宇宙的秩序被彻底击败,自由并不会来填补空白,拥有其自身逻辑的新兴秩序将会取代旧的秩序。我们发现信息流已经展现出它的强迫性和控制性。更快!更多!更快!更多!更快!更多!”

从那四年之后,YouTube 的方向只说明了 Feed 模式在变得更重要。一种前所未有的视频存储增长,辅以前所未有的个人化定制技术,将会创造出让人难以拒绝的东西。YouTube 现在会调查用户有多喜爱它们推荐的视频,长此以往,调查的结果会让 YouTube 更加智能,从而让更多视频内容被消费。

Beaupre 向我描述了这个过程,说它就像跨越一条鸿沟那样。“有些内容和你已经喜欢的内容有高度的契合,而有些内容会代表着趋势和流行的内容,而在这两者之间,就是充满魔力的地带。”如果 YouTube 的竞争对手找不到跨越这条鸿沟的方式,它们就会发现竞争举步维艰。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017 年 9 月 20 日 19:001267

评论

发布
暂无评论
发现更多内容

Oracle SQL调优系列之看懂执行计划explain

Nicky.Ma

sql

架构师训练营第三周学习总结

lwy

一个汉字占几个字节你真的记住了吗?

Java旅途

架构师训练营 第三周 命题作业

RZC

架构师是怎样炼成的-3-2-设计模式

闷骚程序员

Zookeeper的数据剖析

tunsuy

zookeeper 日志分析 事务 快照 数据恢复

架构师训练营第四周

Melo

区块链改变数字营销与广告市场

CECBC区块链专委会

区块链技术 广告业 精准投放 去中介 公开透明

架构师训练营第三周作业和小记

tuuezzy

架构师 极客大学架构师训练营

第三周作业

晨光

架构师训练营 第三周 学习总结

RZC

第三周手写单例模式(饿汉模式)

吴建中

极客大学架构师训练营

第三周总结

晨光

Zookeeper通信协议详解

tunsuy

zookeeper TCP/IP 通信协议

基于阿里云服务网格(ASM)的GRPC服务部署实践

韩陆

Kubernetes gRPC Service Mesh

极客大学架构师训练营 框架开发 第三次作业

John(易筋)

极客时间 设计模式 极客大学 极客大学架构师训练营 框架开发

[架构师训练营] Week01 -学习总结

谭方敏

第三周-设计模式-学习总结

吴建中

极客大学架构师训练营

【非原创】微服务设计

Arthur

抖音、腾讯、阿里、美团春招服务端开发岗位硬核面试(完结)

aoho

面试 后端 阿里

太赞了!一份适合程序员的精选面试题清单。

JackTian

GitHub 编程 程序员 面试题 开源项目

架构师训练营第四周-总结

无心水

极客大学架构师训练营

架构师训练营第三周命题作业

lwy

极客大学架构师训练营

架构训练营第四周 - 作业

无心水

极客大学架构师训练营

面向对象设计模式课程小结

行下一首歌

极客大学架构师训练营

rodert单排学习redis进阶【白银一】

JavaPub

Java nosql redis

Zookeeper集群模式启动

tunsuy

zookeeper 源码分析 socket 分布式集群

极客大学架构师训练营 框架开发 模式与重构 JUnit、Spring、Hive核心源码解析 第6课

John(易筋)

spring 极客时间 极客大学 极客大学架构师训练营 JUnit

极客大学架构师训练营 系统架构 第7课 听课总结

John(易筋)

极客时间 系统架构 高并发 极客大学 极客大学架构师训练营

良心推荐 | LeetCode(力扣),算法、数据结构的学习良伴

YoungZY

算法

组合设计模式编码&手写单例模式

吴建中

极客大学架构师训练营

Google Brain算法推荐赋予YouTube看单全新面貌-InfoQ