11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦,立即报名! 了解详情
写点什么

Mozilla 怒喷当前推荐系统技术:算法“陈旧弱智”,效果非常糟糕!

  • 2021-07-12
  • 本文字数:2546 字

    阅读完需:约 8 分钟

Mozilla怒喷当前推荐系统技术:算法“陈旧弱智”,效果非常糟糕!

Mozilla 喷当前视频平台引领者所使用的推荐系统技术:使用的算法“陈旧弱智”,效果非常“糟糕”,堪称“恐怖秀”。

 

根据 Mozilla 本周三发布的调查研究结果表明,大部分饱受用户们吐槽的 YouTube 视频推荐内容都出自该网站陈旧的 AI 算法之手。

 

该调查研究从去年 9 月开始启动,总共涉及到 37380 名 YouTube 观众。根据 Mozilla 的报告,这是同类研究中规模最大的一次,而且显示出来的结果只是“冰山的一角”,其中每项发现都值得进一步跟踪并做出深刻剖析。

 

Mozilla 敦促 YouTube 对内容审核与推荐模型予以透明化公开,并建议给用户提供退出个性化推荐的选项。但 YouTube 每季度从广告中获得的收入高达 60 亿美元,实现提供退出“个性化推荐”选项不太可能。

 

这套推荐系统已经用了十几年,但还存在哪些问题?

 

对比成立于 2015 年的快手,2016 年上线的抖音, 创建于 2005 年的 YouTube 算是推荐系统技术的早期引路人。

 

YouTube 成立没多久,网站上的视频数量就迅猛增长,成为全球最大的视频网站。截止 2008 年,整个 YouTube 视频量已突破四千五百万,每分钟上传视频量 7 小时。截止 2014 年,每分钟上传视频量超过 100 小时。2019 年,月度活跃用户达 19 亿。如此庞大的视频量,使得用户难以搜索到其感兴趣的视频。YouTube 的成功最终得益于推荐系统,同时它也是实时大规模推荐系统技术的探路者。

 

虽然多年来一直被用户吐槽视频推荐效果,但 YouTube 在该研究方向上却处于业界前沿。几篇已经发表的论文显示,2008 年 YouTube 研究并使用了基于用户-视频图的随机遍历算法;2010 年,算法升级为基于物品的协同过滤算法;2013 年将推荐问题转换成多分类问题,并解决从神经网络最后的众多输出节点中找出最大概率的输出节点。此举也为 2016 年将推荐核心算法升级为深度学习算法打下了基础。这几篇论文《Video Suggestion and Discovery for YouTube》、《The YouTube Video Recommendation System》、《Label Partitioning For Sublinear Ranking》、《Deep Neural Networks for YouTube Recommendations》和《Recommending what video to watch next: A multitask ranking system》都是推荐系统的典范之作。

 

从去年开始,来自 190 个国家的总计 37380 名 YouTube 观众自愿参加了这项由 Mozilla 牵头开展的众包研究;在 2020 年 7 月至 2021 年 5 月期间,Mozilla 共收到 3362 份关于不感兴趣视频的提交报告。

 

根据本周三发布的调查结果,“YouTube 推荐算法自身只是问题的缩影,由此可以想见商业算法正在给民众的生活蒙上一层不透明、不确定的阴影。”

 

 “YouTube 的算法每天向用户提供约 7 亿小时的视频观看时长,但公众对其底层运作方式可谓知之甚少。我们甚至找不到任何官方支持的研究方法。”

 

作为火狐浏览器的开发商,Mozilla 公司开发出一款名为 RegretsReporter 的浏览器扩展供 YouTube 用户们下载。在安装之后,该扩展程序会记录网民在 YouTube 上的观看活动、记录所观看视频的详细信息,并允许用户轻松标记出自己觉得根本不感兴趣的内容。通过将数据汇集起来并加以分析,Mozilla 希望深入研究 YouTube 推荐引擎的行为模式与实际效果。

 

这项研究的结果有几项亮点:

 

  • 志愿参与调查的用户们也有多种不同的抗拒理由,有些视频与政治阴谋论有关、有些是与 COVID-19 疫苗相关的虚假信息、也有一些是对热门大片《玩具总动员》的拙劣模仿。

  • Mozilla 研究人员发现,在志愿参与调查的用户们提交的全部不感兴趣视频中,有 71%来自 YouTube 平台的 whiz-bang AI 推荐算法

  • 他们估计,在被举报的视频中,甚至有 12.2%的内容有违 YouTube 自己提出的视频管理方针及政策——换句话说,这些视频压根不应该出现在 YouTube 网站上,但推荐算法居然还将其广泛传阅。

  • 研究还发现,推荐的视频被志愿者举报的可能性比他们自己搜索到的视频高 40%。

  • 在 Mozilla 志愿者对视频进行负面反馈后,只有 43.6% 的推荐与志愿者之前观看的视频完全无关。

  • YouTube 推荐算法在非英语国家的表现似乎更差。其中巴西、德国与法国的推荐质量最差,美国和英国则分别排名第八位与第十六位。

 

必须承认的是,当前软件并不够完美

 

多年来,YouTube 的视频推荐算法一直被指责通过向公众投放经过放大的仇恨言论、政治极端主义、虚假垃圾信息,助长了社会弊病,以此谋取数十亿人的眼球,从而增加广告收入。

 

虽然 YouTube 的母公司谷歌偶尔会对围绕算法爆发出来的反对意见做出回应:宣布一些政策调整,以及限制或清除奇怪的仇恨账户,但不确定 YouTube 什么时候会重启这些诱导用户点击不健康视频的规则。根据 Mozilla 的研究,YouTube 的人工智能仍然表现得如此糟糕,这也表明谷歌在用肤浅的改革主张模糊这方面的批评。

 

谷歌公司一位发言人在声明中表示,“我们这套推荐系统的目标,是帮助观众快速找到自己喜爱的内容。这套系统光是在主页上的单日推荐量就超过 2 亿条视频。”

 

 “我们使用超过 800 亿条信息为推荐系统提供指引,包括观众对感兴趣内容的调查回复。我们一直致力于改善 YouTube 平台的观看体验;单在过去一年,我们就推出了 30 多项不同调整,希望减少有害内容的推荐比例。伴随这项举措,用户以推荐方式接触到极端视频内容的几率已经远低于 1%。”

 

据报道,YouTube 最终删除了近 200 个志愿者在这次调查中反馈过的视频。这些视频在被删除之前总共有 1.6 亿次观看。

 

YouTube 多年来一直在努力改善推荐系统,并不断调整以提高效果表现。但必须承认,这款自动化软件仍然不够完美——特别是还在将有违内容管理政策的视频推荐给用户。Mozilla 认为,造成这种结果的核心原因,在于 YouTube 一直对所使用的自家的推荐算法底层逻辑三缄其口。

 

报告指出,“我们认为,此次研究揭露出的总是还只是冰山一角;其中每项发现都值得进一步跟踪并做出深刻剖析。”

 

 “我们还意识到,如果不加以干预并对 YouTube 算法开展更严格的审查,那么相关问题将继续失控蔓延,最终给整个互联网社区产生愈发恶劣的影响。尽管 YouTube 方面宣称已经在一部分问题上取得了进展,但研究人员几乎无法验证这些说法,也极难对 YouTube 推荐算法进行真正有意义的研究。”

 

Mozilla 公司认为,YouTube 应该发布关于其推荐系统工作原理的数据,并对内容审核与推荐模型予以透明化公开。只有这样,研究人员才能真正以独立方式对这款 AI 软件开展审计。

 

参考链接:

https://www.theregister.com/2021/07/08/youtubes_mozilla_algorithm/

2021-07-12 17:121285

评论

发布
暂无评论
发现更多内容

为什么你成不了「超级个体」?

非著名程序员

程序员 互联网 提升认知 认知提升

白天写代码,晚上摆地摊!9年前摆地摊学会了这些道理...

王磊

【译文】为什么说Rust是机器人技术的未来

袁承兴

rust 机器人 嵌入式

自定义 SpringBootStarter

lee

从零到部署:用 Vue 和 Express 实现迷你全栈电商应用(三)

图雀社区

vue.js Vue Node

ARTS-WEEK02

lee

深入理解JVM垃圾回收机制 - 何为垃圾?

CHEN川

深入理解JVM 垃圾回收机制

React之Context源码分析与实践

费马

源码分析 React useContext Context React-Router

csapp-chapter2

卓丁

深入理解计算机系统 csapp

如何让解决无法访问 GitHub 的问题?

JackTian

GitHub

csapp-chapter1

卓丁

深入理解计算机系统 csapp

MyBatis启动之XMLConfigBuilder解析配置文件(二)

ytao

后端 mybatis

SpringCloud-OpenFeign源码

云淡风轻

Spring Cloud

N皇后问题之位运算解法

孙苏勇

算法 DFS 位运算

从零到部署:用 Vue 和 Express 实现迷你全栈电商应用(五)

图雀社区

Vue Node

架构师必备的ToB产品交付之双轮驱动思维模型

常平

产品 极客大学架构师训练营

做一个纸上谈兵的项目经理

escray

源码分析 | 像盗墓一样分析Spring是怎么初始化xml并注册bean的

小傅哥

源码分析 小傅哥 spring源码 bean注入过程

JUC整理笔记五之梳理Varhandle(下)

JFound

Java

路径依赖 - 偶然决策导致的依赖。

石云升

思维模型 路径依赖 网络效应 沉没成本 价值网依赖

除了公关,我还能为公司做点什么?(系列1)

邓瑞恒Ryan

学习 个人成长 自我管理 成长 职业成长

重磅推出:第14份年度敏捷状态报告(最新2020)

Bob Jiang

敏捷 调查报告 state of agile

GitHub上10个不可错过的另类有趣项目

码农神说

GitHub 开源 程序员

分布式事务 - 三种常见的解决方案

Java收录阁

分布式事务

从零到部署:用 Vue 和 Express 实现迷你全栈电商应用(四)

图雀社区

Vue Node

ArrayList浅析

章小传

Java collection 原理 ArrayList

愚蠢写作术(2):怎么让你的文章变得冷冰冰

史方远

学习 个人成长 写作

中台上线半年,我总结出了“七宗罪”

punkboy

中台 企业中台 后台开发 业务中台 后台

Sula - 可能是西湖区最好用的antd配置框架

开远

大前端 antd sula 配置化开发

多来点胜利,对冲颓丧

zhoo299

成长 备忘

从零到部署:用 Vue 和 Express 实现迷你全栈电商应用(六)

图雀社区

node.js Vue

Mozilla怒喷当前推荐系统技术:算法“陈旧弱智”,效果非常糟糕!_AI_Tina_InfoQ精选文章