谷歌前员工因建言YouTube被炒鱿鱼,开源揭秘其算法

发表于 讨论求助 2022-03-30 01:14:38

作者 | Debra
编辑 | Emily Chen
AI 前线导读: 一名谷歌的前员工据说因推荐算法问题建言惹怒上司而被被东家解雇,之后他便致力于 YouTube 推荐机制的透明化工作,不仅开发软件揭秘 YouTube 算法机制,还建立了一个网站开源他揭秘 YouTube 和谷歌(收购 YouTube)算法的方法。

不管他是怀着何种目的来揭“老东家”的短,他的这一举动都将对推进算法透明化进程做出好的带头作用。用过 YouTube 的人可能都有这样的体验,当你看完一个视频以后,YouTube 会向你一个接一个地推荐视频,等你回过头来一看,两个小时已经过去了,而且你可能会看到一些价值观奇怪,甚至扭曲的内容。不只是 YouTube,Facebook、twitter、微博等社交媒体都会采用类似的推荐算法,让你看一些有趣可爱的内容还好,但是可怕之处在于它的逻辑倾向于“单向”,比如当你观看了一条关于车祸的视频,系统会接下来会自动推荐更多的相关内容如灾难、校园枪杀、气候变化等负面的内容。

这样的算法机制是什么,却很少有人有全面的了解。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
YouTube kid 采用人工推荐取代算法推荐,AI 算法不灵了?



2015 年,YouTube 曾推出一款目标受众为儿童的 app YouTube Kids,一直以来和 YouTube 网站一样,都是使用算法推荐内容。但算法推荐并没有达到该公司的预期,为了防止推荐算法为儿童推荐不适合观看的内容,YouTube 已经决定用人工选取内容的方法代替算法推荐,并重新思考如何使用推荐算法中的过滤器。

新版 YouTube Kids app 可能不仅依赖计算机算法,而是包含由 YouTube 管理团队直接挑选的内容。简而言之,应用程序中的视频必须由人工,而不是计算机手动审核。

目前尚不清楚这款软件是否会完全作为新应用上架,但似乎最有可能基于现有的信息,采用人工审核内容的新模式。对此 YouTube 没有发表评论,但消息人士称新版本可能会在“未来几周内”发布。对于父母来说,这是一次重大胜利。但对于技术人员来说,世界上最大的视频网站开始放弃在自己的产品中使用推荐算法,难道推荐算法不灵了吗?

YouTube、谷歌算法屡屡被爆扭曲事实,算法到底哪里出错了?

作为全球最受欢迎的视频网站之一,YouTube 拥有超过十亿用户每天观看十亿小时以上的数据 。YouTube 向公众公开展示了一些数据,例如视频观看量、点赞或被踩的次数。但是,它同时还隐藏了每个视频更细微的细节,比如网站向其他人推荐它的频率。没有完整的理解,我们就很难知道它的算法究竟将你向什么方向上引导,以及推荐的带有偏见的视频背后被扭曲的事实究竟是什么。

YouTube 已经不止一次因为因为推荐内容不当或扭曲事实而受到公众的谴责。

2018 年 1 月,网上被一则由网红 Logan Paul 上传的在日本森林死者旁边发表不当言论的视频刷爆,截至 24 小时后被下架,这则视频的观看量已达 600 万。Logan Paul 对死者的轻蔑和不尊重引发众怒,同时掀起了一股谴责 YouTube 平台将这种视频放在推荐首页的声讨浪潮。

YouTube 还被质疑利用算法引导拉斯维加斯枪杀案背后的,拉斯维加斯的幸存者们因为 YouTube 宣传短片而愤怒,指责他们拍摄了一个骗局。在 4 月份 YouTube 总部附近发生的女杀手枪击案中,女杀手在枪杀 1 人,并导致 4 人受伤后,原因据说与其在 YouTube 平台上视频的观看量下降有关。

利用推荐,YouTube 平台还间接鼓励了如粉红猪小妹吃掉父亲、喝漂白剂等视频背后,以儿童为受众的次文化。

除了 Facebook、Twitter,YouTube 同样被质疑利用算法影响 2016 年大选,在大选期间成为制造和传播虚假信息的引擎等等。

算法原理和产生的问题

据公司内部人员透露,算法已经成为驱动 YouTube 收入增长最有效的工具,使用神经网络通过大量数据和用户观看记录对用户进行分析,YouTube 的工程师将其描述为“目前规模最大、最复杂的商用推荐系统”。那这个推荐系统到底是怎么工作的呢?


上图是 YouTube 推荐系统的体系结构,在向用户展示少量推荐视频之前,会对视频进行检索和排名。

本质上,过滤气泡(filter bubble,一种网站针对个人化搜索而提供筛选后内容的结果)的生成方式,也是所有推荐算法的工作原理。一小段电脑代码跟踪你正在进行的动作,比如你最常看的视频分类、最长观看时间,然后推荐给你同一类型的视频。从某种角度而言,YouTube Kids 提供的节目明确按照孩子们想要看的视频进行推荐。实际上是孩子们自己做出的选择,直到第二次他们失去了兴趣,选择看其他视频。

内容推荐算法的过程一般包括以下三步:

  1. Item Representation:为每个 item 抽取出一些特征(也就是 item 的 content 了)来表示此 item;

  2. Profile Learning:利用一个用户过去喜欢(及不喜欢)的 item 的特征数据,来学习出此用户的喜好特征(profile);

  3. Recommendation Generation:通过比较上一步得到的用户 profile 与候选 item 的特征,为此用户推荐一组相关性最大的 item。上图内容推荐算法的步骤展示出了推荐算法的基本原理。

而孩子们观看视频有一个特点,就是喜欢反复观看同一个视频,直到完全理解。与过滤气泡推荐算法相结合,其实 YouTube 应用软件只是忠实地对孩子的想法作出反馈,推荐更多相关内容。但这也被别有用心者利用,伤害孩子的身心健康。

虽然 YouTube Kids 视频的创造者花费无数的时间来与推荐算法博弈,使他们的视频有尽可能多的机会被推送给更多观众,但是由于一旦偏离了特定的分类和标签,就会面临巨大的风险,因此,推荐算法和商业策略的相悖会继续阻碍健康、民主、较为平衡的内容生态的维护。

谷歌前员工自建网站,推出开源项目破除 YouTube 算法过滤气泡

普通人对于 YouTube 的做法可能只停留在愤怒和谴责层面,做不了更多的事。但有人却将之付诸行动,并寻求解决的办法,致力于推动算法透明化。

谷歌前员工 Guillaume Chaslot 就是后一种人,他自建了一个网站 Algotransparency.org,用来揭示 YouTube 和谷歌算法的工作原理,让这个被称为全世界目前最复杂的商业推荐系统算法透明化。


据 Guillaume Chaslot 称,2013 年,他因为建议公司让用户对内容有更多掌控权而被公司开除。回顾他在谷歌工作的三年中,他曾与 YouTube 工程师团队一起工作了几个月,负责推荐系统。这一经历使他得出结论,YouTube 给予其算法的优先地位是极具危险性的。

“YouTube 给你营造一种被扭曲的现实,”他说道, “推荐算法并未进行一种真实、平衡或健康的优化。”

Chaslot 解释道,YouTube 算法是会不断变化的。它会不断改变其赋予不同信号的权重:例如,用户的观看模式,或者在有人点击之前观看视频的时长。

在 YouTube 那段时间,他与他合作的工程师负责不断尝试新的公式,通过延长人们观看视频的时长来增加广告收入。他回忆道:“观看时长是重中之重。 其他一切都不重要。”

他特别担心算法对事实的扭曲,因为过于聚焦在向用户展示他们感兴趣的内容,会导致过滤器泡沫的出现,这些泡沫只会向人们展示增强其现有世界观的内容。Chaslot 说道,他提出的修复措施中没有一个被他的上级采纳。“YouTube 有很多方法可以改变算法来抑制虚假新闻,并改善人们看到的视频的质量和多样性,”他说。 “我试图从内部改变 YouTube,但没有奏效。”

之后,YouTube 和谷歌在算法上的一些改变在 Chaslot 看来大多是表面化的,并没有从根本上改变算法中演变出的一些令人不安的偏见。2016 年,他开发了一款程序进行调查。

Chaslot 编写了一款软件,旨在为大家提供全球首个探究 YouTube 推荐引擎的窗口,该程序模拟用户在观看一个视频后引发推荐视频链,并跟踪数据。

在过去的 18 个月中,Chaslot 利用该计划探索法国、英国和德国选举期间 YouTube 上推广内容的偏差,全球变暖和大规模,并在他的网站 Algotransparency.org 上发布了他的调查结果。每项研究发现不同的东西,但研究表明 YouTube 系统性地夸大了有关、耸人听闻和诡计的视频。

从目前该网站披露的项目来看,至少在 2016 年美国大选、拉斯维加斯枪击案、德国大选等事件中,YouTube 算法都发挥了重要的作用。

通过该网站的检测,有助于我们更好地了解 YouTube 算法带来的影响,同时带给我们关于机器学习算法透明化的思考:从用户的角度来看,算法透明化是趋势,也是有必要的,这就给破除“黑盒子”问题提出了更迫切的要求。

AI 前线曾在《史上最严苛数据保护法 5 月生效!》一文中讲到了将于今年 5 月份生效的 GDPR,此规定中涉及机器学习的透明化问题,生效后将对一些研究机构和企业造成影响,也许会有利于解决算法的“黑盒”问题。AI 前线也希望随着 GDPR 生效带来的影响力越来越大,推荐算法将会更加透明,还用户一个干净、健康的产品环境。

原文链接:

https://9to5google.com/2018/04/07/youtube-kids-update-whitelist-content/

https://www.qdaily.com/articles/51886.html

https://www.theguardian.com/technology/2018/feb/02/how-youtubes-algorithm-distorts-truth

https://www.technologyreview.com/s/610760/an-ex-google-engineer-is-scraping-youtube-to-pop-our-filter-bubbles/#

今日荐文

点击下方图片即可阅读

苹果重新开源分布式数据库 FoundationDB,已在内部使用三年!



活动推荐

AI风口已来,人工智能全面爆发,资本大量涌入,政策不断加持,各企业趋之若鹜。我们看到,AI技术通过各种智能终端离我们越来越近了。在此时刻,中国完全掌握着弯道超车的良机。

GMTC2018全球大前端技术大会上我们特设“终端 AI”专场,邀请国内外顶尖人工智能技术团队来分享他们是如何把 AI技术赋能终端设备的。欢迎各位技术人莅临现场与大咖面对面交流。扫描下方二维码或点击“阅读原文”解锁更多大会详情!



AI前线
紧跟前沿的AI技术社群


如果你喜欢这篇文章,或希望看到更多类似优质报道,记得给我留言和点赞哦!

发表
26906人 签到看排名