YouTube刷粉影响展示简单讲讲youtube算法论文并反推其推荐机制
youtube刷粉影响展示或点击推荐,这个疑问基本可以盖棺定论了,其实早在16年就已经被反分析出来了,我用一句话简单讲一下:youtube刷粉会影响点击率也就是论文中写的ctr,ctr换短暂的影响推荐,如果用户最近被推荐了一个视频但没有观看,那么在下一次页面加载时这个算法就会生效自动降低这个视频的排名,这对做youtube seo的用户来说是非常致命的。而靠 嵌入网站这种手法 去做youtube流量也是目前很多主流刷粉网站做的,这种手法固然可行,但靠这种手法新内容很难出现在推荐列表中。
自助领取
但是在2024年,这点又被谷歌自己推翻了,在2500页的算法泄露中,谷歌明确写了,如果是YouTube的白名单合作网站嵌入,例如vevo这种,不算虚假流量!将会给予推流和展示推荐,这就导致现在有实力的数据供应商开发了专属于vevo的数据流量,我也去做了一些调查。

2016 年 9 月 18 日,一组谷歌研究人员在马萨诸塞州波士顿举行的第 10 届年度计算机协会推荐系统会议(或被称为 ACM 的 RecSys '16)上发表了一篇题为《用于 YouTube 推荐的深度神经网络》的论文。
这篇论文由保罗·科文顿(Paul Covington,现任谷歌高级软件工程师)、杰伊·亚当斯(Jay Adams,现任谷歌软件工程师)和恩布雷·萨金(Embre Sargin,现任谷歌高级软件工程师)撰写,旨在向其他工程师展示 YouTube 如何使用深度神经网络进行机器学习。它涉及到一些非常技术化、高水平的内容,但这篇论文最终说明了整个 YouTube 推荐算法是如何工作的。它让细心和谨慎的读者深入了解 YouTube 的浏览、推荐视频和推荐视频功能是如何实际运作的。
虽然这可能不是作者的本意,但我们相信,这篇深度神经网络论文可以被 YouTube 视频出版商阅读和理解。以下是我们(当我说我们时,我指的是我和我在我闪亮的新公司 Little Monster Media Co.的团队)作为视频出版商对这篇论文的解读。
在我之前在 Tubefilter 上共同撰写的一篇文章《反向工程 YouTube 算法》中,我们关注的是该算法的主要驱动因素——观看时间。我们查看了我们频道上的视频数据,试图深入了解 YouTube 算法的工作原理。然而,这种方法的一个限制因素是,它是从视频出版商的角度来看的。为了深入了解 YouTube 算法,我们问自己,然后回答了这个问题:“为什么我们的视频会成功?”我们尽了最大努力,但我们最初的前提并不理想。虽然我 100%支持我们的发现,但我们之前方法的问题主要有两个方面:
查看单个频道指标集意味着我们的数据存在巨大的盲点,因为我们无法访问竞争指标、会话指标和点击率。YouTube 算法对基于视频发布者的指标给予的权重非常小。它更关心的是观众和单个视频的指标。或者用外行的话来说,算法并不真正关心你发布的视频,而是非常关心你(和其他人)正在观看的视频。但在我们撰写最初那篇论文时,YouTube 或谷歌多年来都没有发布过任何关于该算法的有意义的信息。所以,我们只能自己动手。幸运的是,谷歌最近发布的这篇论文让我们得以一窥算法的工作原理和一些最重要的指标。希望这能开始让我们回答更尖锐的问题,“为什么视频会成功?”
深入探究深度学习的深渊
论文引言部分的最大收获是 YouTube 确实在使用深度学习来推动其算法。这并不是什么新鲜事,但这一确认证实了许多人长期以来的猜测。作者在引言中写道:
在本文中,我们将重点关注深度学习对 YouTube 视频推荐系统的巨大影响……与谷歌其他领域的产品一样,YouTube 也经历了使用深度学习作为几乎所有学习问题的通用解决方案的根本范式转变。
这意味着,越来越有可能没有人会真正调整算法、衡量这些调整并将其部署到世界上最大的视频分享网站上。相反,算法会实时读取数据、对视频进行排名,然后根据这些排名推荐视频。因此,当 YouTube 表示他们不知道算法为什么会这样做时,他们可能真的不知道。
两个神经网络

论文首先阐述了算法的基本结构。这是作者的第一个图示:
本质上,这里有两个大的过滤器,有不同的输入。作者写道:
该系统由两个神经网络组成:一个用于候选生成,一个用于排名。
这两个过滤器及其输入基本上决定了观众在 YouTube 上看到的每一个视频:建议你播放的下一个视频、推荐给你的视频列表、你浏览的视频列表……
第一个过滤器是候选生成器。论文称,这是根据用户的 YouTube 活动历史确定的,即用户的观看历史和观看时间。候选生成器还会考虑相似用户的浏览记录,作者称之为协同过滤。相似用户是通过“视频观看 ID、搜索查询词和相关用户统计信息等粗糙特征”确定的。
为了简化这个问题,要使一个视频成为通过候选生成器的“数百个”视频之一,该视频必须与用户的观看历史相关,并且还必须有一个相似的用户已经看过它。
第二个过滤器是排名过滤器。论文对排名过滤器进行了大量深入的分析,并列举了一些有趣的因素。作者写道,排名过滤器通过以下方式对视频进行排名:
……根据描述视频和用户的丰富特征,使用目标期望函数为每个视频分配一个分数。根据分数对视频进行排名,得分最高的视频将展示给用户。
由于观看时间是 YouTube 为用户设定的首要目标,我们只能假设这就是“目标期望函数”的意义。因此,考虑到各种不同的用户输入,这个分数的意义就是某个视频能够转化为用户观看时间的程度。但不幸的是,事情并没有那么简单。作者透露,该算法还会考虑很多其他因素。
我们在排名模型中通常使用数百个特征。
算法如何对视频进行排名的数学原理非常复杂。论文既没有详细说明排名模型中考虑的数百个因素,也没有提及它们是如何加权的。但它确实列出了其中的三个主要因素:浏览历史、搜索历史、观看人数以及包括新鲜度在内的其他视频元素。
每秒钟都有大量的视频上传到 YouTube。向用户推荐这些新上传的(“新鲜”)内容对 YouTube 来说非常重要。我们一直观察到的是,用户喜欢新鲜的内容,尽管有些内容与他们的相关性并不强。
论文中提到的一个有趣的点是,算法并不总是受用户最后观看的视频的影响,除非用户的观看历史非常有限。作者写道:
我们通过选择一个随机观看和用户在保留标签观看之前采取的仅输入操作来“回滚”用户的历史。
在论文的后面,他们讨论了视频缩略图和标题的点击率(CTR)问题:
例如,用户通常很可能观看系统推荐的视频,但不太可能因为缩略图的选择而点击其主页……我们的最终排名目标会根据实时 A/B 测试结果不断调整,但通常是一个简单的每次印象预期观看时间的函数。
在这里提到点击率(CTR)问题并不令人意外。为了产生更多的观看时间,一个视频必须首先被看到,而最好的方法之一就是制作一个很棒的缩略图和一个很棒的标题。这让很多视频发布者认为点击率(CTR)对视频在算法中的排名非常重要。
但 YouTube 知道点击率(CTR)是可以被人为操纵的,所以他们也提供了对策。论文中承认:
通过点击率(CTR)排名往往会鼓励欺骗性的视频内容,用户即使点击了也很少看完视频,而观看时间更能反映视频的质量[13,25]。
这至少是令人鼓舞的,作者接着写道:
如果用户最近被推荐了一个视频但没有观看,那么在下一次页面加载时,该模型将自动降低该视频的排名。
这表明,如果用户没有点击特定的视频,该算法将不再向类似的用户推荐该视频。在频道推荐方面也是如此,论文中有证据表明:
我们观察到最重要的信号是描述用户之前与该视频和其他类似视频的交互……例如,考虑用户与被算法评分的频道上传的视频的交互历史:该用户观看了该频道的多少视频?该用户上一次观看同一主题的视频是什么时候?这些描述用户过去活动的连续特征特别强大……
此外,论文指出,在训练算法时考虑了所有 YouTube 视频的观看方式,包括那些算法无法触及的地方:
训练示例是从所有 YouTube 观看(甚至是嵌入其他网站的观看)中生成的,而不仅仅是从我们生成的推荐视频中生成的。否则,新内容将很难出现在推荐列表中,而推荐系统将过于依赖过去视频的数据。如果用户通过其他方式发现了与我们的推荐不同的视频,我们希望能够通过协同过滤迅速将这一发现传播给其他用户。
最终,一切都回到了算法的观看时间。正如我们在论文开头看到的,该算法旨在满足一个“期望目标函数”,作者总结道,“我们的目标是预测用户的观看时间”,“我们的最终排名目标会根据实时 A/B 测试结果不断调整,但通常是一个简单的每次印象预期观看时间的函数。”
这再次证实了观看时间对算法的重要性,该算法旨在让 YouTube 网站上有更多、更长的视频和更多、更长的用户观看时间。
一个简单的回顾
说了这么多,让我们快速回顾一下:
YouTube 使用三个主要的观看因素来选择推荐的视频,它们是用户的观看历史、搜索历史和相关的用户统计信息。推荐视频是通过候选生成器和排名过滤器的筛选产生的,这两个过滤器决定了 YouTube 如何读取、筛选视频以及如何生成推荐列表。排名过滤器主要基于用户输入的因素,其他因素还包括视频的“新鲜度”和点击率。推荐算法的设计目的是通过不断将视频的 A/B 测试实时结果反馈给神经网络,从而不断为用户推荐一个简单的每次印象预期观看时间的函数,来持续增加用户在 YouTube 网站上的观看时间。如果你还不明白,我们再举一个例子。让我们用一个例子来说明这个推荐系统是如何工作的:
乔希非常喜欢 YouTube,他有一个 YouTube 账号和所有相关的东西!有一天,当他访问网站时,他已经登录了。登录后,YouTube 会为乔希的这次浏览会话创建三个令牌:观看历史、搜索历史和关于他的统计信息。乔希可能根本不知道这三种数据的存在。
然后候选生成器就开始工作了。YouTube 将这些令牌的值与喜欢观看与乔希观看的内容类似的用户的观看历史进行比较,从而筛选出乔希可能喜欢的数百个视频,过滤掉 YouTube 视频库中的数百万个其他视频。
接下来,根据视频与乔希的相关性,这些视频通过排名算法进行排序。在排序时,算法会考虑以下问题:乔希打开这个视频的可能性有多大?这个视频是否有可能让乔希在 YouTube 上花费更多时间?这个视频的新鲜度如何?乔希最近在 YouTube 上的活动程度如何?还有数百个其他问题。
经过 YouTube 算法的读取、筛选和推荐后,排名最高的视频将被推荐给乔希。然后,乔希是否观看以及如何观看的选择数据将被反馈回神经网络,供算法后续使用。视频被点击并吸引乔希在 YouTube 上花费更多时间的目标将一直持续下去。那些乔希没有点击的推荐视频,下次他登录网站时可能无法通过候选生成器。
《用于 YouTube 推荐的深度神经网络》是一篇引人入胜的论文。这是我们很长时间以来第一次从源头上直接了解 YouTube 推荐算法。我希望能看到更多这样的论文,以便在为这个平台制作内容时做出更好的选择。这也是我愿意花时间写这些内容的根本原因。毕竟,更适合该平台的内容意味着更多的浏览量、更高的收入,从而使我们能够为数十亿用户制作更高质量、更有吸引力的内容。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.org/492.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论