YouTube刷订阅现在有用了谷歌算法泄露影响油管2500页的文档算法20年来谷歌都在说谎
我们需要了解一下 YouTube 的订阅算法。YouTube 的订阅算法是基于用户的行为和兴趣来推荐视频的。如果一个用户经常观看某个频道的视频,并且与该频道进行互动,那么 YouTube 就会认为这个用户对该频道感兴趣,并将其推荐给其他用户。因此,刷订阅并不能真正提高一个频道的曝光率和影响力。
谷歌的搜索算法也会影响 YouTube 的搜索结果。如果一个频道的订阅量很高,但是其视频质量不高,那么谷歌可能会降低其在搜索结果中的排名。因此,刷订阅并不能真正提高一个频道的搜索排名。
公众号 后台领取2500页的算法文档API以及泄露原文!

最近,谷歌的 2500 页内部文档被曝光,让我们得以窥见搜索这个“互联网最强大仲裁者”的运作方式。这可是个大料,消息一出,立刻引起了轩然大波。爆料人是 SparkToro 的联合创始人兼 CEO,他在自家网站上发表博客文章,说有个匿名人士给了他数千页泄露的谷歌搜索 API 文档,还说这对 SEO 界的人来说可是无价之宝。Rand Fishkin 可是 SEO 领域的大咖,“网站权威性”这个概念就是他提出来的。他在爆料前,自然要对这位匿名人士仔细甄别。
上周五,两人通过视频通话后,Rand 才放下心来。这次通话让 Rand 了解到,这是一份超过 2500 页的 API 文档,里面包含了 14014 条 attributes,这些属性似乎都来自 Google 的内部“Content API Warehouse”。根据文档的提交历史记录,该代码于 2024 年 3 月 27 日上传到 GitHub,直到 2024 年 5 月 7 日才被删除。通话结束后,Rand 确认了匿名人的工作经历和他们在营销界共同认识的人,于是决定满足匿名人的期望,发表一篇文章来分享这次泄露的信息,并驳斥谷歌员工“多年来一直传播的一些谎言”。Rand 的文章谈到了沙箱、点击率、停留时间等影响 SEO 的因素,这些可都是谷歌之前极力否认的。文章一发布,立刻引发了舆论哗然,尤其是在 SEO 圈。另一位 SEO 专家 Mike King 也发表文章,揭示了谷歌“算法的秘密”。他说,泄露的文件涉及谷歌收集和使用哪些数据、谷歌将哪些网站提升为选举等敏感话题、谷歌如何处理小型网站等主题。这些信息表明,谷歌这些年可没完全说实话,“文件中的一些信息似乎与谷歌代表的公开声明相冲突”。面对大家的质疑,谷歌选择沉默,对这次爆炸性泄漏事件避而不谈。不过,正主没发声,之前匿名提供消息的神秘人士却露面了。5 月 28 日,神秘人终于站了出来,发布了一段视频,公布了自己的身份。原来他叫 Erfan Azimi,也是一名 SEO 从业者,还是 EA Eagle Digital 的创始人。既然 Erfan Azimi 提供的文档来自 Google 的内部“Content API Warehouse”,那我们就来看看这到底是个啥,以及这份文档到底泄露了哪些内容。## 谷歌搜索“黑箱” 这次泄密事件似乎是从 GitHub 开始的,最可信的解释是 Erfan Azimi 在通话中告诉 Rand 的那样:这些文档可能是无意中被短暂公开了,因为文档中的许多链接都指向私人 GitHub 仓库,以及谷歌公司网站上需要特定认证登录的内部页面。在 2024 年 3 月至 5 月这段时间里,API 文档被传播到 Hexdocs(索引公开的 GitHub 仓库),然后被其他人发现并传播。Rand 有点疑惑,因为他确定其他人也有一份副本,但直到这次爆料之前,这份文件都没有被公开讨论过。据前谷歌开发人员透露,几乎每个谷歌团队都有这样的文档,用来解释各种 API 属性和模块,帮助项目人员熟悉可用的数据元素。这次泄露的信息与 GitHub 公共仓库和谷歌云 API 文档中的其他信息相吻合,使用了相同的符号风格、格式,甚至流程/模块/功能名称和引用。“API Content Warehouse”听起来像是个技术术语,但我们可以把它想象成是给谷歌搜索引擎团队成员的一份指南。它就像图书馆里的图书目录,谷歌用它来告诉员工有哪些书以及如何获取。不过,图书馆是公开的,而谷歌搜索却是世界上最神秘、防守最严密的黑匣子之一。在过去的二十多年里,谷歌搜索部门还从未发生过如此大规模或如此详细的泄密事件。## “泄露”了什么?### 对用户点击数据的使用 文档中的一些模块提到了“goodClicks”、“badClicks”、“lastLongestClicks”、印象、压扁、未压扁和独角兽点击等功能。这些都与 Navboost 和 Glue 有关,看过谷歌司法部证词的人可能对这两个词不陌生。以下是司法部律师 Kenneth Dintzer 对搜索质量团队搜索副总裁 Pandu Nayak 的交叉询问的相关摘录:
Q. 那么请提醒我一下,Navboost 是否可以追溯到 2005 年?
A. 在这个范围内,甚至可能更早。
Q. 它已经更新过了,它已经不是当年的那个 Navboost 了?
A. 不是了 Q. 还有一个是 glue,对吗?
A. glue 只是 Navboost 的另一个名称,包括页面上的所有其他功能。
Q. 好的。我本来打算稍后再谈,但我们现在就可以谈。就像我们讨论过的那样,Navboost 可以生成网页结果,对吗?
A. 是的。
Q. glue 还可以处理页面上所有不是网页结果的内容,对吗?
A. 没错。
Q. 它们共同帮助找到最终显示在我们搜索结果页上的内容并对其进行排名?
A. 没错。它们都是这方面的信号,是的。这份泄露的 API 文档支持 Nayak 先生的证词,并与 Google 的网站质量专利保持一致。谷歌似乎有办法过滤掉他们不想计入排名系统的点击量,并将他们希望计入排名系统的点击量纳入其中。他们似乎还能衡量点击时长(pogo-sticking,指搜索者点击结果后,因对找到的答案不满意而迅速点击返回按钮)和印象。
征用 Chrome 的点击流谷歌代表多次表示,他们不会使用 Chrome 数据对页面进行排名,但泄密文档在有关网站如何在搜索中显示的部分中,特别提到了 Chrome。泄露文件的匿名消息源称,早在 2005 年,谷歌就希望获得数十亿互联网用户的完整点击流,而通过 Chrome 浏览器,他们已经得偿所愿。API 文档显示,谷歌可以使用 Chrome 浏览器计算与单个页面和整个域相关的几类指标。这份文档还介绍了谷歌如何创建 Sitelinks 的相关功能,特别有趣。它展示了一个名为 topUrl 的调用,即“A list of topUrls with highest two_level_score, i.e., chrome_trans_clicks.”据此可以推测出,谷歌很可能使用了 Chrome 浏览器中网页的点击次数,并以此来确定网站上最受欢迎或是最重要的 URL,进而计算出哪些 URL 应包含在 Sitelinks 功能中。在谷歌搜索结果中,它总能显示用户访问量最大的页面,这是它通过跟踪数十亿 Chrome 用户的点击流得来的。对于谷歌的这一行为,网友们当然表示不满。为严肃话题创建白名单
我们可以从“优质旅游网站”模块中得出一个结论——谷歌在旅游领域有一个白名单,不过目前还不清楚这是专门用于谷歌的“旅游”搜索选项,还是更广泛的网络搜索。此外,文档中多处提到的“isCovidLocalAuthority”(新冠本地权威)和“isElectionAuthority”(选举权威)进一步表明,谷歌正在对特定域名进行白名单管理,这些域名可能会在用户搜索极具争议的问题时被优先显示。例如,在 2020 年美国总统大选之后,某位候选人在没有证据的情况下声称选票被偷,并鼓励其追随者冲击国会山。谷歌几乎肯定会成为人们最先搜索这一事件相关信息的地方之一,如果他们的搜索引擎返回的是不准确描述选举证据的宣传网站,这可能会直接导致更多的争论、暴力,甚至是美国民主的终结。从这个角度来说,白名单有其现实意义。Rand Fishkin 表示:“我们这些希望自由公正的选举继续下去的人应该非常感谢谷歌的工程师们在这种情况下使用了白名单。” 采用人工评估网站质量 长期以来,谷歌一直有一个名为 EWOK 的质量评级平台,现在我们有证据表明,搜索系统中使用了质量评估者中的某些元素。Rand Fishkin 觉得有趣的是,EWOK 质量评估者生成的分数和数据可能会直接参与谷歌的搜索系统,而不仅仅是实验的训练集。当然,这些可能“只是用于测试”,但当你浏览泄露的文档时,你会发现当这是真的,它会在注释和模块详细信息中明确指出。其中提到的“每份文档相关性评级”即来自 EWOK 的评估,虽然没有详细的说明,但我们不难想象,人类对网站的评估有多重要。文档还提到了“人工评级”(例如来自 EWOK 的评级),并指出它们“通常只填充在评估管道中”,这表明它们可能主要是该模块中的训练数据。但 Rand Fishkin 认为这仍然是一个非常重要的角色,营销人员不应忽视质量评级者对其网站的良好感知和评级有多重要。利用点击数据确定权重 谷歌将链接索引分为三个等级(低、中、高质量),点击数据用于确定网站属于哪个等级。- 如果网站没有被点击,就会进入低质量索引,链接也会被忽略 - 如果网站来自可验证设备的点击量很高,它就会进入高质量索引,并且链接会传递排名信号 一旦链接因为属于更高层次的索引而成为“可信”链接,它就可以流动 PageRank 和锚点,或者被垃圾链接系统过滤/删除。来自低质量链接索引的链接不会损害网站的排名,它们只会被忽略。谷歌的搜索算法可能是互联网上最重要的系统,它决定了不同网站的生死存亡以及我们在网上所能看到的内容。可它到底是怎么对网站进行排名的,一直是个谜,记者、研究人员和 SEO 工作者们都在努力拼凑这个谜题的答案。这次泄密事件中,谷歌依然保持沉默,看来这个谜题还会继续困扰我们。不过,这次谷歌有史以来最严重的泄密,还是让我们对搜索的工作原理有了前所未有的了解。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.org/479.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论