Google 搜索内部文档遭泄，一万多排名特征大曝光

站长笔记

发布时间 2024-6-3 10:55

浏览人数 307浏览

转自微信公众号原文作者原作者:小王子的外贸笔记

注明：本文摘自微信公众号:小王子的外贸笔记，版权归微信公众号:小王子的外贸笔记所有，请通过微信搜索公众号小王子的外贸笔记，查看作者更多精彩内容。

在 5 月 5 日这一天，Google 搜索的某一特定内容的 API 文档竟意外地被曝光了出来。

Google 搜索内部文档遭泄，一万多排名特征大曝光

这份文档已经得到了前 Google 员工的确认，而且其更新日期显示是在今年的 3 月份，可以说还是相当崭新的。

Google 搜索内部文档遭泄，一万多排名特征大曝光

从这份被泄漏的文档当中能够清晰地看到，Google 的排名系统竟然包含了 2,596 个模块，以及高达 14,014 个排名因素。

不得不说，此次事件堪称 Google 有史以来最为严重的泄密事故之一了。我对 iPullRank 创始人 Mike King 和 Rand Fishkin 的第一手资料进行了汇总整理，进而发现了诸多排名算法的细节内容。

将这些与 Google 之前所公布的情况相对照，真的可谓是真假难辨、扑朔迷离。

先说“假假真真”这一方面：“我们并没有域名权重的数值”，Google 一直对外宣称，并不存在类似域名权重这样的数值（就如同 Semrush 和 Ahrefs 的 AS 和 DA 值），然而实际上在文档当中确实存在着 siteAuthority 这个参数，这完完全全就是所谓的域名权重/站点权重。

Google 搜索内部文档遭泄，一万多排名特征大曝光

还有图片相关内容。“我们不使用点击次数用于排名”，Google 一直声称“并不使用点击次数用于排名”，但实际从这份文档来看，事实并非如此。自从上次反垄断调查时起，Google 就暴露出有 NavBoost 排名系统的存在，而 NavBoost 是专门依靠点击数据驱动来对排名进行调整的一个系统。此次的内部文档中有更为详细的点击参数，比如：

badClicks（不良点击）和 goodClicks（优质点击）：主要指的是用户在搜索结果中的点击行为，如果能够满足需求，不再点击其他结果，那么就算是加分项，否则则是减分项；

lastLongestClicks（最后最长点击）和 lastGoodClicks（最后优质点击）：主要是对点击是否会随着时间而衰减进行衡量，存在时效性方面的考虑；

unsquashedClicks（未压扁点击）、unsquashedImpressions（未压扁展示）和 unsquashedLastLongestClicks（未压扁最后最长点击）：主要是对数据进行了规范操作，以确保不会有极端数据对整体数值产生影响。

Google 搜索内部文档遭泄，一万多排名特征大曝光

另外，其中并没有点击率、停留时间这样的参数。

各种各样的资料都明确表明，依靠点击数据的 NavBoost 系统是 Google 排名信号当中最为重要的因素之一。

所以由此可以看出，Google 是将点击次数以及点击后的行为当作了排名算法的一部分。

“沙盒并不存在”，John Muller 此前曾说过，并不存在沙盒。但在内部文档当中却有 hostAge（主机年龄）这个参数，主要是用于“对新鲜垃圾网页/网站进行沙盒处理”。

“不使用 Chrome 的数据”，这是 Google 一直所宣称的，但实际上却有 ChromeInTotal（Chrome 总数据）这个参数，表示网站在 Chrome 中的整体浏览量（通过此来了解网站的访问规模）。

Google 搜索内部文档遭泄，一万多排名特征大曝光

甚至网站的子链接都有可能是利用了 Chrome 数据。

Google 搜索内部文档遭泄，一万多排名特征大曝光

再说“真真假假”这一方面：作者是一个明显的特征，关于 EEAT，Google 一直没有明确公布出明显的优化方法，并且还表示作者模块并没有正向的帮助作用。

但实际上在文档中存在着 author（作者）这个参数，而且还会对是否真的是网页的作者进行判断。方面，文档中提到了几种方式的算法降级，包含：

锚点不匹配——当链接锚文本与它所链接的目标网站不匹配时，该链接在计算中会被降级；

SERP（搜索结果页面）降级——从 SERP 的点击情况来了解用户的满意程度，当用户不满意时就会被降级；

导航降级——网站的导航链接的体验不佳；精确匹配域名降级——搜索词跟域名精准匹配时，不会有排名提升的作用（这在 2012 年的 Google Exact-Match Domain (EMD) Update 上线时就有体现）；

产品评价降级——跟产品评价算法 Product Review 有关；

位置降级——在与位置有关联的搜索时，没有位置的网页会降级；

成人内容降级；其他链接降级。

外链似乎依然非常重要，外链与网页的索引层级是相关联的。Google 索引分为几个不同的层级，其中最为重要的、会定期更新和访问的内容会存储在闪存当中。不太重要的内容会存储在固态硬盘上，而不定期更新的内容则会存储在标准硬盘上。所以外链的索引层级越高，其价值也就越高。

Google 搜索内部文档遭泄，一万多排名特征大曝光

还有关于垃圾链接的识别

Google 会利用 phraseAnchorSpamDays（短语锚点垃圾天数）来识别垃圾链接，会识别垃圾链接的频率、数量、起始时间，很容易就把这部分数据给忽略掉了。

Google 搜索内部文档遭泄，一万多排名特征大曝光

Google 还会参考近 20 次修改的历史版本，Google 会保留网页的历史版本，就像是 Wayback Machine（互联网档案馆）所做的那样。但在参考网页内容时，主要参考其近 20 次修改的历史版本。

新网页都会获取首页的初始 PR（网页级别），当网页新上线时会获取初始 PR，也就是首页的 PR，直到网页通过用户数据和网页数据获取到属于自己的 PR。

Google 搜索内部文档遭泄，一万多排名特征大曝光

首页信任度方面，Google 根据对首页的信任程度来决定如何评估外链的价值。

Google 搜索内部文档遭泄，一万多排名特征大曝光

所以，SEO 应该重点关注链接的质量和相关性，而不是数量。

链接和内容的字体大小仍然是有帮助的，在早期的 SEO 中都会要求对文本进行加粗和加下划线，现在看来这依然是有帮助的，而且不光是对内容，对锚文本也是如此。

Google 搜索内部文档遭泄，一万多排名特征大曝光

其他重要信息

还有一些零碎的算法信息，包含：

网页文档会被截断。在 Mustang 系统中，考量的字符数量是有限的，网页内容过长会被截断，所以重要内容要往前放
短篇内容的原创度可获得评分。OriginalContentScore表明较短内容是靠原创度来获取得分
Title 跟关键词的匹配仍很重要。titlematchScore参数仍在衡量标题与关键词的匹配程度
Title 和 Description 没有字符长度的限制
日期很重要。Google 通过 3 个参数来判断网页的时间：bylineDate是网页中显示的日期，syntacticDate是 URL 或标题中提取的日期，semanticDate是从内容中分析出的日期
域名注册信息有使用。Google有存储域名的过期时间和创建时间，用于新域名的判断，比如最近的“过期域名滥用”肯定会用到这个字段
视频网站会被特别对待。如果超过 50% 的页面包含视频，会被判断为视频网站，收到不同对待。
YMYL 会有特别评分机制。这个符合之前公布的信息

Google 反应

此次泄露事件仍在发酵，预计很快就会被一些互联网媒体报道。Google 仍未对此次泄漏事件做出任何回应。

我的看法