识别和解决自然搜索中的抓取错误

发布时间 2024-6-27 14:53

浏览人数 140浏览

转载自微信公众号原文作者作者 SEO技术研究社 ← 查找 / 关注作者公众号

注明：本文摘自微信公众号:SEO技术研究社，版权归微信公众号:SEO技术研究社所有，请通过微信搜索公众号SEO技术研究社，查看作者更多精彩内容。

每个内容作者和 SEO 都希望他们的网页在搜索引擎结果页面（SERP）上获得更高的排名。爬网在此目的中起着至关重要的作用，因此在了解爬网错误之前。这是一个过程，在这个过程中，搜索引擎发送一组机器人，通常称为爬虫或蜘蛛，以查找新更新的内容。因此，为了在 SERP 中获得更高的排名，搜索引擎可以抓取和索引您的网页非常重要。

什么是爬网错误？

当搜索引擎机器人在抓取时无法读取和索引您的内容时，就会发生抓取错误。发生此错误时，搜索引擎无法正确索引和爬网。错误会阻止该页面被编入索引，并且错误页面不会出现在 Google 搜索中，这会减少您网站结果的流量，从而降低可见性和网站的自然排名。使用 Google Search Console 等不同工具监控抓取问题至关重要。

爬网错误的类型

由于爬行错误有许多变体。对爬网错误进行分类时，会根据类似的爬网错误对索引的影响对其进行分组。这有助于监控并更好地了解错误。抓取错误有两种类型：网站错误和 URL 错误：

1. 网站错误

当搜索引擎机器人无法访问您的整个网站时，就会发生此错误。这是一个广义的术语，包括服务器错误、DNS（域名系统）错误、机器人错误（搜索引擎无法查找和读取网站文件 robots.txt 等错误）。

2. URL错误

当搜索引擎机器人无法访问个人或特定页面时，就会发生这些错误。与此相关的错误包括软 404、未找到、阻止和禁止的 URL、不正确的 URL 结构等等。

为什么爬网错误很重要？

抓取错误会对您的网站可见性产生负面影响，因为此错误会阻止这些机器人访问您的网页并将其编入索引，这可能会降低网站的排名。如果搜索引擎找不到相关性信息，那么他们如何在 SERP 中提供该网页，这也会影响您的新页面。

这些错误也会影响用户体验（UX），例如当他们访问您的网站并找到给出错误（如 404 错误、未找到等）的链接时，他们可能会对您的内容不满意并可能离开网站，因为 SEO 的黄金法则是始终关注内容和用户体验。这些错误可能会导致网页索引不当。

识别爬网错误

像 Google 这样的搜索引擎提供了一个免费工具 Google Search Console 来识别抓取错误。这有助于您监控和改善网站在搜索结果中的显示。您可以在 Search Console 的仪表板中访问抓取错误。Search console 有两个部分用于抓取错误：网站错误和 URL 错误，这确实可以帮助您查找抓取错误，因为这两个抓取错误与抓取错误类型中提到的不同。

它提供了在抓取过程中未找到的 URL 列表，并显示服务器错误，以便您可以轻松找到 URL 并修复它们。除了 Google Search Console 之外，还存在其他工具，例如 Screaming Frog、Ahrefs、Moz 和 SEMrush。

在 Google Search Console 中查找抓取问题的位置

抓取错误可能会阻止您的页面被编入索引，这可能会降低您在 SERP 上的网页排名。在 Google 搜索控制台中，访问覆盖范围部分。此控制台的第一页是显示您网站上的索引错误的摘要页面。错误会阻止网页被编入索引，并且错误网页不会出现在 Google 搜索结果中，这可能会对您网站的流量产生负面影响。

本页有四个部分

错误：在“错误”部分，可以找到诸如 DNS 错误，服务器错误，404 错误之类的错误，这些类型的错误会阻止页面被编入索引，并且不会出现在 Google 搜索结果中，从而影响您网站的流量。
有效但有警告：在“有效有警告”部分中，页面可能会也可能不会显示在 Google 搜索索引中，具体取决于问题。例如：谷歌也有可能找到一个被索引但可能被 robots.txt 阻止的页面，为此你必须配置 robot.txt 文件。
有效：在有效版块中，网页没有错误，并且此版块中的所有网页都已编入索引，网页将出现在 Google 搜索结果中。
已排除：已排除部分中的网页未编入索引，也不会显示在 Google Search Console 中。例如，页面没有索引指令，页面有重复的内容，页面根本找不到并返回 404 错误。

修复爬网错误

我们知道有两种类型的抓取错误：网站错误和 URL 错误，我们将一一讨论如何修复这些错误：

如何修复网站错误

网站错误是一种抓取错误，是非常强大的错误，因为它可以阻止搜索引擎机器人抓取整个网站。您可以在谷歌搜索控制台的仪表板中查看此错误。此错误包括 DNS 错误、服务器错误和 Robots.txt 提取错误。对于 DNS（域名系统），您可以访问 google 控制台的 fetch 作为 google 工具，然后单击 fetch。

如果问题仍然存在，请与您的 DNS 提供商联系。对于服务器错误，您可以检查服务器设置，可以通过配置 robot.txt 文件来修复 robert.txt 文件。

如何修复 URL 错误

URL 错误可以在 Google 控制台的覆盖范围部分找到。提交的 URL 有抓取问题、软 404 错误、404 错误等错误属于 URL 错误。提交的 URL 有抓取问题可以通过解锁 robot.txt 文件来解决，也可以通过点击控制台的测试 robot.txt 阻止工具来测试 robot.txt 文件是否被阻止。

如果一切正常，但仍然显示此错误，请单击请求索引。软 404 错误意味着该页面几乎没有或根本没有可以通过检查 URL 解决的内容。404 错误基本上是对缺失页面的响应，这可以通过恢复丢失的页面或使用新 URL 重定向旧 URL 或更新内部链接或站点地图以显示正确的 URL 来修复。

使用其他工具查找和更正爬网问题的方法

除了谷歌搜索控制台之外，还有其他工具可以查找并修复抓取问题，例如：在 MOZ Pro 广告系列中，访问所有已抓取的页面，您可以在有问题部分检查您的抓取错误。您可以通过访问“分析”部分来调查错误并获得修复该错误的帮助。诸如搜索引擎在 robots.txt 中被阻止之类的错误也可以通过必应网站管理员工具robots.txt 测试器进行修复。

防止爬网错误

抓取错误会严重影响您的网站排名。因此，防止抓取错误非常重要，这样用户才能获得更好的体验，并且您的网站对搜索引擎友好。以下是有关防止爬网错误的几点：