日志文件分析:用于SEO的8种可行方法

Time:

Author:漠漠睡

在本篇文章中,我们将介绍什么是日志文件,它们为何如此重要,要寻找的内容以及使用哪些工具。最后,我将提供8种可行的方法来分析SEO优化

什么是服务器日志文件?

服务器日志是由服务器自动创建和维护的日志文件(或多个文件),由它执行的活动列表组成。

出于SEO的目的,我们关注一个Web服务器日志,其中包含来自人类和机器人的网站页面请求的历史记录。有时也称为访问日志,原始数据如下所示:

是的,起初数据看上去有点令人不知所措,令人困惑,所以让我们分解一下,更仔细地看一下“命中”。

命中范例

每个服务器在记录命中方面都有本质上的不同,但是它们通常会提供类似的信息,这些信息被组织成字段。

以下是对Apache Web服务器的示例命中(这是简化的-一些字段已被删除):

50.56.92.47 – – [25 / 5 / 2020:12:21:17 +0100]“ GET” –“ /wp-content/themes/esp/help.php” –“ 404”“-”“ Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)” – www.example.com –

如您所见,对于每次匹配,我们都会获得关键信息,例如日期和时间,请求的URI的响应代码(在本例中为404)以及请求来自的用户代理(在本例中为Googlebot) )。您可以想象,日志文件每天由成千上万的点击数组成,每当用户或漫游器到达您的网站时,就会为请求的每个页面记录许多点击数-包括图像,CSS和呈现该文件所需的任何其他文件。

为什么如此重要?

所以您知道什么是日志文件,但是为什么值得花时间分析它们?

好吧,事实是,只有一个真实的记录可以说明搜索引擎(例如Googlebot)如何处理您的网站。那就是通过查看网站的服务器日志文件。

站长工具,第三方爬虫和搜索操作员不会全面了解搜索引擎如何与网站互动。只有访问日志文件可以为我们提供此信息。

我们如何将日志文件分析用于SEO?

日志文件分析为我们提供了大量有用的见解,包括使我们能够:

  • 准确验证可以或不能爬取的内容。
  • 查看搜索引擎在其搜寻期间遇到的响应,例如302,404,软404。
  • 识别爬网缺陷,这些缺陷可能具有更广泛的基于站点的含义(例如层次结构或内部链接结构)。
  • 查看搜索引擎优先考虑哪些页面,并可能将其视为最重要的页面。
  • 发现搜寻预算浪费的区域。

我将带您完成在日志文件分析期间可以执行的一些任务,并向您展示它们如何为您提供可操作的网站见解。

如何获取日志文件?

对于这种类型的分析,您需要来自您域的所有Web服务器的原始访问日志,而没有应用任何过滤或修改。理想情况下,您需要大量数据才能使分析有价值。值得多少天/周取决于站点的大小和权限以及所产生的流量。对于某些站点,一周可能就足够了,对于某些站点,您可能需要一个月或更长时间的数据。

您的Web开发人员应该能够为您发送这些文件。值得一问,在它们发送给您之前,日志是否包含来自多个域和协议的请求,以及这些请求是否包含在此日志中。因为否则,将阻止您正确识别请求。您将无法分辨对http://www.example.com/和://example.com/的请求之间的区别。在这种情况下,您应该要求开发人员更新日志配置,以在将来包含此信息。

我需要使用哪些工具?

如果您是Excel专家,那么本指南对于帮助您使用Excel格式化和分析日志文件非常有用。我们使用Screaming Frog日志文件分析器,其友好的用户界面使您可以快速,轻松地发现任何问题(尽管可以说,您获得的深度或自由度与使用Excel所获得的不一样)。我将为您介绍的所有示例都是使用Screaming Frog日志文件分析器完成的。 其他一些工具是Splunk和GamutLogViewer。

分析SEO日志文件的9种方法

1.找出浪费搜寻预算的地方

首先,什么是抓取预算?综合爬网率和爬网需求,我们将爬网预算定义为搜索引擎蜘蛛或机器人可以并且想要爬网的URL数量。

本质上,它是搜索引擎每次访问您的网站时将爬网的页面数,并关联到域的权重,并与通过网站的链接资源成比例。

对于日志文件分析而言,至关重要的是,有时爬网预算可能会浪费在无关的页面上。如果您有新内容要编制索引,但没有预算,那么搜索引擎将不会为新内容编制索引。这就是为什么要通过日志文件分析来监视爬网预算的支出原因。

影响抓取预算的因素

有许多低附加值的URL会对网站的爬网和索引产生负面影响。低附加值URL可以属于以下类别:

  • 分面导航,动态URL生成和会话标识符(电子商务网站常用)
  • 现场重复内容
  • 被黑的页面
  • 软错误页面
  • 低质量和垃圾内容

浪费诸如此类页面上的服务器资源会浪费实际具有价值的页面的爬网活动,这可能会导致在站点上发现良好内容的时间大大延迟。

例如,查看这些日志文件,我们发现一个不正确的主题被非常频繁地访问,这个问题很明显!

在查看每个页面获得的事件数量时,请问自己搜索引擎是否应该爬网这些URL –您通常会找到答案是否定的。因此,优化您的抓取预算将有助于搜索引擎抓取您的网站上最重要的页面并将其编入索引。您可以通过多种方式来执行此操作,例如通过robots.txt文件阻止包含某些模式的URL,从而避免对URL进行爬网。

2.您的重要页面是否被完全检索?

我们已经介绍了为什么对搜索引擎来说重要的是不要在低价值网页上浪费抓取预算。硬币的另一面是检查您对高价值网页的重视程度。如果按事件数排序日志文件并按HTML过滤,则可以看到访问量最大的页面。

如果说最重要的URL应该进行最大程度的爬网,可能有点过分简单了-但是,如果您是潜在客户网站,则希望您的主页,关键服务页面和文章内容出现在其中。

作为电子商务网站,您希望您的主页,类别页面和关键产品页面显示在其中。如果您看到不再销售的旧产品页面并且这些结果中最重要的类别页面为零,则说明存在问题。

3.您所有的目标搜索引擎机器人都正在访问您的页面吗?

坚持使用日志分析工具,这很容易执行。我们知道对外贸易中Google是主要的搜索引擎,因此确保Googlebot Smartphone和Googlebot定期访问您的网站是您的首要任务。

我们可以通过搜索引擎bot过滤日志文件数据。

过滤后,您可以查看每个所需的搜索引擎机器人正在记录的事件数。希望您会看到Googlebot Smartphone或Googlebot最常访问您的网站。

4.发现错误的状态码

使用Screaming Frog日志文件分析器,您可以快速发现错误状态码,并且由于它们是按爬网频率排序的,因此您还可以查看哪些是最可能要修复的URL。

要查看此数据,您可以在“响应代码”标签下过滤此信息

查找具有3xx,4xx和5xx HTTP状态的页面

  • 他们经常去吗?
  • 访问3xx,4xx和5xx的页面是否比您的重要页面访问量还多?
  • 响应代码有任何模式吗?

在一个项目中,命中率最高的前15个页面中有重定向,不正确的302(临时)重定向,页面上没有内容的页面以及一些404和软404。

通过日志文件分析,一旦发现问题,就可以通过更新不正确的重定向和软404来开始解决该问题。

5.突出显示不一致的响应代码

尽管分析搜索引擎将遇到的最后一个响应代码很重要,但突出显示不一致的响应代码也可以使您获得更深刻的见解。

如果您只看最后的响应代码,而没有发现异常错误或4xxs和5xxs中的任何尖峰,则可以在那里进行技术检查。但是,您可以在日志文件分析器中使用过滤器来仅详细查看“不一致”的响应。

原因很多,您的URL可能会遇到不一致的响应代码。例如:

  • 5xx和2xx混合–当它们承受严重负载时,这可能表示服务器出现问题。
  • 4xx和2xx混合–这可能指向已出现或已修复的断开链接

一旦掌握了日志文件分析中的这些信息,就可以创建行动计划来修复这些错误。

6.审核大页面或慢页面

我们知道到第一个字节的时间(TTFB),到最后一个字节的时间(TTLB)以及到整个页面加载的时间都会影响您的网站的爬网方式。尤其是TTFB,这是使您的网站快速有效地爬网的关键。页面速度也是排名因素,我们可以看到快速网站对您的性能至关重要。

使用日志文件,我们可以快速查看您网站上最大的页面,而最慢的页面。

要查看最大的页面,请对“平均字节数”列进行排序。

在这里,我们可以看到PDF构成了网站上最大的页面。优化它们并减小它们的大小是一个很好的起点。如果您看到此处显示特定页面,则可能需要单独查看它们。

  • 它们覆盖有高分辨率图像吗?
  • 他们有视频自动播放吗?
  • 它们是否有不必要的自定义字体?
  • 是否启用了文本压缩?

尽管页面的大小可以很好地指示页面变慢,但这并不是全部。您可以有一个很大的页面,但是它仍然可以快速加载。排序“平均响应时间”列,您可以看到响应时间最慢的网址。

与您在此处看到的所有数据一样,您可以按HTML,JavaScript,图像,CSS等进行筛选,这对于审核非常有用。

也许您的目标是减少网站对JavaScript的依赖,并希望找出最大的罪魁祸首。或者您知道CSS可以简化,并且需要数据来备份它。您的网站可能会以蜗牛的速度加载,并且按图像进行过滤向您表明,提供下一代格式应该是优先事项。

7.检查内部链接和爬网深度的重要性

该日志文件分析器的另一个重要功能是能够导入网站的爬网。这确实很容易实现,并为您提供了更多从日志文件中进行分析的灵活性。只需将爬网拖放到如下所示的“导入的URL数据”中即可。

完成后,您可以进行进一步的分析。

确保在下拉菜单“与URL数据匹配”中进行选择,然后将相关列拖动到视图中。在这里,我们可以对爬网深度和链接对您网站的爬网频率的影响进行批量分析。

例如,如果您的“重要”页面不经常被抓取,并且发现它们的链接很少,并且抓取深度大于3,这很可能就是为什么您的页面没有被抓取太多的原因。相反,如果您有一个页面被大量爬网,并且不确定为什么,请查看页面在您网站中的位置。链接在哪里?距根有多远?对此进行分析可以向您表明搜索引擎喜欢您的网站结构。最终,该技术可以帮助您确定层次结构和站点结构中的任何问题。

8.发现孤立页面

最后,通过导入爬网数据,发现孤立页面很容易。孤儿页面可以定义为搜索引擎知道并且正在爬网但未在您的网站内部进行链接的页面。

选择下拉菜单“不在URL数据中”将显示日志中存在的URL,而不是您的抓取数据中存在的URL 。因此,此处显示的URL将是搜索引擎机器人仍然认为具有价值的页面,但不再出现在网站上。出现孤立URL的原因有很多,其中包括:

  • 网站结构变更
  • 内容更新
  • 旧的重定向网址
  • 内部链接不正确
  • 外部链接不正确

最终,您需要查看找到的孤立URL,并作出判断来处理它们。

最后的想法

这就是我们对日志文件分析和8个可操作任务的简短介绍,您可以立即使用Screaming Frog日志文件分析器开始。在Excel和上述其他工具(以及其他工具)中,您还可以做更多的工作。

您如何进行日志文件分析?您认为哪种工具最有效?我们的SEO团队很想知道,在下面发表评论吧!