首页 首页 >  文章资讯

常见的爬虫陷阱包括

发布时间:2023-09-07 13:10:47 浏览次数:204次

(1)电商网站上的页面
电商网站可能会因为产品筛选和排序选项而生成大量重复的URL。
解决方案:使用rel="canonical"标签指向主要页面,或在搜索引擎机器人不需要爬取的URL上使用robots.txt文件进行阻止。此外,为每个访问者生成的会话ID或某些URL参数导致的大量重复的页面也适用此方案。
(2)多重重定向链
有时,网站上会实施一系列的重定向。一个页面链接到另一个页面,然后再重定向到另一个页面,如此反复。链条持续下去,打开最终的网页需要很长时间。当搜索机器人遇到这样的情况时,它们会被困住。为了摆脱它,它们在三四次跳转后停止爬取。因此,您的网页不会被索引。
解决方案:使用工具(如Screaming Frog或Redirect Path插件)检查网站的重定向。将链条中的第一个链接直接重定向到最终目标页面,从而减少中间的跳转次数。
(3)重定向循环
经常有些重定向的网页会带您回到原始的URL。您回到了开始的页面。这就是所谓的重定向循环。您网站上的重定向循环会浪费您网站的爬取预算。结果,您的网页不会被索引。
解决方案:检查并修复重定向设置,确保没有形成循环。
(4)错误的链接
Google 不喜欢误导性的信息。因此,如果您的网站包含垃圾链接或错误的链接,它会对您网站的索引产生负面影响。例如,您的网页对于一个错误的链接返回一个200 HTTP(正常)代码,而不是一个404(页面未找到)错误。这使得爬虫感到困惑,并在未对您的网页进行索引的情况下离开。
删除这些爬虫陷阱将帮助您的网站更快地被索引。
解决方案:定期使用工具检查死链,并及时修复或删除。
(5)动态生成的内容
动态生成的内容是指通过JavaScript或其他客户端脚本在浏览器端生成的内容,而不是直接从服务器加载的。传统的搜索引擎爬虫可能无法完全执行或解析JavaScript,导致动态生成的内容没有被爬取或索引。此外,动态生成内容可能需要额外的时间和资源,从而增加页面加载时间。
解决方案:
  • 预渲染:使用工具或服务预先渲染页面,使其在不执行JavaScript的情况下也能显示完整内容。
  • 服务器端渲染(SSR):在服务器端生成内容,然后将完整的HTML页面发送到浏览器。
  • 使用动态渲染:对搜索引擎爬虫提供预渲染的版本,而对用户提供正常的客户端渲染版本。
  • 确保重要内容不依赖于JavaScript:对于对SEO至关重要的内容,确保它们不完全依赖于JavaScript来显示。

7. 优化Robots.Txt文件

Robots.txt文件是一个简单的文本文件,它告诉搜索引擎爬虫哪些页面或文件可以或不可以被爬取。
采用以下措施优化Robots.txt文件可以加快或提高收录量:
(1)测试Robots.txt文件:使用Google Search Console中的Robots.txt测试工具来检查您的文件是否有错误,并确保搜索引擎爬虫可以正确解释它。
(2)允许重要内容的爬取:确保您希望被搜索引擎索引的所有重要页面和目录都没有被Disallow指令阻止。
(3)禁止不重要或重复的内容:如果您的网站有大量重复、低质量或不重要的内容(如后台登录页面、临时文件夹等),可以使用Disallow指令阻止搜索引擎爬虫访问,从而节省爬取预算。
(4)指定Sitemap:在Robots.txt文件中指定您的XML站点地图的位置,这可以帮助搜索引擎更快地发现和索引您的内容。
(5)确保文件位置正确:Robots.txt文件应该位于网站的根目录下,例如https://www.example.com/robots.txt。

8. 建立高质量的外链

外链对于加快网站或网页的收录有着直接的影响。这是因为当其他高质量的网站链接到您的网站时,搜索引擎爬虫在爬取这些网站时会发现这些链接,并跟随它们到达您的网站。这意味着,即使搜索引擎原本没有计划很快爬取您的网站,由于这些外部链接,它们可能会更早地访问。
此外,如果一个网站持续获得新的高质量外链,搜索引擎可能会增加对该网站的爬取频率,因为它们认为该网站是活跃且持续更新的。

9. 服务器响应时间 (SRT)

服务器响应时间(Server Response Time,简称SRT)是指服务器接收到请求到返回响应的时间。SRT对于搜索引擎的收录有着直接的影响,原因如下:
(1)爬虫效率:搜索引擎爬虫在有限的时间内爬取大量的网页。如果一个网站的SRT过长,爬虫可能会在等待响应时浪费大量时间,从而减少在其他页面上爬取的时间。这可能导致搜索引擎爬虫在爬取完您网站的部分页面后就离开,而不是继续深入爬取。
(2)爬取预算:每个网站都有一个“爬取预算”,即搜索引擎为其分配的爬取时间和资源。如果服务器响应时间长,爬虫可能会在消耗完预算之前只爬取了部分页面。
(3)可靠性问题:如果服务器响应时间不稳定或经常超时,搜索引擎可能会认为该网站不可靠或不稳定,从而减少对其的爬取频率。
为了确保良好的服务器响应时间,网站所有者应该定期监控其性能,选择高质量的主机提供商,优化服务器配置和网站代码,并考虑使用内容分发网络(CDN)等技术。这不仅可以提高搜索引擎的收录速度,还可以提供更好的用户体验。
# 结语#

据我的观察,大部分已经会建网站的人,很少是因为技术因素导致页面不被收录。如我前面所说,更常见的是因为大量的低质量页面或者重复页面造成页面不被Google收录。如果是重复页面的情况是比较容易处理的。如果基本是页面质量太低,Google完全看不上,那我也真的帮不上忙。

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至 lnkj@3173.top ,我们将及时沟通与处理。 本站内容除了3117站长服务平台( www.3117.cn )原创外,其它均为网友转载内容,涉及言论、版权与本站无关。