首页 首页 >  文章资讯

爬虫是什么意思-搜索引擎蜘蛛工作原理

发布时间:2023-11-24 10:33:34 浏览次数:114次

第一次听到sipder的时候,还是小学看spiderman(蜘蛛侠),在大学毕业后,从事了SEO,便于spider结下了不解之缘。

SEO人口中说的的spider,也称为网络蜘蛛、爬虫,是搜索引擎最顶端的一个模块程序,它能够模拟用户浏览网页的行为,抓取网页上的内容,包括文本、图片、视频等等,然后将这些内容发送给搜索引擎的索引服务器,从而使搜索引擎能为用户提供搜索服务。

简单来讲,你也可以将蜘蛛理解为一个照相机,我们在搜索引擎中搜索的数据,并非一个实时数据,而是通过蜘蛛对全网内容进行抓取,你可以将这个过程理解为拍照,蜘蛛将照片放到数据库中进行归类,当有用户在搜索关键词的时候,搜索引擎就会将这些归类的照片呈现给用户,用户在点击照片后,这些照片会直接跳转到你的网站上面,所以网站在做SEO的第一步,就是要先做收录,要让蜘蛛进入你的网站进行抓取,然后将你的网页也就是网页照片放到你的数据库中,当有用户搜索的时候,才会将内容呈现给用户看。(网页快照的由来~)

一、搜索引擎蜘蛛的工作原理

1、蜘蛛想要抓取网页,需要一个抓取的网页URL入口,用过火车头/八爪鱼等采集工具的同学应该都知道,要先给它一些网页入口,然后蜘蛛会顺着这些入口进行策略爬行和抓取。

2、蜘蛛需要对不同网页的抓取频率不同,这样可以更新索引库内容的时效性,让该更新的更新,不该更新的占用蜘蛛资源的网页就停止更新。

但是,对于有些删除掉内容的网页,但页面依然存在搜索结果中的情况,蜘蛛又是一个什么样的策略呢?

按照网上所有spider的作用和表现出来的特征,可以分为三种类型:批量型、增量型和垂直型。

批量型蜘蛛:限制其抓取范围、目标、抓取时间、数据量、页面数量等,当蜘蛛完成预设目标就会停止,站长们用的基本上都是这类蜘蛛采集程序,批量型蜘蛛一般只能抓取固定网站、内容或者固定目标数据量。

增量型蜘蛛:增量型蜘蛛和批量型蜘蛛不同,它没有固定目标、范围和时间的限制,会无休止地爬取全网数据,直至爬完为止。一般搜索引擎用的都是增量型蜘蛛,这种蜘蛛也被称为“通用爬虫”,不仅能抓取到尽量全的网页,还会对已抓取的页面进行再次抓取和更新。有的网站把内容给删了,增量型蜘蛛也能即时发现这种变化,并反馈给搜索引擎做后续的重新处理,像百度、谷歌等全文搜索引擎的spider,基本上都是增量型蜘蛛。

垂直型蜘蛛:一种只对特定主题、内容或行业的网页进行抓取,不追求大而广的覆盖面,而是根据需求抓取含有目标内容的网页,所以也称为“聚焦爬虫”。对于纯文本/图片/视频,垂直型蜘蛛还不能做到100%分辨,这也是为什么有些内容即使内容再差,也能排名很好的原因。

在工作分配上,可以先利用增量型蜘蛛找到内容分类明确的URL,然后再利用垂直型蜘蛛抓取符合的内容,垂直型蜘蛛也需要进行内容判断——会将符合需求的网页抓取,不符合的网页就直接放弃,工作量上来说已经优化很多。谷歌、百度等搜索引擎都有垂直型蜘蛛,而且对网页的辨识度比增量型要高很多,这也表明了一点,垂直类搜索引擎上SEO还大有空间。

二、蜘蛛的抓取策略

大型搜索引擎的蜘蛛抓取策略有很多,而且都比较复杂,所以竹高信息将通用抓取策略放出来,方便大家理解。

1、避免重复抓取

蜘蛛为了避免重复抓取,会建立一个已经抓取的URL一个表,待抓取的URL一个表(实际是哈希表来记录URL状态),在抓取到一个新页面时,会将抓到的和提取到的链接一个个比对,如果发现已经抓取过了,就直接丢弃;如果没有被抓取过,就会让道未抓取的URL列表末位等待抓取。

2、蜘蛛眼中的网页

在搜索引擎蜘蛛眼中,只有已抓取页面、未抓取页面、可抓取页面这3类。

已抓取页面:已经抓取过的页面

未抓取页面:URL已经被蜘蛛放到了待抓取列表中,还没有被抓取。

可抓取页面:根据网络上的链接关系,找到了这些页面,不过还不知道这些页面是否已经被抓取过了?

3、蜘蛛的抓取路径

当蜘蛛从一个入口链接开始抓取的时候,会获得这个页面上所有的到处链接,然后它会有两个选择:

①深度优先策略。举个例子,我刚上大学,先是认识了张三,张三认识李四、王五,我选择李四认识,然后李四认识赵六和孙七,我再选择赵六认识...直到班上所有同学都认识完为止。

②广度优先策略。还是我刚上大学,先是认识了张三,我直接把张三宿舍的同学认识完了;然后找到李四,再把李四宿舍的同学认识完了...直到班上所有同学都认识完为止。

但是这种方案,认识一个班同学还好,认识整个学校的同学未免太慢了一些,所以搜索引擎有了接下来的两种策略:

①重要页面优先策略。我直接先找重要的人,比如教务主任、学生会会长、超市老板,通过重要的人来实现快速扩展人脉。

②大站优先策略。我直接找平台,比如校运会,大家基本都会来,我直接跟校运会合作,认识人也会来得比较快。

所以,搜索引擎蜘蛛的策略也没想象中的那么复杂,结合到现实生活中,也颇有佐证,接下来竹高信息将详细讲解,这4种策略的SEO用法。

搜索引擎不能够只采用深度和广度策略,这样只会无限制地进行抓取新页面,所以蜘蛛会在域名级的页面使用广度优先抓取策略,尽可能搜集到更多的网站。而对于内页级别的时候会使用广度和深度结合的抓取策略,也就是说,网站权重越高,抓取量就越大,刚上线的网站可能只会被抓取到首页,这也是为什么在搜索中只被索引首页的原因之一。

而且,以上的设定,还是搜索引擎单纯地只想抓取全网数据的情况下,实际上搜索引擎蜘蛛会尽力保证抓取的全面性,所以在 ‘尽力’抓取全网页面的同时,会优先抓取重要页面,该页面内容具备影响力较大、需要了解该页面内容的网民较多和时效传播性较强的特点。体现到抓取策略上,会发现一个明显特征:导入链接很多(也就是外链很多),排序的依据是页面获得已抓取链接的多少和链接权重的高低。也就是说,想要打造重要页面,就要多建设已经被抓取的链接的投票、权重和数量。

搜索引擎还会对大站平台格外青睐,像新浪、网易等平台有着优秀的用户体验、稳定的服务器、良好的站内框架、及时的资讯内容、权威的相关资料、丰富的内容类型和庞大的网页数据等特征。因此,新浪、网易类型的大站上的内容享受秒收录,spider在这些网站上都是不间断抓取的,如果有新站的链接出现在这些网页上,几乎也是被快速抓取和收录的。

从蜘蛛的抓取策略上我们也可以看出,依靠外部链接来引导spider和提升网站权重,以及长期内容运营网站权重的重要性了。

三、蜘蛛其实不会“爬”!

搜索引擎蜘蛛在抓取一个网页之后,会优先将该网页中所有的URL提取出来,然后记录这些URL的格式、所在位置、锚文本和权重值,然后统一放到抓取队列里面,根据总权值会对它们进行一个排序,所以蜘蛛是不会“爬”的!

它的抓取URL列表一直是动态的,权重高的待抓取页面享受优先权,而权重低的URL页面则要往后,它并非是通过一个页面沿着链接再爬向另一个页面的,站长也可以根据网站日志,看到蜘蛛的访问并没有refer,而都是直接访问的。

四、蜘蛛的SEO误区

我们经常会看到一些SEO培训讲师,说到“蜘蛛陷阱”这个词,按照他们的说法,“蜘蛛掉到陷阱以后,会一层一层地无限抓取下去,蜘蛛掉进去就出不来了,一直在无限循环的抓取网页内容。”

其实不然,蜘蛛是不会爬的,它会将一个页面中的链接批量下载下来,根据总权值放到URL抓取列表中排序,如果一个网站有很多无意义的URL并放到列表的话,比如死链接、被删除内容的链接、错误生成的链接等等,这些无意义的链接会占用蜘蛛抓取资源的浪费。

所以,蜘蛛抓取频次代表了今天有多少蜘蛛抓取了页面,网站内容越小的网站,抓取频次就会越低;而网站内容越多的网站,抓取频次就会越高的原因了。

也就是说,蜘蛛对于网页的抓取都是单次抓取某个URL作为入口,然后批量下载上面的URL作为待抓取链接,而不是派出一个小蜘蛛,沿着网页的链接,抓取大量的页面再返回给服务器,不是这样的!

五、索引页面的更新策略

之前竹高信息有讲过精品站策略,其中有一点,就是要把过时的内容或者不合适的内容,重新创作。互联网的内容也是动态多变的,甚至网页会有被删除的情况。

搜索引擎蜘蛛抓取并存放在服务器里面的是“副本”,也就是网页快照,从理论上来说,“副本”应与网页内容实时一致才对,但各个搜索引擎的spider资源都很有限,很难做到也没必要做到实时检测全部索引网页的所有变化。搜索引擎只需要为spider设置一个再次抓取和更新页面的策略就行了。

站在蜘蛛的角度,一般会根据4个方面来确定再次抓取的频次:

①用户体验。整个互联网的网页是不可计数的,也被百度等搜索引擎抓取并索引的中文网页应该也是万亿级别以上的,但是用户所需要的信息只是一小部分,而且大部分用户的搜索习惯都在前3页,超过3页就大可能会继续了,而是换个关键词继续搜索。与此同时,搜索引擎为了满足大多数用户需要内容的原则,会把用户查询结果的前几页,都值得搜索引擎蜘蛛优先再次抓取和更新。理论上,网页被搜索的次数越多,再次被抓取的频次就越高。

②历史更新频率。搜索引擎会根据这个网页的历史更新频率,得出一个趋于平均的值,如果某个网页持续没有变化,搜索引擎可能会降低对其的抓取频率,甚至再也不对它进行抓取,这个策略是建立在对已索引的网页基础上的。如果蜘蛛发现了一个新URL并索引后,大概率会很快进行二次抓取。如果内容没有变动,就会降低其抓取频次,这样会总结规律,将抓取频次调整到最佳。蜘蛛注重的变化是内容主体部分,主体周围的广告模块、导航模块和推荐模块会自动忽略。

③网页类型。不同的网页类型有不同的抓取频次,即使同一站点,也是如此,网站首页、目录页、tag标签页、产品详情页、文章详情页的更新频率肯定是不同的,像栏目页和首页,只要发布内容,主体就会发生变化,所以这两块是搜索引擎蜘蛛经常光顾的页面;专题页会在一段时间内更新频率很高,所以蜘蛛也会在一段时间频繁抓取,时效性过期后就会降低其抓取频率;文章页面的话,蜘蛛很可能来过一次后就不会再来了。

④网页权重。网页权重在一定程度上反应了用户的体验,所以在网页类型相同、历史更新频率差不多的情况下,无疑是权重越高的网页被抓取的频率越高。像chinaz、好123的首页都几乎都没更新,但是它们的快照一直是最新的,而普通企业网站的快照甚至要一两个月才更新一次,这也反映了网页权重对抓取频次的影响。

由此可得,SEO工作中为了提高某一网站的抓取频次,工作内容如下:

1、为该页面建立大量外链提高权重,努力加大该页面的更新频率

2、提高用户体验和改变网页类型,比如说文章页变成栏目页,栏目页变成二级域名;同时增加页面价值和用户停留的时间等等。

3、标题上多花些心思,吸引用户点击可以增加用户体验;对于不同关键词使用不同的网页类型,梯度建设关键词词库,这些都需要仔细考虑。

有许多网站,包括一些SEO排名不错的企业网站,一昧的使用快速排名等手段,而页面内容又比较单调,整个页面就是各种列表页和没有意义的内容页,竹高信息发现这类网站的时效性都比较有效,或者损害用户体验后会被降低抓取的频率。无论如何,优秀的网站架构应当合理利用蜘蛛抓取策略的各种特性。

六、分布式蜘蛛和降权蜘蛛

蜘蛛要抓取的网页实在太多,如果只是某一个ip的蜘蛛进行抓取动作,就需要耗费非常巨大的算力,同时也会消耗太多抓取时间。

所以就有了分布式蜘蛛,将庞大的作业分解成许多个小的部分,然后每个蜘蛛来承载一部分的任务,它遵循了分布式计算的主要规则。通过这些规则也解释了大家关心的“降权蜘蛛”问题。

分布式蜘蛛不仅做到了作业不重复,而且每个蜘蛛都各司其职,都会只抓取自己指定类型的网页。一般来说,搜索引擎会将网页进行下面三种分类:

1、按照优秀站点,普通站点,垃圾站点,降权站点和被K屏蔽站点等站点质量等级分类;

2、按照网站首页、目录、内容详情页、专题页、视频、图片、新闻、行业资料、其它类型的网络文件(PDF/Word/excel)等网页类型分类;

3、按照网页所在行业分类。

在蜘蛛设计中,为了减少和被抓取站点的握手次数,站点级别相关的分类应该是被优先使用的,所以很多站长都会发现搜索引擎的蜘蛛经常是同一ip段的,但是不同网站的ip段又并不相同。

理论来说,可以通过这种方法找到哪个ip段的蜘蛛只抓取权重高的网站,哪个ip段的蜘蛛只抓取被降权或者被屏蔽的网站。

不过上面这种说法,至今也只是猜测阶段,需要证实的话难度太大。

七、蜘蛛和用户的区别

几乎所有中文搜索引擎都说和用户没啥区别,实际上,蜘蛛和用户的区别还挺大的,蜘蛛虽然有着用户访问行为的一些特性,但也有较大的差异:

①蜘蛛能分辨网页是否有隐藏内容,比如黑链接等,但不能了解图片中的内容意义,更不能读取javascript、iframe、ajax和flash之中的内容。

②蜘蛛对于同一内容但动态生成URL的抓取,可能会陷入到循环之中,但是用户不会。

③蜘蛛对于新内容的抓取不太友好,经常不给索引,而是放到收录的临时库中;而用户则会以此浏览。

④蜘蛛不能判断文章是否原创和内容质量,但用户可以判断是原创还是转载。

八、搜索引擎蜘蛛总结

蜘蛛毕竟是人为的产物,和用户有着巨大的差别。当SEO人员充分了解到蜘蛛和用户的差别后,可以更方便的优化网站,使得网站内容被充分抓取。

当然不排除有些SEO采用作弊手法,误导蜘蛛对网站内容的判断,恶意抢走许多不应得的搜索流量,这种做法本身并不可取。


【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至 lnkj@3173.top ,我们将及时沟通与处理。 本站内容除了3117站长服务平台( www.3117.cn )原创外,其它均为网友转载内容,涉及言论、版权与本站无关。