首页 首页 >  文章资讯

搜索引擎网页去重原理(网页去重流程)

发布时间:2023-11-24 11:00:38 浏览次数:108次

是否经常有这样的疑惑,“我发的原创文章,为什么采集的排名比我高?”“我同时发布在百家号、网易号和新浪,会不会导致我网站发的原创排名不好?”今天,竹高信息和大家学习“搜索引擎的网页去重原理”,顺便解开上面两个长期困扰站长们的两个问题!

一、网页去重的流程

同一文章在多个平台同时发布,加上各个SEO的孜孜不倦的采集,造成互联网拥有了大量的重复信息。

当用户搜索某一关键词时,搜索引擎又不想给他推送相同的内容,而且抓取这些重复的信息,还会浪费搜索引擎服务器的资源和算力的损耗。

所以,搜索引擎网页去重技术应运而生。

首先,在蜘蛛的抓取阶段,就开始网页去重了,搜索引擎会将抓取回来的页面进行归类处理,如果一个网站包含大量重复页面,采集或者自身页面重复,那么搜索引擎会对降低该站点的抓取频次或直接屏蔽抓取。

其次,去重的工作会在分词之后,索引之前(也有可能在分词之前,内容处理的时候就开始进行)它会将页面中的核心关键词统计起来,然后计算这些关键词的“指纹”,当新抓取的关键词指纹和已索引页面的指纹有重合,就会被视为重复内容而放弃索引。

如何检测呢?我们将上述的一段话,复制粘贴到搜索框,看飘红的字段,就可以得出内容是否重复!

有点,但还不算严重,出现全部飘红的情况,基本上可以肯定会被搜索引擎判断为重复内容了。

最终,搜索引擎在实际工作中,除了提取有意义的关键词,进行重复内容的判断;还会使用连续切割的方式提取关键词,比如说:“我喜欢SEO工作”就会被连续分隔成“我喜欢”“喜欢SEO”“欢SEO”、“SEO工”、“SEO工作”等字段,然后提取部分关键词进行指纹计算。竹高信息会在单独的指纹算法,进行单独讲解,有兴趣的朋友请移步

二、为什么有些网站采集排名很好?

经常搜索的朋友会发现一个问题,就是有些网页打开的内容质量真的很差,内容也基本采集,但是搜索引擎为什么会给他很高的排名呢?这还得聊到网页去重的原理。

百度等搜索引擎不会对重复内容一棒子打死,而是会根据网站的权重适当放宽索引标准,这也让一些黑帽SEO有了可趁之机,利用网站的高权重,大肆采集微信公众号、头条文章或者其他网站的原创内容,以获得搜索流量。更有甚者,为了躲避指纹算法的识别,直接用伪原创工具搞出一堆狗屁不通的文章获取排名。

不过,百度的去重算法一直在升级,这类作弊站点的生命周期基本都在半年的,所以可以放心,不是不报,时辰未到。

三、自身网站也要定期去重

有些搞平台网站的兄弟,一定明白这个道理,用户在发布内容的时候,如果不规范指导,那么他就会搞出一大批重复的商品页面出来。不仅SEO表现不好,而且用户体验也比较差;

还有一些SEO人员喜欢一个关键词生成大批量的页面,想要进行概率排名;或者说为了搞城市分站,搞出一批质量较低的栏目页或者专题页。

以上种种,都需要我们自身去做网站的去重,否则大量重复的页面,不仅不会提升排名,反而会因此被搜索引擎降权。

有兴趣的朋友想要了解原理,可以看看IMatch、Shingle、simHash及余弦去重算法,相信会有更深层次的认识。

最后,解决开头提出来的第一个问题,原创文章不如采集的关键在于搜索引擎的权重机制,会优先给权重高的网站排名。

第二个问题,会导致原来的文章排名不好,还是权重机制,会优先给百家号排名,然后自身网站质量度还行的话,应该会和网易、新浪产生竞争。所以,竹高信息不喜欢将原创文章立马发到这些平台上,而是等一段时间,搜索引擎能够识别谁是原创以后才会发。



【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至 lnkj@3173.top ,我们将及时沟通与处理。 本站内容除了3117站长服务平台( www.3117.cn )原创外,其它均为网友转载内容,涉及言论、版权与本站无关。