首页 首页 >  文章资讯

搜索引擎内容相关性的两种判断方法(关键词匹配和语义分析)

发布时间:2023-11-24 11:01:57 浏览次数:101次

相关性是指页面内容和关键词的关联程度。站在搜索引擎角度上来说,关键词密度、关键词位置和外链锚文本等特征来计算内容相关性。搜索引擎不能够真正地理解搜索词和文章的含义,也就有了站长们的抱怨,“明明原创文章,为什么没有排名!”这样的呐喊。搜索引擎相关性一般会采用关键词匹配和语言分析两种判断方法。

一、关键词匹配

简单模拟一下搜索引擎的检索排序过程:

1、用户提交的搜索词,分解为关键词1和关键词2;

2、搜索同时具备关键词1或者关键词2的页面文件,组成集合C;

3、从集合C中,将同时具备关键词1和2的页面文件组成集B,把只有关键词1或关键词2的页面排在后面。

4、继续对集合B分析,把完全包含用户搜索关键词的文件提取出来组成集合A,排在前面,把内容中没有完全匹配关键词的文件排在后面。

5、再依照以上方法,根据关键词在文件中出现的频次、位置、形式等对文件集合A再进行排序

6、同时还会将外链数量、质量和锚文本,根据锚文本辅助分析文件和关键词的相关度、外链的数据量和质量来确定文件的重要程度,来进行最后的微调排序。

由以上搜索引擎的检索排序过程,我们发现搜索引擎判断一个关键词和文件的相关度,主要还是依据关键词出现的频次、密度(占文件内容的百分比)、关键词是否完全匹配、位置是否靠前、有没有用h标签等着重突出、外链锚文本是否和关键词一致。

外链数量和质量不是判断页面相关性的因素,而是判断文件重要程度、内容质量或可信程度的标准。

在关键词匹配过程中,搜索引擎会确认一个词的词根,词根往往是用户最关心的词语。搜索引擎会忽略词根外的定语,比如“空中草莓园摘草莓”。

词根是空中草莓园,对搜索引擎来说,空中草莓园才是重要的词,摘草莓是次要的词。

通过这个案例我们发现,飘红的字体,重点就是凸显“空中草莓园”,而“摘草莓”则明显进行了弱化,飘红的字段完全不成正比。

而且越往后面翻几页,当没有完全匹配搜索词的网页时,会明显感觉到后面的网页基本都是以“空中草莓园”这个词根,作为主要关键词。

二、语义分析

搜索引擎如果只通过关键词匹配程度和外链作为辅助判断的话,还不能完全了解网页的内容。

一篇关于“IPhone”的文章,通篇都没有提及“苹果”两个字,外链也没有“苹果”的锚文本,就不能把“苹果”和“iPhone”联系起来。

搜索引擎为了提升内容相关性的计算,引入了语义分析技术。

语义分析说白了就是在海量内容的分析中找到词汇间的关联,如果两个词或者几个词经常出现在一个文档中,就会认为语义相关。

就像“pc”和“电脑”、“iphone”和苹果、“羊驼”和“草泥马”......

搜索引擎根据大量信息的分析,就能判断两个或多个关键词存在相关或者同义,这样我们在检索文件时,同义词也会被加入检索。

可以搜索“苹果”,体验一下检索结果的丰富多样性。

所以,搜索引擎会根据内容相关度的高低,来判断页面与目标关键词的相关度。而SEO人员也利用内容相关性的思路,过分地凑“相关度”来欺骗搜索引擎。

搜索引擎也根据这种情况推出一系列的反作弊策略。

‘百度geek说’公众号,也曾对语义分析有过这样一句点评,“语义分析在应用方面是把双刃剑,一方面比传统的反作弊手段具备更好地泛化性能,另一方面随着数据量的增加,索引库也会增加,存在计算复杂的问题。”

三、链接分析

链接是互联网时代的伟大产物,互联网才像一张网一样,相互交连。

网页的链接关系在一定程度上反映了每个页面的重要程度,越是重要的网页获得的链接数量就会越多。同时,链接的属性还有锚文本,用来描述被链接页面的内容,对搜索引擎有着很大影响。

在搜索引擎中,很多链接分析算法,像PageRank算法、HITS算法、SALAS算法、PHITS算法、Hilltop算法等。

诸多的链接算法,目的只有一个,就是帮助用户找到最相关和重要的网页。

链接分站内链接(内链)和站外链接(外链),我们在做SEO的时候,可以为自己的网站不用的页面类型设计一个权值,然后调整站内链接布局,为不同目的、不同竞争强度、不同数量的页面依据设定的权值进行内部链接的导向布局,这也是宏观顺应搜索引擎链接分析的一种做法。

而外部链接的建设思路,则秉持:未被降权、权重高、内容相关的高质量外链即可。


【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至 lnkj@3173.top ,我们将及时沟通与处理。 本站内容除了3117站长服务平台( www.3117.cn )原创外,其它均为网友转载内容,涉及言论、版权与本站无关。