页面解析之搜索引擎技术的排序算法

所属分类: 网站运营 / 网站优化 阅读数: 117
收藏 0 赞 0 分享

  联网的出现和迅速发展使信息检索的环境发生了重大变化。而基于互联网的搜索引擎的排名算法直接关系到用户在新的环境里进行信息检索的使用体验。 现有的搜索引擎排名算法,以基于网页链接结构的算法为主,主要的两种代表性算法是PageRank算法和Hits算法,基于这两种算法国内外许多学者和研究机构又进行了新的探索和改进。

  在此基础上形成了一些适于搜索引擎使用的成熟的综合排名模型。 本文研究分析了国内外搜索引擎的发展背景,以及对搜索引擎排序有重要影响的SEO技术。在此基础之上,对PageRank算法和Hits算法进行了深入的分析。

  一、PageRank

  算法PageRank是最著名的搜索引擎Google采用的一种算法策略,是根据每个网页的超级链接信息计算网页的一个权值,用于优化搜索引擎的结果。由拉里-佩奇提出。

  简单说,PageRank算法是计算每个网页的综合得分数,即假如网页A链向网页B,则网页B加一分,当然。不同链接网页对于指向网页的加分也是不同的,一个页面的得分情况是由所有链向它的页面的重要性经过递归算法得到的。

  PageRank算法的基本原理推导如下:

  PR(A) = (1-d) + d*(PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

  其中,PR(A)是指网页A的PR值。

  T1,T2,...,Tn是指网页A的链入网页。

  PR(Ti)是指网页Ti的PR值(i=1,2,...,n)。

  C(Ti)是指网页Ti的链出数量(i=1,2,...,n)。

  D是一个衰减因子,0<d<1,通常取值为0.85。

  从以上公式可以看出,影响一个网页PR值的主要因素如下:

  (1)该网页的链入数量。

  (2)该网页的链入网页本身的PR值。

  (3)该网页的链入网页本身的链出数量。

  根据上面分析可以判断:一个网页的链入数量越多,这些链入网页的PR值越高,这些网页本身的链出数量越少,则该网页的PR值越高。

  Google给每一个网页都赋予一个初始PR值(1-d),然后利用PageRank算法收敛计算其PR值。

  网页的链入链出关系,时刻都在变化,那么PR值也需要更新,可以用定时任务重复计算后更新,使得网页的最终PR值达到一个均衡稳定的状态。

  Google的查询过程是这样的:首先根据用户输入的查询关键词对于网页数据库中的网页尽情匹配,然后对于匹配到的网页按照其本身的PR排序呈献给用户。

  此外,一个网页在检索结果列表中的位置还与其它很多因素相关,比如检索词在网页中的位置等。

  PageRank的缺陷在于不考虑链接的价值,这对通用搜索引擎比较合适,但对主题相关的垂直搜索引擎而言并不是很好的策略。

  二、HITS

  PageRank算法对于向外链接的权值贡献是平均的,即不考虑不同链接的重要性,但是页面链接中可能某些是广告、导航或者注释链接,平均权值显然不太符合实际情况。

  HITS(Hyperlink Induced Topic Search)算法则是一种经典的专题信息提取策略,能够提高垂直查准率。

  1、原理

  HITS算法由Jon Kleinberg提出,其对每个网页都要计算两个值:权威值(authority)和中心值(hub)。

  (1)权威网页

  一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种网页称为权威网页。

  (2)Hub网页

  提供指向权威网页的链接集合的Web网页,它本身可能并不重要,或者说没几个网页指向它,但是它提供了指向就某个主题而言最为重要的站点的链接集合,这种网页叫做Hub网页。

  (3)算法思想

  首先利用通用搜索引擎得到一个网页的初始子集I,当然I内的页面都是和用户查询条件有很大相关性。然后把I指向的网页和指向I的网页都包含进来,形成基础集合E,E中的每个页面都具有一个authority权值和hub权值,分别记作a和h,a值表示网页与查询条件相关度的高低,h反应的是该页面链出相关度页面的多少情况。a=(a1, a2, ..., an)和h=(h1, h2, ..., hn)代表E中所有网页的authority和hub向量,初始时把所有的ai和hi都设置为1,然后利用下面的公式进行计算:

  其中,B(i)和F(i)分别表示指向该网页的网页链接集合和该网页指向的网页链接集合。用n*n的矩阵A表示集合E的网页节点间的连接,如果节点i和节点j之间有连接,则A[i,j]=1,则A[i,j]=0,因此,上面公式可以表示为:

  迭代计算a和h,直至收敛。这样我们集中求ATA和AAT。最后按照authority和hub值排序,将a和h值大于阈值M的网页挑出来。

  若一个网页由很多好的hub指向,则其权威值会相应增加;若一个网页指向很多好的权威页,则hub值也会相应增加。HITS算法最后输出的一组具有较大hub值的网页和具有较大权威值的网页。

  2、缺陷

  HITS算法在提高一定的垂直查准率的同时,也存在如下缺陷:

  (1)HITS算法忽略了网页内容的差异,对于每个链接网页赋予相同的加权常数,因为每个网页中都会有一些广告链接等非相关的链接网页,这些非相关网页和相关网页同等对待,会容易产生主题漂移现象。

  (2)在开始形成url集合E中,对于初始集合I中网页的一些非相关链接也加入到E中,增加了无谓的下载量,也致使后边更多的无关网页参与到了计算,对准确率存在一定的影响。

  3、改进

  改进方向如下:

  (1)主题漂移

  (2)下载过滤

  以上就是搜索引擎技术之排序算法,虽然公式有点麻烦,但是仔细钻研的话就会有所收获的哦,谢谢大家阅读。

更多精彩内容其他人还在看

SEO新站点nofollow标签的妙用

Nofollow是最早由Google领头新创的一个标签,目的是尽量减少垃圾链接对搜索引擎的影响。近日有网友咨询nofollow标签怎么用?今天我们就来看看SEO新站点nofollow标签的妙用有哪些
收藏 0 赞 0 分享

针对SEO所必备的搜索引擎工作原理知识

这篇文章主要介绍了针对SEO所必备的搜索引擎工作原理知识,简单地讲解了搜索引擎处理数据的一般流程,帮助SEO者针对搜索网站进行相关优化,需要的朋友可以参考下
收藏 0 赞 0 分享

网站为何被降权?网站降权诊断分析以及恢复排名操作

网站降权是指搜索引擎对网站评定的级别下降,是搜索引擎对网站进行的一种处罚方式,导致网站整体排名下降,但通常多为网站自身作弊导致的,改正错误一段时间后会自行恢复,本文将提供网站降权诊断分析以及恢复排名操作供大家了解,希望对大家有所帮助和启发
收藏 0 赞 0 分享

网站SEO优化最容易进入的四个误区

我们发现一个网站经常优化过后排行和收录还是不好,今天我们就用一个广告衫网站seo的几个错误点作为实例,来个大家分析网站SEO优化绝对不能进入的误区,需要的朋友可以参考下
收藏 0 赞 0 分享

SEO友情链接交换技巧 专业SEO交换友情链接必须要知道的一些SEO知识

友情链接是网站和网站之间优势互补的一种比较便捷的合作形式,其操作形式是分别在自己的网站上放置对方网站的LOGO链接或锚文本链接,这样可以达到互相推广的目的,因此常作为一种网站推广最基本手段
收藏 0 赞 0 分享

网站不收录的因素有哪些 如何注意

常常会有人问到网站为什么不收录,网站为什么收录这么少的问题,其实网站的收录并不与排名有直接的联系,那么本文来分析网站不收录的因素有哪些,感兴趣的小伙伴们可以参考一下
收藏 0 赞 0 分享

新手必读:百度下拉框暗藏的SEO技巧

随着百度算法的调整,搜索引擎的宗旨就越来越明显,“客户体验度”自然被很多站长摆在桌面,那么作为一个SEO人员,百度下拉框暗藏什么SEO秘诀呢?本文将提供相关内容供大家了解,希望对大家有所帮助和启发
收藏 0 赞 0 分享

如何挖掘网站长尾关键词?58同城seo优化解析详解

一个网站想要获得海量的流量,就一定要懂得做长尾关键词的排名优化。那么什么是长尾关键词呢?如何挖掘网站长尾关键词?本文将提供58同城seo优化解析详解供大家了解,希望对大家有所帮助和启发
收藏 0 赞 0 分享

营销技巧:如何做到半年不更新文章和发布外链都能稳定排名

刚刚接触营销知识的时候,完全不知道营销知识和SEO有半毛钱关系,但很多排名大咖都是靠营销结合SEO进行操作,有时候就纳闷了,为何人家半年不更新一篇文章,每天流量爆满,本文将提供相关经验供大家了解,希望对大家有所帮助和启发
收藏 0 赞 0 分享

安全宝CDN加速服务的配置和使用攻略

这篇文章主要介绍了安全宝的CDN加速服务的配置和使用攻略,文中还讲到了安全宝的防盗链和云web防火墙等附加功能,需要的朋友可以参考下
收藏 0 赞 0 分享
查看更多