页面解析之搜索引擎技术的排序算法

所属分类: 网站运营 / 网站优化 阅读数: 61
收藏 0 赞 0 分享

  联网的出现和迅速发展使信息检索的环境发生了重大变化。而基于互联网的搜索引擎的排名算法直接关系到用户在新的环境里进行信息检索的使用体验。 现有的搜索引擎排名算法,以基于网页链接结构的算法为主,主要的两种代表性算法是PageRank算法和Hits算法,基于这两种算法国内外许多学者和研究机构又进行了新的探索和改进。

  在此基础上形成了一些适于搜索引擎使用的成熟的综合排名模型。 本文研究分析了国内外搜索引擎的发展背景,以及对搜索引擎排序有重要影响的SEO技术。在此基础之上,对PageRank算法和Hits算法进行了深入的分析。

  一、PageRank

  算法PageRank是最著名的搜索引擎Google采用的一种算法策略,是根据每个网页的超级链接信息计算网页的一个权值,用于优化搜索引擎的结果。由拉里-佩奇提出。

  简单说,PageRank算法是计算每个网页的综合得分数,即假如网页A链向网页B,则网页B加一分,当然。不同链接网页对于指向网页的加分也是不同的,一个页面的得分情况是由所有链向它的页面的重要性经过递归算法得到的。

  PageRank算法的基本原理推导如下:

  PR(A) = (1-d) + d*(PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

  其中,PR(A)是指网页A的PR值。

  T1,T2,...,Tn是指网页A的链入网页。

  PR(Ti)是指网页Ti的PR值(i=1,2,...,n)。

  C(Ti)是指网页Ti的链出数量(i=1,2,...,n)。

  D是一个衰减因子,0<d<1,通常取值为0.85。

  从以上公式可以看出,影响一个网页PR值的主要因素如下:

  (1)该网页的链入数量。

  (2)该网页的链入网页本身的PR值。

  (3)该网页的链入网页本身的链出数量。

  根据上面分析可以判断:一个网页的链入数量越多,这些链入网页的PR值越高,这些网页本身的链出数量越少,则该网页的PR值越高。

  Google给每一个网页都赋予一个初始PR值(1-d),然后利用PageRank算法收敛计算其PR值。

  网页的链入链出关系,时刻都在变化,那么PR值也需要更新,可以用定时任务重复计算后更新,使得网页的最终PR值达到一个均衡稳定的状态。

  Google的查询过程是这样的:首先根据用户输入的查询关键词对于网页数据库中的网页尽情匹配,然后对于匹配到的网页按照其本身的PR排序呈献给用户。

  此外,一个网页在检索结果列表中的位置还与其它很多因素相关,比如检索词在网页中的位置等。

  PageRank的缺陷在于不考虑链接的价值,这对通用搜索引擎比较合适,但对主题相关的垂直搜索引擎而言并不是很好的策略。

  二、HITS

  PageRank算法对于向外链接的权值贡献是平均的,即不考虑不同链接的重要性,但是页面链接中可能某些是广告、导航或者注释链接,平均权值显然不太符合实际情况。

  HITS(Hyperlink Induced Topic Search)算法则是一种经典的专题信息提取策略,能够提高垂直查准率。

  1、原理

  HITS算法由Jon Kleinberg提出,其对每个网页都要计算两个值:权威值(authority)和中心值(hub)。

  (1)权威网页

  一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种网页称为权威网页。

  (2)Hub网页

  提供指向权威网页的链接集合的Web网页,它本身可能并不重要,或者说没几个网页指向它,但是它提供了指向就某个主题而言最为重要的站点的链接集合,这种网页叫做Hub网页。

  (3)算法思想

  首先利用通用搜索引擎得到一个网页的初始子集I,当然I内的页面都是和用户查询条件有很大相关性。然后把I指向的网页和指向I的网页都包含进来,形成基础集合E,E中的每个页面都具有一个authority权值和hub权值,分别记作a和h,a值表示网页与查询条件相关度的高低,h反应的是该页面链出相关度页面的多少情况。a=(a1, a2, ..., an)和h=(h1, h2, ..., hn)代表E中所有网页的authority和hub向量,初始时把所有的ai和hi都设置为1,然后利用下面的公式进行计算:

  其中,B(i)和F(i)分别表示指向该网页的网页链接集合和该网页指向的网页链接集合。用n*n的矩阵A表示集合E的网页节点间的连接,如果节点i和节点j之间有连接,则A[i,j]=1,则A[i,j]=0,因此,上面公式可以表示为:

  迭代计算a和h,直至收敛。这样我们集中求ATA和AAT。最后按照authority和hub值排序,将a和h值大于阈值M的网页挑出来。

  若一个网页由很多好的hub指向,则其权威值会相应增加;若一个网页指向很多好的权威页,则hub值也会相应增加。HITS算法最后输出的一组具有较大hub值的网页和具有较大权威值的网页。

  2、缺陷

  HITS算法在提高一定的垂直查准率的同时,也存在如下缺陷:

  (1)HITS算法忽略了网页内容的差异,对于每个链接网页赋予相同的加权常数,因为每个网页中都会有一些广告链接等非相关的链接网页,这些非相关网页和相关网页同等对待,会容易产生主题漂移现象。

  (2)在开始形成url集合E中,对于初始集合I中网页的一些非相关链接也加入到E中,增加了无谓的下载量,也致使后边更多的无关网页参与到了计算,对准确率存在一定的影响。

  3、改进

  改进方向如下:

  (1)主题漂移

  (2)下载过滤

  以上就是搜索引擎技术之排序算法,虽然公式有点麻烦,但是仔细钻研的话就会有所收获的哦,谢谢大家阅读。

更多精彩内容其他人还在看

百度喜欢这样的网站!

SEO的主要工作其实也就是两方面,一个是站内优化,一个是站外推广。做好这两点,也就真正实现了用户体验度高、对搜索引擎友好的目标,那么相信你的站点也能够获得一个很不错的稳定排名。今天就详细讲述一下站内的优化我们具体应该怎么做。
收藏 0 赞 0 分享

Google算法更新 “鸽子”算法离搜索目标越近排位越高

从 2012 年的“企鹅”开始,谷歌喜欢用一种鸟类来冠名自己的的搜索引擎算法更新。最近更新的“鸽子”算法种它是根据搜索者的地理位置信息重新调整网页的排名。离你搜索的位置越近他的排名就越高
收藏 0 赞 0 分享

不需要增加大量原创内容也能够实现网站排名的上升的技巧分析

很多人每天都会投入数个小时在编写各种网站内容方面,这导致了网站的其他运营出现了严重的时间瓶颈,久而久之会逐渐形成厌烦情绪,最终实现了网站的自杀式断更,于是很多网友都在探讨,能否有一种不需要增加大量原创内容也能够实现网站排名的上升呢
收藏 0 赞 0 分享

网站推广经验实战:百度搜索推广之实操分享

其实百度推广和之前接触过的直通车非常类似,都属于按点击付费的推广方式,下面我们分享了一个实际例子关于百度搜索推广之实操,需要的朋友可以参考下
收藏 0 赞 0 分享

浅谈:网站百度权重的平衡之策

在百度否认权值存在后,现在百度权重又以强势之姿进入了人们视线,原因在于现在很多新站出现了明明上线不到两个月而测试出的数据居然高于很多经营数年的老网站,那么到底是什么决定了网站的百度权重呢?请看下文
收藏 0 赞 0 分享

网站优化实例教程 解读网站搜索引擎和快照的一些问题

有很多人都分不清快照和搜索引擎到底有什么关系?下文我们分别介绍了快照和搜索引擎的定义,同时用实例分析快照和搜索引擎对于网站优化有哪些帮助,需要的朋友可以参考下
收藏 0 赞 0 分享

百度竞价怎么做 ?百度竞价流量环节总结篇

百度竞价怎么做 ?百度竞价的核心是流量,流量就是通过关键词的点击进入到我们推广的着陆页面,今天我们来讨论百度竞价流量阶段的一些问题,需要的朋友可以参考下
收藏 0 赞 0 分享

突破百度外链封锁 将外链打入百度文库、经验的方法分析

在百度旗下的产品如百度知道、文库、空间和经验里面留下自己的外链效果很好,但是现在百度管理的很严格,想留外链不容易啊,下面就来重点讨论一下在百度文库上打入外链的方法
收藏 0 赞 0 分享

内容营销 你知道什么样的内容更轻易获得快速传布吗?

 不论是说什么营销,不论是小站长之间的讨论,还是大集团老总的现身说法,都少不内容营销这个东西。那为什么有些内容疯狂传布,分享爆棚,而有些内容仅仅昙花一现却不能掀起波澜?什么样的内容才会被快速传布呢
收藏 0 赞 0 分享

流量为王是SEO思维的毒药

自从有了微博微信,搜索引擎好像没有那么受宠了,也使SEO也变得更加黯淡无光了。圈子里流传着这样的恐怖气息:没前途了,没饭吃了,SEO要死翘翘了。
收藏 0 赞 0 分享
查看更多