搜索引擎收录网页的四个阶段分析

所属分类: 网站运营 / 建站经验 阅读数: 89
收藏 0 赞 0 分享

网页收录第一阶段:大小通吃
搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是第一阶段。

网页收录第二阶段:网页评级
而第二阶段则是对网页的重要性进行评级,PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是各位热衷的「发外链」,据一位朋友了解,在中国「发外链」这个市场每年有上亿元的规模。    

爬虫的目的就是去下载网页,但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。

网页收录第三阶段:OCIP策略
OCIP策略更像是PageRank算法的改进。在算法开始之前,每个网页都给予相同的「现金」,每当下载某个页面A后,A将自己的「现金」平均分给页面中包含的链接页面,把自己的「现金」清空。这就是为什么导出的链接越少,权重会越高的原因之一。

而对于待抓取的网页,会根据手头拥有的现金多少排序,优先下载现金最充裕的网页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。

网页收录第四阶段:大站优先策略
大站优先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以这个思路虽然简单,但有一定依据。

实验表明这个算法虽然简单粗暴,但却能收录高质量网页,很有效果。这也是为什么许多网站的内容被转载后,大站却能排到你前面的最重要原因之一。

更多精彩内容其他人还在看

网站备案被注销引发网站生存危机 未备案网站该如何运营

从今年年初开始,工信部开展了“清理空壳网站和备案信息不准确的网站”的活动,对空壳类备案数据进行处理,所有网站备案号对应的网站备案信息因无接入或接入信息不准确等原因,备案号都会被注销
收藏 0 赞 0 分享

如何运营地方网站 个人站长的一点经验

09年是区域网站发展最为迅速的一年。很多公司或者个人纷纷投入到地方网站的运营当中。二手网,团购网,论坛如雨后春笋般冒出于网络
收藏 0 赞 0 分享

大量老备案被删除 域名ICP备案开始严查

互联网行业再次严打,又是一次行业大洗牌,很多小站长的生计又完了,可怜的IT达人们
收藏 0 赞 0 分享

从工信部注销备案谈中小站长生存之道 附临时解决方法

最近沸沸扬扬的备案事件让许多小站长伤透了脑筋,却不知道如何应对这种突发事件,就像服务器出问题一样,很多人知道到使用,却不知道遇到问题如何解决
收藏 0 赞 0 分享

做网站,做站长省钱的100个技巧分享

做网站,做站长省钱的100个技巧分享,图王为即将做网站的朋友提供的一些宝贵经验。
收藏 0 赞 0 分享

网站做到简单就是良好的用户体验

互联网上无论是哪一家网站,都会把用户体验放在很重要的位置,无论这个这个网站是提供服务的还是提供产品展示的,一个好的网站,一定离不开好的用户体验。
收藏 0 赞 0 分享

分享被K网站经验 提醒站长吸取教训

其实写这篇文章,我一直在想是把我的网站经历写出来,还是把创业经历写出来,题目也很矛盾,最终定位还是分享网站经验了,目的就是提醒大家吸取教训,SEO和做站都是一个长久的过程,不能急求。
收藏 0 赞 0 分享

小站长该如何选择广告联盟

相信很多中小站长,最头疼的问题就是对于广告联盟的选择了。尤其是对于小站长来说,小联盟存在支付风险,而且会有很多的不良内容,很容易让自己的网站因此被封。
收藏 0 赞 0 分享

浅析网站会进入百度沙盒的原因分析 推荐

首先来介绍什么是百度沙盒?通常百度沙盒的形成原因是因为网站被修改或者进行了作弊而影响了网站快照的正常更新,收录也正常,就是看不到相关的关键词的排名,或者说以前有不错排名的关键词突然就没有了排名!
收藏 0 赞 0 分享

浅谈网站关键词的选取与推广

选取时树干,推广时树枝,只有树枝茂密,才能叫参天大树!那如何做好关键词的推广呢?
收藏 0 赞 0 分享
查看更多