怎么避免网站大量重复URL被百度收录?

所属分类: 网站运营 / 网站优化 阅读数: 96
收藏 0 赞 0 分享

  很多同学会有这样的疑惑,索引量工具显示索引量数值很高但流量总也上不去,也没有发现我们站内有低质内容,百度这是要闹哪样?如果各位同学还有工作经验等内容想分享、或者对已有内容持相反意见者,欢迎给站长学院投稿。

  首先声明,我们只谈论有检索意义的URL,也就是用户会从搜索引擎查找的页面。其他页面按照常用的方法做屏蔽就好了。鉴于很多站长都爱讨论整体的收录量,我必须泼一下冷水,也许你的有效收录是1/10。

  URL参数

  也叫URL query,是一个最复杂,最容易被忽视,最容易被妥协的问题。他是网站运营中必不可少的元素,如果简单的去除,其他部门就无法工作了。 静态化是的话题,URL参数经常被用于以下几方面:

  同一个实体的不同状态展示,比如同一个酒店,在不同时间点会有不同的房间库存:http://www.travel.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10

  为了统计不同渠道的流量:http://www.a.com/?tracking=website_a

  为了统计不同渠道,具体模块的点击量:http://www.a.com/?tracking=website_a&click_spot=zone_abc

  调试:http://www.a.com/product/item123/?debug=true

  全世界最奇葩的是亚马逊,居然把统计参数放到了路径中http://www.amazon.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1

  出现这种问题的坏处有几点:

  1. 浪费搜索引擎对你网站的各项配额,从而影响其他正常的页面。

  2. 丢失很多本应拿到的链接加分,站外渠道的链接往往是最优质的。同一个URL的分值可能分散成几十份。

  3. SEO的流量被统计到别的渠道(因为tracking字段写的是别的渠道,而且被收录被点击)

  4. 往往形成一种局面,产品用一套URL,SEO用另一套URL, 甚至不同渠道用不同的URL,后期开发和维护的成本极高。

  为了解决这个问题,首先要弄清URL的定义。以我的理解,每一个URL是一个静态的、独立不重复的、有意义的实体,一般也有检索意义(就是有人会搜)。比如一个人、一辆车、一条道路、一个零件。而不能混入各种"状态",比如这个人生病的时候,难道就不是他自己了么? 一件商品在促销的状态难道是另一件商品了么?

  理论上canonical标签就可以解决这个问题了, 但是从实际测试结果看,百度对这个标签的支持优先级非常低, 几乎可以忽略不计。那么我的解决方案是这样的:

  1. 建立好网站的思维导图和元信息。

  2. 所有和SEO元信息相关的参数都放到路径中去

  3. 所有和SEO元信息不相干的参数都放到#后边,因为#后边不影响web服务器返回的内容。简单的说就是用"#"替代"?"。

  4. 每个页面中都利用js获取#后边的参数对,通过二次请求发回给统计服务器

  5. 如果#后边的参数影响页面内容,比如酒店的入住日期。那么这部分内容用ajax加载就行,他是不稳定的,不属于页面内容的一部分。(当然还有变通的办法,暂不赘述。)

  6. 原始的#锚点定义肯定会冲突,定义一个#后边的变量,并用js控制屏幕滚动,来保证原始锚点的作用。

  有人可能会想到,根据ua判断,如果是搜索引擎爬虫,就用跳转的方式去掉URL参数。但效率最高的方法必然是从一开始就不展示错误URL。那么前面的例子优化后就变成了:

  http://www.travel.com/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10

  http://www.a.com/#tracking=website_a

  http://www.a.com/#tracking=website_a&click_spot=zone_abc

  http://www.a.com/product/item123/#debug=true

  其实很多网站早就使用这种方式了,但是还有很多网站由于开发效率无法及时实现。所以对于一般的小网站,一定要考虑开发成本,不要轻易冒进。只要能避免问题的发生,变通的方法是很多的。

  路径中使用非必要元素

  很多网站仿照亚马逊的做法,把商品名体现在URL中,然后再通过id来决定页面展示的内容:http://www.amazon.cn/博集典藏馆043•基督山伯爵-亚历山大•仲马/dp/B005TZHJEQ/

  这样虽然可以提高一些相关性,但是很危险。在长期甚至短期的时间内,大量商品的名称是非常可能有变化的,那么URL也就跟着变化。成本也是非常高的,因为加大了技术实现难度,不管从站内还是站外,每次增加链接都是一个很麻烦的事情。

  在我接手艺龙SEO之前,URL被全部改成了这样,对我早期的工作造成了非常巨大的负担:http://www.a.com/Shangrila_International_Hotel-12345678-hotel/

  通过日志分析发现基本所有的百度蜘蛛发起的请求都被301跳转了一次(日志分析方法可参考SEO健康度 )。细致调查后发现,从SEO拼接规则到后台的汉字和翻译数据被一直修改也就是说,这个URL相关的元素有:

  1. 中文 (非必要元素)

  2. 由中文翻译的英文 (非必要元素)

  3. id (必要元素)

  而当时负责SEO的同事把英文和id拼接在了URL中,那么这样一个URL先后变成过:

  http://www.a.com/Shangrila_International_Hotel-12345678-hotel/

  http://www.a.com/Xianggelila_International_Hotel-12345678-hotel/

  http://www.a.com/XiangGeLiLa_International_Hotel-12345678-hotel/

  http://www.a.com/Shangrila_guoji_Hotel-12345678-hotel/

  跟"相关性"比,URL的唯一性和稳定性更重要。所以针对这个问题,URL的最佳策略应该是:http://www.a.com/hotel/12345678/

  如果这个id是隶属于一个分类下的,比如城市,那么就可以是:http://www.a.com/hotel/beijing/123/

  从技术角度说, id一般是数据库的primary key,可以是数字也可以是字符串,那么这个时候URL是一维的; id也可以是联合的唯一索引,那么URL就是二维的,就像上面的(bejing,123)缺一不可。电商类网站列表页经常用到三维以上。

  大小写

  如果网站的技术架构用的是开源系统,一般是不会有这个问题的。如果使用了微软的技术架构,这个问题非常常见:

  http://www.a.com/newyork/

  http://www.a.com/Newyork/

  http://www.a.com/NewYork/

  我的建议是统一使用小写,大写自动跳转为小写(小心301死循环!)。

  目录的规范

  很多网站同时存在这样的URL,无形中把收录量扩大了一倍:

  http://www.a.com/product/123

  http://www.a.com/product/123/

  上边第一个路径的意思是在product目录下有一个123文件。第二个路径的意思是在product目录下有一个123目录,这个目录下可能有很多文件,但是他代表众多文件中的index.html或index.php或default.aspx等优先级最高的那个文件。为了避免歧义,我定义文件都是用".html"结尾的。

  为了减少重复收录,那么按我的习惯是:

  http://www.a.com/product/123 => http://www.a.com/product/123/

  http://www.a.com/product/123 => http://www.a.com/product/123.html

  总结

  1. 所有部门统一使用SEO定义的URL,屏蔽非SEO URL的入口。

  2. 用"#"替代"?"

  3. 统一使用小写

  4. 保证目录的规范

  5. 把不规范的URL跳转到规范的URL

更多精彩内容其他人还在看

关于百科做外链的一些看法分析

做网站优化的人都知道一句话就是“外链为皇,内容为王”,这句话的意思是说如果想做好网站的优化,网站不但要有优质原创的内容,还要有一定质量和数量的外部链接
收藏 0 赞 0 分享

浅析SEO常用指令的用法技巧以及出现的问题

现在网络上一些的站长工具层出不穷,功能也越来越丰富,我们可以从这些工具中看到我们网站的一个大体的数据显示,对于我们是有很多帮助的,但是,作为一个SEO从业者,要不断的提升自己,仅仅借助第三方工具是不够的,而且稍微有点麻烦,搜索引擎很好的为我们提供了SEO指
收藏 0 赞 0 分享

学会巧用网站软文营销 助力网站长尾词推广

在如今的互联网时代中,相信每位站长都能够深刻的感觉到,现在的网站优化工作是越来越难做,之前我们自己收藏的一些感觉权重还不错的外链资源如今也被搜索引擎认定为垃圾外链,效果越来越差,网站排名权重也是越来越难做,特别是一些比较热门的关键词更是难上加难,所以
收藏 0 赞 0 分享

解析页面优化的核心是什么

其实,对于网站优化来说,页面优化相对较简单,由于搜索引擎算法技术的提升,在判断网页相关性上做的越来越好,页面优化所涉及的技术细节不用做到面面俱到,而且在SEO越来越崇尚平衡自然的前提下,页面优化做的越细致,越有可能涉及过度优化。所以,对于页面优化来说,
收藏 0 赞 0 分享

菜鸟如何快速学习SEO

现在很多企业开始重视网站优化,SEO人员也开始多了起来,SEO的门槛其实不高,那菜鸟如何快速上手呢?看看这篇文章给大家的一些方法
收藏 0 赞 0 分享

网站经不起风浪 每次更新被降权的原因及其分析

说来也怪有些网站看着不怎么样,更别谈什么用户体验也不必说什么原创文章,就一个很普普通通的网站甚至可以说出自同一个人的首先,但为何网站的命运却不同,面对这百度更新命运往往是“有心栽花花不开 无心插柳柳成荫”究竟是什么原因呢
收藏 0 赞 0 分享

我们究竟该如何优化内容层级结构

从事SEO也有6年之久了,知道了SEO这个东西不是死技巧,做SEO一定要根据你的行业,你的定位,用不同的SEO手法去做,就好比外链的发布,要么你的质量的发,要么你是大量的发,这个根本不是定死的规矩,只是看你会不会灵活运用,今天笔者给大家讲一下如何优化内容层级结构
收藏 0 赞 0 分享

浅谈地方旅游门户网站的页面优化方法

常言道:人靠衣装,佛靠金装,打扮也是很要紧的。这句话充分体现出想要有好的一面就要学会装饰自己,让自己从内到外显得尤为特殊,而对于网站来说也是要遵循这一规则。目前,旅游的黄金假期快要到来,很多地方性的旅游门户网站已经大规模崛起,这也使得地方性旅游网站的
收藏 0 赞 0 分享

探讨seo中与关键词有关的页面排名因素的具体解析

通常,作为网站优化人员都知道,要提高一个网站的关键词排名,就要做好影响关键词排名因素的分析
收藏 0 赞 0 分享

老站如果想获得稳定排名 记住:请切勿优化过度

笔者从事网站优化的工作不知不觉已经两三年了,其中接手过不少老站,发现老站往往会比新站更难优化,原因在于老站很多时候排名会不稳定,有时候在前几页,有时候又会掉到100名之外,让人十分头疼
收藏 0 赞 0 分享
查看更多