Google蜘蛛爬虫可以运行网页中的JS脚本和CSS样式

所属分类: 网站运营 / 网站优化 阅读数: 69
收藏 0 赞 0 分享

旧观念

在我的既有观念中,搜索引擎的网页爬虫/蜘蛛/机器人(Crawler/Spider/Robot)只抓取页面的 HTML 代码,对于内部或外部的 JS 与 CSS 代码是一律无视的。所以我们也经常会说,Ajax 不利于搜索引擎的抓取,不利于 SEO。

因为在我们看来,搜索引擎爬虫毕竟不是功能强大的浏览器,它无法运行 JS,也无法渲染 CSS。那些五彩缤纷的页面,在爬虫眼中不过是纯粹的文本流(或包含了结构标记的文本信息流)而已。

然而,近期看到的两则关于 Google 的新闻,彻底颠覆了我对搜索引擎爬虫的认知。

新闻一

一段来自 Google 资深工程师 Matt Cutts 的视频震惊了我。Matt 告诫我们,不仅文本与背景同色、字体大小设置为 0、用 CSS 隐藏文字等等这些伎俩已经是小儿科了,而且 Google 现在还可以识别通过 JS 来隐藏文字的作弊方法。

在视频中,一段隐晦的 JS 代码将某元素的 .style.display 属性设置为 'none',试图隐藏那些只打算提供给搜索引擎、而不展示给用户的文字。Matt 表示,这种作弊方式现在已经瞒不了 Google 了。

新闻二

新闻二更加恐怖,据说 Google 可以抓取 Ajax 内容!该文表示,给 URL 的 hash 部分加上特定的标识符(即 domain.com/#abc 改为 domain.com/#!abc),会让 Googlebot 领悟到该 URL 是一个 Ajax 页面(而非页面中的锚点),并进行抓取。

你可能对 Google 的这一技术改进没多少兴趣,但你肯定注意到了问题的本质:Googlebot 可以抓取 Ajax 内容,也就是说,Googlebot 完全有能力运行页面中的 JS,而且功能完善!

爬虫与浏览器

如果这两则新闻都是真的,那么,从某种意义上说,爬虫的行为和能力已经与浏览器越来越接近了。这也意味着,搜索引擎爬虫将抓取更多的内容(包括 JS 和 CSS 文件),网站的流量负载将会加大。

另一方面,爬虫在抓取页面的过程中也将产生更多的资源消耗——毕意仅仅处理文本信息的资源开销要远远小于完整地渲染页面和运行客户端程序。

因此,我目前仍然对这两则新闻半信半疑。难道这是 Google 放出的烟幕弹?或者是好事者炮制的假新闻?如果 Googlebot 真的已经具备了运行 JS 或渲染 CSS 的能力,那么为了将资源开销控制在合理的范围内,或许 Google 会在内部启用黑/白名单机制?

站长们

如果担心爬虫对主机流量的侵蚀,或许可以考虑在 robots.txt 文件中禁止爬虫对 *.js*.css 文件的抓取。不过暂不确定这样做是否存在不良的副作用。

或许也有人会担心,正常的页面布局有时候也需要使用一些隐藏文字的手段,比如 【CSS 图代文】、【隐藏模块的 hx 标识信息】等等。这样会不会被 Google 判定为作弊呢?

我相信对于像 Google 这样“聪明”的搜索引擎来说,它即然有能力让爬虫运行 JS 和 CSS,它也必然有能力来判断什么是作弊、什么是正常的布局需要。所以我觉得站长们大可不必惊慌,平常该怎样就怎样,身正不怕影斜,规则总是用来约束那些“不法之徒”的。

所以,对于某些 SEOer 来说,这似乎是个坏消息。如果他们还在考虑是否还有新的作弊方案,那么我觉得意义不大。很显然,SEO 作弊手段的生存空间将越来越小,与此同时,网站自身内容的价值才是 SEO 的真实基础。

更多精彩内容其他人还在看

采用正当网站策略来优化网站的方法(图文)

网站优化中需要注意哪些策略呢
收藏 0 赞 0 分享

对淘宝网搜索规则以及排名规则的探讨(图文)

把淘宝的搜索规则弄懂了.才会更有利于商品的排名及名称优化
收藏 0 赞 0 分享

百度知道做电影流量关键词的技巧分析

 现在做关键词的手段各式各样,最终的目的还是为了流量。一部热门影片的搜索指数高到吓人,但能够出现在百度搜索结果前列的个人网站并不多,大部分都是百度百科,时光网,贴吧,大牌视频网站。
收藏 0 赞 0 分享

SEO是什么?SEO搜索引擎优化相关术语介绍

SEO(Search Engine Optimization),汉译为搜索引擎优化,是较为流行的网络营销方式及NNT流量,主要目的是增加特定关键字的曝光率以增加网站的能见度,进而增加销售的机会
收藏 0 赞 0 分享

6.22百度k站事件给我们的反思 做优质内容站

相信大家最近一段时间都知道6.22 6.28百度地震的事件吧。最近我在一些seo论坛和一些站长论坛听到很多人都说百度从6月22日开始很多网站被k了,相距6月28日又有很多站长反应被k站的问题
收藏 0 赞 0 分享

百度最喜欢什么样的网站分享

其实不论是什么网站,只要用户喜欢,自己热爱的网站,能帮助到别人的网站就是好网站,自然也就百度喜欢了,坚持与优质内容
收藏 0 赞 0 分享

链接的数量、广泛多样化是把双刃剑 成功要得法

搜索引擎越来越重视用户体验已经是个趋势,但是这并不能否定链接和原创内容的重要性
收藏 0 赞 0 分享

让你更好的利用外链资源做网站推广(四点原则)

外链在网站推广中的作用大家都是知道的,那么关于外链资源的应用有哪些方法和技巧呢,武汉seo公司要是能够运用好外链资源,seo优化就能起到事半功倍的作用
收藏 0 赞 0 分享

网站上线后应按照方法做seo推广工作小结

刚刚新建起来的一个网站,下一步的工作就是做好网站推广了,那么网站推广工作的展开要怎么开始呢,所要做的基本工作是哪些,下面武汉seo公司就为新手朋友做个简单介绍吧
收藏 0 赞 0 分享

利用相关性提高网站关键词排名的方法

大家都知道网站的相关性对整个网站的专业性,网站的权威性,网站的权重高低都有一个非常重要的评价,如果我们能从网站的主题,内容,以及外链等加以深化做到相关性非常高的话对网站关键词排名是非常有好处的
收藏 0 赞 0 分享
查看更多