Google 处理采集数据的一些分析

所属分类: 网站运营 / 网站优化 阅读数: 81
收藏 0 赞 0 分享

点击跟踪

Google logs 把全部用户在其服务产品上的引导点击(广告,行动,功能点击等等)都记录起来。

形式 -随着用户输入数据的形式直接进入(用户名,密码等),Google 记录了时间和日期以及提交的位置。

google form Google 邪恶的一面:Google 用户数据采集大揭秘

注册 Google 帐号时的表单

输入类型是隐藏的,使用户不会看到或进入特定领域的数据

向用户发送后提交 (隐藏) 的位置

输入类型是隐藏的,所以用户不会看到或进入到特定数据里头。

用户使用引用数据,并通过表格获得怎样才把”注册”放在什么位置用户会点击

Cookies

Google 把它所有网站属性的 Cookie 都用上了,此外,他还留下了广告 Cookie 来跟踪用户在网站上的行为。通过这种方法,Google 就可以在有 doubleclick 和AdSense 广告的网站下跟踪该网站上任何一个用户的网站行为。

google cookies Google 邪恶的一面:Google 用户数据采集大揭秘

存储的cookies列表

存储在日志文件的服务器请求

每一个向 Google 服务器发出的请求都存储在日志文件里头,而存储的内容取决于发出请求的类型。

google log Google 邪恶的一面:Google 用户数据采集大揭秘

日志文件

URL - http://www.google.com/search?hl=en&q=seomoz&ie=UTF-8

从用户付出的请求而获得的 IP 地址,可以根据这个IP 地址定位该用户的具体地理位置。

日期,时间和时区偏移的用户

用户的语言

用户的操作系统

用户的浏览器

其他信息就没有那么重要但是必须具体的描述向服务器发出的请求,服务器的响应和转译引擎。

Javascript

Google 有小部分的 JavaScript 已经嵌入到互联网上众多的网站上面。当用户的浏览器执行背景中的脚本时候,Google 就能够知道很多关于这个用户浏览习惯等重要信息(地理位置,操作系统,浏览器类型和版本等)

网站信标

Google 向很多结算屏幕嵌入小尺寸的透明 gif 图片,就好像 JavaScript 一样,一个用户下载隐形的图片并且向 Google 发送他们的电脑信息。

网站信标样例(什么?你看不到?这才是重点)

了解一下 Google 是怎样处理这些数据

存储

Google 使用一个内部数据库叫 BigTable 扩展到近乎 100W 个服务器

Google Data In 2006

 

Data

Size (TB)

Crawl Index

800

Google Analytics

200

Google Base

2

Google Earth

70

Orkut

9

Personalized Search

4

这压缩的数据的大小接近 TB(1024GB)。而 Google 透露的数据大小超过 1PB(1048576GB)。这甚至不需要考虑 AdSense,Gmail,Google Map,街景,Google图片,或者其他私有数据库。并且这些数据都是超过2年前的。

大量的数据分析

这就有点像 Charlie and the Chocolate Factory (电影《查理与巧克力工厂》)。我们都知道有很多数据都进入到 Google 那里,我们也知道有大量处理好的数据会导出来。我们就只是不知道两者之间是发生了什么,是怎么转换的。

我们也知道 Google 本身有很多运算法则组织他的数据,Page Rank 就是最出名的了。据说,Google 也有很多复杂的 spam 的过滤系统,内容复制过滤系统,类型侦查运算法则,自然语言解析程序,图像识别软件,和其他大量的复杂的软件。

永久备份

Google 上的数据最终的栖息地可能会在永久存储。Google 的隐私政策提示某些用户数据永远都不会完全被删除,因为已经被永久的备份。

理解Google收集特定用户的数据情况

以下都是一些当用户与很多网站交互的时候 Google 收集到的用户的资料的清单列表。这意味着其实有更多的数据被 Google 收集而却又没有公开的。不过其实无知就是幸福,当你看完之后,你或许会感觉很不爽:

Google用户数据收集情况汇总:Google用户数据收集情况汇总

你能相信 Google 会帮你保密一切信息么? 你敢相信 Google 会遵守所有保密要求么?

原文地址:http://semwatch.org/2009/11/evil-of-google-data

更多精彩内容其他人还在看

快速更新网站内容的几种方法

自从有了CMS现在做个网站是件非常简单的事,网站的运作的中心是日常的网站内容更新和长期网站推广。其中网站内容的快速更新是重中之重,今天笔者来分享一下快速更新网站内容的几种方法。希望能为站长们更新网站内容提供一些帮助。 1、内容采集 内容采集是最直接的方法,采
收藏 0 赞 0 分享

Google给广大网站的搜索引擎优化(SEO)建议

为了把Google中文搜索本土化Google官方也确实做了大量的工作,其中在(网站管理员/站长)这块文章丰富了不少,作为营销爱好者笔者经常关注拜读之余也摘录一些自认为比较有价值的内容供大家参考。今天和大家分享的是:Google给广大网站的搜索引擎优化(SEO)建议。文章内容如下
收藏 0 赞 0 分享

创建一个方便Google处理的网站的详细建议

这又是一篇来自Google的文章,再继续发下去很多朋友会问我为什么又转搜索引擎的东西了。其实个人认为Google网站管理员/站长帮助里头还是很多精华的,例如:今天将要转载的这个(创建一个方便Google处理的网站的详细建议)就写得非常好。废话不多说了,下面来分享下创建一个方
收藏 0 赞 0 分享

排除法解决网站在搜索过程中表现不佳的现象

搜索引擎排名机制异常的复杂和严密,直接导致很多网站内容发布出来在搜索引擎的搜索结果表现不佳的现象,种现象一直困扰着很多站长。今天笔者给大家介绍一种比较有效的解决方法:排除法解决网站在搜索过程中表现不佳的现象。 这个排除法的步骤如下: 一、查看您的网站是否被
收藏 0 赞 0 分享

百度 google分别喜欢什么样的友情链接

友情链接对搜索引擎的重要性我就不说了,你去看下只要是做优化的网站几乎都是有友情链接。我发现一些做seo的公司,给客户优化网站的时候纯属就是靠友情链接,雇专门的友情链接专员来进行优化。但是这样做你真的有效果吗,我看到过一些网站,页面上几乎三分之一的页面是友情链
收藏 0 赞 0 分享

浅析网站首页的广告形式

一般而言,由于互联网用户在刚登录某网站时,会看到各种各样的广告。这些广告杂乱无章,因此,大多数的标语用户很容易看过就忘。行为追踪就是防止这种情况发生的方法之一,从而使得广告与用户的生活和目前的精神状态相关的机率更大。或者,您也可以采取不那么敏感的方式使广
收藏 0 赞 0 分享

友情连接与SEO的关系

外连的多少是SE判断一个网站质量的好坏的最基本的标准,谷歌的PR值,百度的超连分析技术等都是以连接网页的数量的多少来决定一个网页的质量的。相对,网站做友情连接,也是以这点为出发点的。但是,友情连接质量的高低往往会起到影响网站排名的关键性作用。因次,我们必须在
收藏 0 赞 0 分享

一个网站的好坏是网民说了算还是PR说了算

大概每一季度的PR更新,都能在站长界引起一阵不大不小的地震,谷歌在2009年端午节这一天,更新了其旗下品牌的PR值,让很多站长觉得这是谷歌在中国的传统节日端午送上的大礼。 谷歌也真够有心的了,偏偏在端午那一天与大家“意思意思”,PR值,对于广大的站长确
收藏 0 赞 0 分享

网站成功的必备条件分析小结

托尔斯泰有句名言:“幸福的家庭都是相似的,不幸的家庭各有各的不幸”。引申到建站方面,即“成功的网站都是相似的,失意的网站各有各的不幸”。 那么,网站的成功,都有哪些相似之处呢?网站成功需要哪些重要因素呢? 有人会说技术最重要
收藏 0 赞 0 分享

网站运营推广中的内容策略浅谈

一、提升流量的内容策略 提升流量(PV)的关键是什么呢?很简单,让用户大量点击网站的页面,阅读网站的内容。浏览的页面多了,流量自然就上去了。那如何才能增加用户的点击行为呢? 1、根据用户喜好,增加相应的文章数量。注意,这里说的文章,是指用户喜欢的内容。 2
收藏 0 赞 0 分享
查看更多