Google 处理采集数据的一些分析

所属分类: 网站运营 / 网站优化 阅读数: 106
收藏 0 赞 0 分享

点击跟踪

Google logs 把全部用户在其服务产品上的引导点击(广告,行动,功能点击等等)都记录起来。

形式 -随着用户输入数据的形式直接进入(用户名,密码等),Google 记录了时间和日期以及提交的位置。

google form Google 邪恶的一面:Google 用户数据采集大揭秘

注册 Google 帐号时的表单

输入类型是隐藏的,使用户不会看到或进入特定领域的数据

向用户发送后提交 (隐藏) 的位置

输入类型是隐藏的,所以用户不会看到或进入到特定数据里头。

用户使用引用数据,并通过表格获得怎样才把”注册”放在什么位置用户会点击

Cookies

Google 把它所有网站属性的 Cookie 都用上了,此外,他还留下了广告 Cookie 来跟踪用户在网站上的行为。通过这种方法,Google 就可以在有 doubleclick 和AdSense 广告的网站下跟踪该网站上任何一个用户的网站行为。

google cookies Google 邪恶的一面:Google 用户数据采集大揭秘

存储的cookies列表

存储在日志文件的服务器请求

每一个向 Google 服务器发出的请求都存储在日志文件里头,而存储的内容取决于发出请求的类型。

google log Google 邪恶的一面:Google 用户数据采集大揭秘

日志文件

URL - http://www.google.com/search?hl=en&q=seomoz&ie=UTF-8

从用户付出的请求而获得的 IP 地址,可以根据这个IP 地址定位该用户的具体地理位置。

日期,时间和时区偏移的用户

用户的语言

用户的操作系统

用户的浏览器

其他信息就没有那么重要但是必须具体的描述向服务器发出的请求,服务器的响应和转译引擎。

Javascript

Google 有小部分的 JavaScript 已经嵌入到互联网上众多的网站上面。当用户的浏览器执行背景中的脚本时候,Google 就能够知道很多关于这个用户浏览习惯等重要信息(地理位置,操作系统,浏览器类型和版本等)

网站信标

Google 向很多结算屏幕嵌入小尺寸的透明 gif 图片,就好像 JavaScript 一样,一个用户下载隐形的图片并且向 Google 发送他们的电脑信息。

网站信标样例(什么?你看不到?这才是重点)

了解一下 Google 是怎样处理这些数据

存储

Google 使用一个内部数据库叫 BigTable 扩展到近乎 100W 个服务器

Google Data In 2006

 

Data

Size (TB)

Crawl Index

800

Google Analytics

200

Google Base

2

Google Earth

70

Orkut

9

Personalized Search

4

这压缩的数据的大小接近 TB(1024GB)。而 Google 透露的数据大小超过 1PB(1048576GB)。这甚至不需要考虑 AdSense,Gmail,Google Map,街景,Google图片,或者其他私有数据库。并且这些数据都是超过2年前的。

大量的数据分析

这就有点像 Charlie and the Chocolate Factory (电影《查理与巧克力工厂》)。我们都知道有很多数据都进入到 Google 那里,我们也知道有大量处理好的数据会导出来。我们就只是不知道两者之间是发生了什么,是怎么转换的。

我们也知道 Google 本身有很多运算法则组织他的数据,Page Rank 就是最出名的了。据说,Google 也有很多复杂的 spam 的过滤系统,内容复制过滤系统,类型侦查运算法则,自然语言解析程序,图像识别软件,和其他大量的复杂的软件。

永久备份

Google 上的数据最终的栖息地可能会在永久存储。Google 的隐私政策提示某些用户数据永远都不会完全被删除,因为已经被永久的备份。

理解Google收集特定用户的数据情况

以下都是一些当用户与很多网站交互的时候 Google 收集到的用户的资料的清单列表。这意味着其实有更多的数据被 Google 收集而却又没有公开的。不过其实无知就是幸福,当你看完之后,你或许会感觉很不爽:

Google用户数据收集情况汇总:Google用户数据收集情况汇总

你能相信 Google 会帮你保密一切信息么? 你敢相信 Google 会遵守所有保密要求么?

原文地址:http://semwatch.org/2009/11/evil-of-google-data

更多精彩内容其他人还在看

SEO需要了解哪些技术

做SEO并不是一件简单的情况,那么,SEO需要了解哪些技术?需要了解技术吗?针对这些问题,本文就为大家进行简单接单
收藏 0 赞 0 分享

网页标题是一成不变的吗 如果修改了会影响到网站排名吗

谈到网站的优化,很少人会对网页标题动心思,究其原因,还是因为担心如果修改了网页标题会影响到网站排名,那么,网页标题是一成不变的吗?如果修改了会影响到网站排名吗?对此,本文就为大家进行解答
收藏 0 赞 0 分享

网站跳出率怎么减少?降低网站跳出率高的9种技巧介绍

网站访问量及跳出率可以直观的看出网站优化的效果,那么,网站跳出率过高怎么办?是什么原因造成的呢?对此,本文就为大家进行简单解答
收藏 0 赞 0 分享

手机网站优化技巧有哪些

作为互联网新生代的一个新启之星手机网站,它的存在大大的便利了人们的生活,那么,手机网站怎么优化呢?针对这一问题,本文就为大家简单介绍下手机网站优化技巧
收藏 0 赞 0 分享

新站如何被百度快速收录

新网站如何快速收录对于网站的收录来说不在乎网站的时间长短,新站难免会出现一些迟迟不会被搜索引擎收录的现象,那么,新站如何被百度快速收录呢?本文就为大家进行简单解答
收藏 0 赞 0 分享

SEO中哪些手段是最高效的?

网站运营时SEO是比可少的技术之一,那么,SEO中哪些手段是最高效的?针对这类问题,本文就为大家进行简单解答
收藏 0 赞 0 分享

SEO新手们经常会碰到的6个问题

随着近几年互联网的迅猛发展,SEO这项技能被越来越多的企业认可,刚接触SEO的站长们总是会碰到各种各样的问题,本文主要为大家简单介绍下SEO新手们经常会碰到的6个问题
收藏 0 赞 0 分享

网站关键词怎么查询百度排名及历史排名?

网站关键词怎么查询百度排名及历史排名?想要做好优化就要了解关键词的排名情况,该怎么查看关几次在百度的现有排名以及历史排名?下面我们就来看看详细的教程,需要的朋友可以参考下
收藏 0 赞 0 分享

新浪博客如何SEO优化排名?

如何利用新浪博客做好SEO优化?新浪博客作为多数站长发外链时的首选平台具备以下特点,易收录,权重高,流量大等等,但是如何利用好这几个优势把网站关键词排名做的更好呢?下面,曾庆平SEO就为大家讲一下如何利用新浪博客做好SEO优化的问题
收藏 0 赞 0 分享

为什么网站关键词排名上去了却没有流量?

为什么网站关键词有排名却没有流量?相信这是绝大部分站长都会碰到的问题,辛辛苦苦把关键词排名做上来,但却没有流量,更别谈什么转化率。出现这种情况我们应该如何处理,针对这类问题,本文小编就为大家进行简单解答
收藏 0 赞 0 分享
查看更多