当前位置:首页 >> 互联网 >> 2008年6月11日

数据之美 百度GOOGLE统计的秘密

推荐者:喜之狼 (积分 26) | 原作者:tony
3年以前,一个统计分析领域的专家曾经告诉笔者,GOOGLE和百度,在技术上足够做到分析你是一个男人还是一个女的,当时听起来感觉几乎不可能的事情。

  07年在搜索引擎研究领域出现过一张并不是很清晰的Google和百度的鼠标点击热图(如下),图的出处未知,让笔者很是惊讶,从图中可以看出Google和百度用户行为的显著区别,也可以看出在这两个搜索引擎中排名网站的流量分配的大概情况。甚至,笔者联想到如果统计了用户鼠标行为的轨迹分析,足够分析访问百度和Google用户群体的人口统计学方面的信息,比如:访客的性别、年纪等等。笔者所在的公司一直致力于数据挖掘课题的研究,深知如果一定程度上对用户鼠标行为进行分析的话,只要找到准确的算法,是可以很明显的分辨出男性和女性在浏览同一个网页时所表现出的不同的习惯特征。这是所有基于数据行为做识别的人的共识。

  

  百度和GOOGLE在互联网上,具备绝对的优势,他们甚至可以统计和分析用户的鼠标行为特点(如上图)。对于普通的站长,很明显,这些前沿的统计数据几乎无法从传统统计器中获得,捕捉到用户在某网页上的点击事件也许并不是一个很难的事情,但是如果是要获得用户的鼠标点击热区以及鼠标在页面上滑动的轨迹,就不是件容易的事情了,尤其是对用户鼠标滑动轨迹的分析,这个更不是一般的统计系统可以做到的,这些滑动轨迹几乎是一个天文数据,分析这些需要极其强大的计算能力,并非国内一个个人统计系统计算能力可以达到的。

  目前国内的统计市场,新的入伙人有百度、雅虎,还有一个一直在中国统计器市场名不见声响的GOOGLE,这些巨无霸也都试图瓜分这个市场,他们的意图很明显,建立一个服务于自己的体系,同时利用庞大的个人站点获取大量的用户行为特征。传统的个人网站统计,目前也是三分天下。但是笔者无意中看到的一张图,让笔者不得不再次审视这个似乎已经各自为政,三分天下的统计领域。

  下图是笔者无意中获得的一张用户行为分析图,竟然是国内某家并不知名的小个人站点上的数据,笔者在这个小小的美女图片站上发现了一行陌生的统计代码,这个代码的链接很明显的反应出另一个似乎也是统计类的站点,但是很郁闷的是,笔者顺着这个链接,并没有找到这个站点的任何资料,似乎这个站点刻意的隐藏了自己。出于本身的职业习惯,后来笔者找到了这个小站站长的QQ,后来在和这个美女图片的个人站长交流中才知道,中国科学院下面的一个庞大的技术团队正在试图将他们手上的数据分析技术平民化,他们测试使用的域名正是这行统计代码中的域名。后来,征得该站长的同意,笔者将一些该站数据截图显示如下:

  访客性别分布、访客年纪分布、访客人均收入分析、访客鼠标热区图:

  




  从以上资料笔者看到,鼠标行为分析———统计器的另一场革命正在悄然地开始。似乎中科院计算所的小伙子们在鼠标轨迹分析上有了不小的突破,但是不清楚他们原始的统计数据来自何方。茫茫的互联网,可能某个屏幕后面深藏着一双双智慧的眼睛,他们正在孕育着新的革命。

  在这个个人站长的介绍下,后来笔者联系上了中科院计算所里一位负责该项目的小伙子。在QQ上和他谈到统计,他提到了一些新的概念,让我这个一直从事于互联网统计分析的所谓“行家”汗颜。他把传统的统计,归为第一代统计。在他看来,第一代统计器只是实现了对简单数据的统计,比如:统计PV、IP等,最多再统计到了一些URL的点击次数等,但这些统计仅仅只是局限在一个数据的层面上。在飞跃发展的互联网的今天,一个数据层面上的统计器,对站长分析站点时,提供的帮助是极其有限的。一个单一的PV、IP数据,一个简单的关键词列表,在这些数据罗列的背后,实际上其中缺少了相当重要的概念,那就是这些统计的URL背后人的概念。目前所有的统计器似乎都没有认识到这一点,任何网站上任何一次点击的诞生,都是由人的行为决定。一谈到这些,这位中科院年轻的小伙子就有止不住的话往外倒。生怕笔者不明白还特意给举了例子,比如:我的网站有1000人访问,这个人群到底具备什么样子的特征?他们到底点击了我网站的那些位置?其中是男性多,还是女性多,他们的年纪分布是怎样的?和地域到底有什么样的关系?还有,他们共同的行为特征是什么?这些在他看来,都是具备非常大的价值的,这些信息比传统的PV、IP数字更加让人看清楚访问网站的人群是什么样子。最后,谈话快结束的时候,这位小伙子还透漏给笔者,他们现在对于用户人口统计学方面的信息已经基本成熟,接下来他们要挑战的是用户心理学方面的统计。在他们看来,人类的所有行为都离不开心理,换句话说,人类的行为只是心理的一个外在表现。只有真正分析出了用户的心理行为才能更有效的掌握用户行为,这才是统计器发展的最终境界。

  当笔者看完这段文字之后,完完全全被震撼住了,甚至差点忘了给一个回复,脑海里止不住地在想象这将是怎样可怕的统计器,而这群敢想敢做、年轻又富有朝气的中科院的小伙子又将是怎样的一个团队,他们拥有着超人类般的创造力。如果有机会的话,笔者真希望能和他们当面谈谈关于统计器的过去和未来。

  最后,笔者衷心希望中科院研发的这款统计器能早日开放,为流量分析市场注入新的活力,为广大的站长朋友们提供一个全新的统计服务。

[ 关键词:数据挖掘 百度 google 原文/来源链接 ]
你觉得淘宝屏蔽百度蜘蛛抓取对谁更有利?
对百度有利
对淘宝有利
二败俱伤
 

1楼楼长:聂又又 草根特约评论员(抢沙发奖牌)在2008-6-11 10:04:32评价道:
太神奇了! 太震撼了!

再一次佩服科技的发达 !
[个人签名]非常草的草根。
2楼楼长:来自湖南省电信的游客 在2008-6-11 11:14:54评价道:
神奇!!!
3楼楼长:来自安徽省合肥市电信的游客 在2008-6-11 12:41:07评价道:
的确很强大,有产品出来了吗
4楼楼长:来自福建省泉州市电信的游客 在2008-6-11 13:20:51评价道:
神奇 强大。。。
5楼楼长:sally 在2008-6-11 15:41:39评价道:
真是不顶不行啊。。。。太强了。。。。
6楼楼长:来自福建省福州市电信的游客 在2008-6-11 15:45:16评价道:
原来一直有着第三只眼来着....啊门.啥时候我们也使下...

7楼楼长:来自北京市电信的游客 在2008-6-12 16:07:05评价道:
胡说八道,微软说这话都够呛
8楼楼长:来自广东省深圳市的游客 在2008-6-12 17:06:44评价道:
扯的吧
9楼楼长:来自北京市 城市生活网(cswik.com)的游客 在2008-6-12 23:57:03评价道:
几年前的东西了
10楼楼长:来自山东省泰安市的游客 在2008-6-13 10:09:19评价道:
如果真这样,那就牛了
11楼楼长:麦芽糖 在2008-6-13 18:04:05评价道:
假的吧..
[个人签名]这家伙很懒.什么都没有留下.......
12楼楼长:来自江苏省苏州市电信的游客 在2008-6-13 21:26:25评价道:
说这是假的人就确实是井底之蛙了! 真的!

从我看到的另外一个热图敏感区示意图,我就知道类似的技术正在做,只是很多人还根本没意识到而已!

欢迎加入电子商务交流QQ群:8875997
13楼楼长:来自北京市朝阳区网通ADSL的游客 在2008-6-16 2:15:14评价道:
靠 这个就是维度出的统计器 直接去他们的BLOG看看你们就知道了 真是强悍 说不可能 是假的的 真是。。。唉 井底之蛙
14楼楼长:来自北京市朝阳区网通ADSL的游客 在2008-6-16 11:10:42评价道:
看来中国也出了些用户行为学的的疯子了!我相信这是真的,因为这个技术在国外已经有了。
15楼楼长:来自山西省太原市网通的游客 在2008-6-20 21:06:52评价道:
强烈抵制这种侵犯隐私权的技术
16楼楼长:来自湖南省铁通的游客 在2008-6-21 18:46:56评价道:
贱人们,骗人,呵呵,连个地震都检不出,还他妈装比,真是不要脸。科学?我看是抄袭学
17楼楼长:来自河南省郑州市网通的游客 在2008-6-22 13:32:33评价道:
这个真的太强大了,还有点疯狂啊!!!!
18楼楼长:来自湖北省武汉市联通的游客 在2008-6-24 23:36:54评价道:
和去年出的"2点半统计"类似,现在网站好像关闭了!
19楼楼长:来自湖南省长沙市电信的游客 在2008-6-30 15:45:51评价道:
不过 还不算很完美
验证码: 20ju
备注:请不要在评论中发广告,如需增加外链请注册成个人会员试用个人签名与自助广告。