来自 Live 搜索的访客,是爬虫还是 “托儿”?
Opened this issue · 1 comments
继续聊一聊搜索引擎的话题。
除了您目前正在访问的这个 “CSS魔法” 之外,我还维护着另外一个站点(其实早已停止更新了,只是偶尔看一下后台流量统计的情况)。发现从 2008 年下半年(或者更早的某个时间)开始,经常出现一些来自微软 Live 搜索的流量,导致 Live 在我的 “流量统计系统” 的搜索引擎排名中迅速杀进前三甲。“CSS魔法” 开张之后不久,很快也遇到这一现象。不得不说,很意外。
其实 Live 搜索的前身就是 MSN 搜索(曾在《逃离克隆岛》电影中大做植入式广告),被微软寄予厚望。然而事与愿违,Live 搜索在全球搜索市场一直无甚作为,在**市场更是直接被无视。在这种状况之下,微软坐立不安、意图吞下雅虎抗衡 Google 自然也在情理之中。
可能是从众心理作祟吧,我对微软的东西没什么好感,对这个 Live 搜索更是没什么兴趣。我相信国内大多数网友也不太可能会选择它。可是,它为什么能够在本站的搜索引擎流量数据中稳占三成、位列三甲呢?我不由对这些来自 Live 搜索的流量充满好奇。
留意了一下访问明细,发现这些流量着实有些神秘和蹊跷。
从行为上看,它们似乎是访客,但又不太像。这些流量的来源 URL 都是清一色的 http://search.live.com/results.aspx?q=ABC
(ABC
代表各种不同的关键词),URL 当中除了关键词之外没有其它任何参数,这很不正常。此外,这些关键词通常也都是简短的英文单词,顺着这个来源网址回访一下看看,会发现,把搜索记录翻过好几页也不一定能找到自己的小站。这简直让人摸不着头脑。
接着来分析这些流量,我发现这些 “用户” 居然像是克隆出来的一样。操作系统清一色 Windows Server 2003,浏览器清一色 IE6,屏幕分辨率清一色 800×600(妈呀,这是什么配置啊这是?),IP 地址清一色美国。我的脑袋再一次转不过来了。
美国?微软总部??Live 搜索的爬虫???
它们很有可能是爬虫(Crawler),我这样猜测。但我很快又推翻了这个想法。因为搜索引擎的爬虫一般都会在用户代理信息中声明自己,比如 Live/MSN 搜索的爬虫据说叫做 “msnbot”,它没有道理在用户代理信息中声称自己是运行在 Windows Server 2003 上的 IE6 啊!
在网上查找搜索引擎用户代理信息的时候,偶然看到一个网友也遇到类似的情况,他认为这些流量是来自微软实验室的一些搜索实验项目。我不认同。
最终,我跳出技术思维,回到这个行业的大环境当中来思考这个问题。我得出结论,它们是 “托儿”!
前面提到过,Live 搜索在全球搜索市场上一直表现疲软,而面对竞争中的劣势时,微软难免会动些歪点子(改天我们聊一聊 “第一次浏览器大战” 的故事,很有意思)。于是我认为,这些莫名其妙的流量其实是微软派来的 “伪用户”,这些机器人伪装成来自 Live 搜索的普通用户,唯一目的就是向网站的真实流量当中注水,抬升自己在这些网站后台的流量统计系统中的排名,用一片虚假繁荣来骗取站长和开发者的重视……
在互联网时代,微软也就这点伎俩嘛。可惜这还是咱玩剩下的,这比我当年玩选秀刷票还要无聊!
后记
这是一篇老文,但即使在 “Live搜索” 演化成了 “必应” 的今天,它仍然有效。因为闹剧还在不断重演。
在 Live 搜索的域名已经重定向到必应之后的一段时间内,我仍然持续收到来自 Live 搜索的流量。真是哭笑不得。
但从本月的某个时候开始,这些 “托儿” 们已经完全换上了必应的新装。就在刚才,我收到了两次来自 http://www.bing.com/search?q=ABC
的访问。于是翻出老文,与各位分享。
评论存档
-
cssmagic [2009-07-25 11:12 PM]
本文在 cnBeta 投递失败。
-
独孤逸辰 [2010-01-30 02:58 PM]
哈哈,不错啊,挺好的,就是留言还要验证码不太好,改成留邮箱比较贴切,而且还存在验证码过期。。。
cssmagic [2010-01-30 09:31 PM]
呵呵,谢谢建议。一直没有机会好好地打理博客程序,多包涵。
-
购物导航** [2010-04-04 10:33 PM]
我的网站,怎么没有来自Bing的爬虫?都是Yahoo Slurp的?
😭
cssmagic [2010-04-20 08:27 PM]
如文中所述,爬虫是可以伪装的。