《搜》 神秘技术配方(4)

因为它的大小和规模,这个项目发展成了计算机科学系和校园网管理办公室里流传的一个传奇。BackRub网页捕获器曾经一度消耗了斯坦福几乎一半的带宽。考虑到斯坦福是全世界网络连接最发达的机构,这个事实还是很让人瞠目结舌的。这个项目至少有一回曾经导致斯坦福的整个网络瘫痪。佩奇后来说:“很幸运,斯坦福拥有许多远见卓识的人,他们并没有因为我们占用了那么多资源而太责怪我们。”

不过斯坦福的管理者们却被许多网管指责,大多数网管都不能理解为什么Google的服务是不断地索取他们网页的副本。回到1996年,没有人以被搜索引擎索引为目标,下载某个网站所有内容的申请常常被认为等同于入侵。典型的访客也许会在网站上点来点去,在不同地方浏览几个网页,然后就去别的网站。但是,BackRub消费整个网站,以闪电般的速度索引每一张网页,通常的网站都承受不了这样的负担;它们会因为BackRub贪婪的要求而不堪重负。即使是那些能够受得了Backrub的请求的网站也会感觉这样的过程是一种侵犯,它破坏了一些没有写明的原则,就算其中没有更大的阴谋。

威诺格拉德曾经讲了这样一个故事。在BackRub索引了一家网上美术馆之后,这家网站联系了斯坦福大学。因为网页捕获器对网站的每一张网页发出申请,这家美术馆确信,BackRub真正的目的是窃取该美术馆所有的图片和文字,然后在另一个地方再次发布这些内容。美术馆威胁说会起诉,威诺格拉德好不容易才说服他们休战。类似的投诉终于激起了斯坦福大学计算机安全主管史蒂夫.汉森的不满。他于1997年2月,给整个Google团队发了一封电子邮件:

在过去的6~7个月内,我收到了难以计数的来自校外网站的投诉,指责来自计算机科学系的过分的、未经授权的网络侵入行为……佩奇先生……没有采取适当的措施来安抚网站的运营者……如果要在互联网上做研究的话,一定要以谨慎的态度在严密监督下进行。很明显,BackRub项目需要更谨慎的态度和更严密的监督。如果在这个领域我们不进行自我约束的话,别人就会决定我们需要来自外部的约束。

佩奇去找了汉森,表达了歉意并许诺改进。他发布了一张网页向大众解释,尽管Google的确索引了所有的网页,但是它并没有保存任何一张网页。他还详细解释了网站的主人应该如何发出申请,拒绝BackRub网络捕获器孜孜不倦的网页请求。然而,1998年4月,因为另外一项投诉,汉森又给佩奇发了另一封电邮:

这个项目已经不是一两次给网上的另一个网络服务器带来麻烦了。这类事件使他们损失了大量金钱……这当然对学校或者计算机科学系的名声没有好处。我很关切可能要为此担负的责任。

佩奇又一次成功地安抚了汉森,项目继续迅速进行。很明显,佩奇对汉森的处理技巧印象深刻,后来他聘用汉森来管理Google的安全事务。

但是,投诉不仅是关于BackRub对资源的使用,或者说滥用。网站的主人现在开始关注Google的搜索服务本身,尤其是根据这个新的PageRank算法,他们的网站被评定成什么等级。很多人对这个暴发户似的搜索引擎对他们的网站看起来缺乏判断力的评价非常不满,毕竟这是第一次有人号称为网站的内在价值作评级。这样的判断会激起强烈的反响,即使在今天情况还是如此。

读书导航