《搜》反向追踪链接(2)

搜（第2版）（美）约翰·巴特尔

最后，尽管没有专门的学术术语，不过学术出版是受到等级这个概念的推动的。对论文的评价不仅仅根据其中的原创性思想和严格的引经据典，还有赖于它所引用的论文的数量、后来引用它的论文的数量，以及一般认为的这些引文的重要性。这样的做法导致了学术文献引用的通货膨胀（冗长的、毫无意义的引用），还有互相吹捧式的引用（如果你引用我的，我就引用你的）。尽管如此，这种做法的确为每一篇给定的论文提供了严格的等级评定。事实上，以加菲尔德为代表的很多人都已经证明，某一篇给定论文的重要性可以根据有多少篇论文通过引用而同它建立联系来确定。

学术出版是一个以同行评审、引文编写和注评为核心的、或许存在些许瑕疵但行之有效的体系。这个体系为已出版的论文提供了一种等级评定的方法。

这个说法很公允。可是，谈这些的意义何在？

蒂姆.伯纳斯-李正是因为想要通过技术和超文本网络来改进这个体系的缺陷才会发明了万维网。而拉里.佩奇和谢尔盖.布林正是因为试图改进伯纳斯-李建立的万维网才创造了Google。将所有这些工作串在一起的就是文献引用―通过指向他人的成果来建立自己的成果的做法。

佩奇的推论是，整个网络就是由引用和注评构成的松散体系。毕竟，链接不就是引用吗？而链接描述文字不就是注评吗？根据佩奇的说法，如果他能够找到一种方法来计算方向链接的数量和衡量它的质量，那么“网络就会成为一个更有价值的地方”。

佩奇接着说：“从某种意义上来讲，网络就是这样一个地方：在这里每个人都可以很容易地通过建立一个链接来为任何事做注评。可是，早期的超文本有一个悲剧性的缺陷―你不能够反向追踪链接。BackRub项目就是要做反向追踪，搜集网络上所有的链接再把它们倒回去是一件感觉很酷的事。”

佩奇把他的项目称为BackRub，这个项目旨在发现网络中的链接，存储它们以进行分析，然后在网上重新发布它们。不过，通过再次发布的链接，任何人都可以知道到底有谁同网络上的任何给定网页建立链接。不管从哪个角度来看，这都是一个雄心勃勃的计划。但是，佩奇一开始就没有让BackRub在数量有限的测试网页上工作。恰恰相反，他目标远大：为什么不一下子解决所有问题呢，直接在整个万维网上做？

要完成这样一个任务需要非同寻常的、无所畏惧的投入。尽管佩奇只是打算储存链接而不是整个网络的内容，但他还是需要搜索整个网络来找到这些链接。在1995年，这样的做法1995年首先做此尝试的人是使用DEC公司的资源发布Alta Vista的路易斯.莫尼尔。还很少见。

当佩奇构思BackRub的时候，网络文件总数据估算大约有1 000万，而连接它们的链接数量还是未知的。佩奇估计链接数量大概是1亿个左右，而实际的数量后来证明远大于此。而且，佩奇在开始工作之前耽搁的时间越久，网络就会变得越大。早期，网络增长速度是每年2 000%还多。要捕获这样一头巨兽所需要的计算机处理资源非常庞大，远超出了一个普通的学生项目所能负担的程度。佩奇开始设计他自己的网页捕获器时，但还不完全明白自己这样做的后果。

这个想法的复杂性和规模性吸引了布林。到目前为止，这个多面手还是不停地从一个项目跳到另一个项目，迟迟不肯确定一个论文选题。他发现支撑Backrub项目的前提颇具吸引力。布林回忆说，“我在学校里，同许多课题小组讨论过他们的课题，而这一个是最让人兴奋的项目。不仅仅因为这个项目以代表人类知识的互联网为研究对象，还因为我喜欢拉里和他的小组里的另外两个人。”

同佩奇和布林一同工作的另外两个人是斯科特.哈桑和艾伦.斯特姆伯格，他们是被派到这个项目的博士生助手。（每位博士学位申请人都会分配到一两名助手；助手的职位是由想赚点外快的硕士研究生来担当的。）哈桑和斯特姆伯格都在Google真正起步之前离开了这个项目。但是，即使是这些中途离开的人后来也创办了成功的互联网公司。哈桑同拉里的哥哥卡尔.佩奇一起创立了eGroupcom，后来把公司以超过5 000万美元的价格出售给了雅虎。斯特姆伯格在密歇根读大学时就已经发布了一个很受欢迎的天气网站Weather Underground，而且现在还在经营这个网站。

《搜》 反向追踪链接(2)

《搜》反向追踪链接(2)