《搜》 神秘技术配方(2)

所幸的是,布林非凡的数学天赋可以解决这个问题。出生于前苏联的布林,母亲是美国国家航空航天局的科学家,父亲是大学的数学教授。他在6岁的时候和家人一起移民到美国。就读于马里兰郊区的一所中学的时候,他是公认的数学天才。他提前一年高中毕业,进入其父任教的马里兰大学学习。一毕业,他很快就进入了斯坦福。他非凡的才华使他在斯坦福的日子过得非常悠闲。他告诉我,那里的环境如此宜人,他上的课大都是非学术性的,比如航海、游泳和潜水,他把自己的智能都用在有趣的项目上而不是课程上。

佩奇和布林并肩作战创造出一种新的评级体系,这个体系重视始于重要来源的链接,却对始于无关紧要的网站的链接评价很低。比如说,有许多链接都是指向IBM网站的。这些链接可能来自技术行业的商业伙伴(也许是英特尔),也可能来自伊利诺伊郊区的一个十几岁的小编程迷,而这个孩子建立指向IBM的链接的原因是,他刚收到一台电脑作为圣诞礼物。算法怎样确定这两者谁的等级更高呢?对于一个人类观察者来说,鉴于其对IBM在世界上的地位的理解,商业伙伴是一个更重要的链接。但是等级算法怎样才能理解这样的事实呢?

佩奇和布林工作的突破性就在于他们发明了一种新算法。这种算法的名称取自佩奇的姓(Page),因此叫做PageRank。它可以同时计算指向某个特定网站的链接的数量,以及这些链接的来源网站所接入的链接数量。这是对学术文献引用计数的粗略模仿,事实证明,它是可行的。还是以上面的IBM案例为例,让我们假设只有几个网站的链接指向这个孩子的网站,再假设没有多少网站指向这几个网站链接。与之形成鲜明的对比,数千条链接指向英特尔,而且平均起来看,这些网站也拥有上千条指向它们的链接。在PageRank体系下,这个孩子的网站会被认为不如英特尔的网站重要。在这个例子中,佩奇和布林的分级方法可以判断出英特尔比那个郊区孩子重要,至少是在同IBM的关系这一方面。

这不过是一个简化了的说明,当然,佩奇和布林还要改正许多运算上的死角。总之,更受欢迎的网站在它们的评级表上会被排在顶端,而相对人气弱的网站就被排在底部了。

就在他们漫不经心地翻看自己所得到的结果的时候,布林和佩奇意识到他们可能发明了能够用于网络搜索的技术。事实上,根据佩奇的回忆,将经过BackRub分级的网页用于搜索的想法自然而然就出现了,自然到他们根本就没有意识到自己迈出了多么关键的一步。而且,BackRub本身就像搜索引擎一样工作,你输入一条URL(网页地址),它就会列出一张根据重要性排序的反向链接的列表。“我们意识到自己拥有了一个探索工具,一种可以有许多用途的网页分级体系。”佩奇回忆道,“它能够提供全面的网页评级和后续网页的排序。”

读书导航