PageRank——让谷歌腾飞的技术(2)

超链接把戏

你很有可能已经知道了超链接是什么:超链接是网页上的一个短语,当你点击它时,你将被带到另一个网页。绝大多数网络浏览器用蓝色底线显示超链接,以便能轻易识别。

令人意外的是,超链接也是老想法。1945年——大约在同时开始开发电子计算机——美国工程师范内瓦·布什(Vannevar Bush)发表了一篇极具前瞻性的论文《诚若所思》。在这篇涉猎广泛的论文中,布什描述了大量可能的新技术,包括一台被称作麦麦克斯(memex)的机器。麦麦克斯可以存储文件并自动进行索引,但其功能远不止这些。麦麦克斯允许“关联索引……任何被选中的东西都能立即自动选择另一个东西”——换句话说,一种早期的超链接。

超链接自1945年就已出现。它们是搜索引擎用来进行排名最重要的工具之一,而且是谷歌PageRank技术的基础。接下来,我们将开始以最大的热情探索PageRank技术。

理解PageRank的第一步是一个名为超链接把戏的简单想法。用一个例子就能非常容易地解释这个把戏。假设你对学习如何制作炒蛋感兴趣,并且用网络搜索了这一主题。如今,任何一次真正搜索炒蛋的网络搜索都会出现数百万个命中,但为方便起见,让我们想象只有两个网页出现:其中一个是“欧尼的炒蛋菜谱”,而另一个则是“伯特的炒蛋菜谱”。这两个网页都出现在上图中,与之一道的是拥有这些菜谱超链接的网页。还是为了方便起见,让我们想象这四个包含超链接的网页是整个互联网上仅有的链接到两个菜谱网页之一的网页。图中底部画线的文字就代表超链接,而箭头则表示链接的指向。

问题是,这两个命中哪个排名应该更高?伯特还是欧尼?人们在阅读链向这两份菜谱的网页并作出评价上不会有太大的问题。看起来这两份菜谱都很合理,但人们对伯特菜谱的反响要更为热烈一些。因此,在没有给出其他信息的情况下,伯特的菜谱比欧尼的菜谱排名更高可能会更合理。

不幸的是,计算机并不擅长理解网页的真实意思,因此搜索引擎检查这四个链向命中的网页,并对每份菜谱获推荐的强烈程度进行评估也不太可能。另外,计算机在计算方面非常优秀。一种简单方法就是只计算链向每份菜谱的网页数——在这个例子中,一个网页链向欧尼的菜谱,三个网页链向伯特的菜谱——并根据这些菜谱的链入链接数对菜谱排名。当然,这种方法远不如让人阅读所有页面并手动排名精确,但无疑是一种有用的方法。如果你没有其他信息,一个网页的链入链接数可以成为该网页可能会多有用或多有“权威性”的指标。在这个例子中,伯特的菜谱得分为3,欧尼的菜谱得分为1,因此在搜索引擎向用户展示的结果中,伯特的网页排名比欧尼的高。

你可能已经发现了一些在排名上使用这种“超链接把戏”的问题。一个很明显的问题就是,有时候链接被用来显示差网页,而非好网页。比如,假设有个链接欧尼菜谱的网页上写着:“我试了下欧尼的菜谱,很糟糕。”像这样批评而非推荐一个网页的链接,的确会导致超链接把戏将网页的排名拔高。不过,在现实中,超链接更多是用于推荐而非批评。因此,尽管有这个明显的缺陷,超链接把戏仍然很有用。

读书导航