PageRank——让谷歌腾飞的技术(5)

整个过程有一个转折点:每次访问一个网页时,都有一个固定的重新访问概率(大概是15%),让访问者不从已有的超链接中挑选一个并点击。相反,访问者会重新开始这一过程,从互联网上随机选择一个网页点击。你也可以认为访问者有15%的概率对任何已有网页厌倦,导致其点击另一组链接,这么想也许会有帮助。要想找些例子,请仔细观察上图。这个特定的访问者从网页A开始,在对网页B厌倦前连续点击了三个随机超链接,并在网页C重新开始。在下次重新开始前,访问者又点击了两个随机超链接。(顺便说一句,本章中所有随机访问者例子中的重新开始概率都为15%,这也是谷歌联合创始人拉里·佩奇和谢尔盖·布林在描述其搜索引擎原型的原始论文中使用的值。)

用计算机模拟这一过程很容易。我为此写了一个程序并运行了它,直到访问者访问了1 000个网页。(当然,这并不意味着是1 000个不重复的网页。对同一网页的多次访问也被纳入了计算当中,在这个例子中,所有网页都被访问了多次。)这1 000次模拟访问的结果显示在下图(顶图)中。你可以看到,网页D的访问次数最多,有144次。

就像民意调查一样,我们可以通过增加随机样本的数目来提高模拟精度。我重新运行了一次模拟,直到访问者访问了一百万个网页。(也许你会想这花了多长时间,在我电脑上运行只花了不到半秒!)考虑到访问量如此巨大,还是用百分比表示结果更好。这也就是你将在下图(底图)中看到的情形。和之前的结果一样,网页D的访问次数最频繁,占总访问量的15%。

随机访问者模型和权重把戏之间有什么联系可以被我们用于网页排名呢?从随机访问者模拟中计算得出的百分比,正好就是我们在衡量一个网页的权重时所需要的。因此,让我们将网页的访问者权重值(surfer authority score)定义为一名随机访问者花在访问该网页的时间比例。值得注意的是,访问者权重值能和前两个对网页重要性进行排名的把戏配合良好。我们会逐一审视这些把戏。

首先,让我们来审视一下超链接把戏:超链接把戏的主要思想是,一个有许多链入链接的网页应该有高排名。这在随机访问者模型中也适用,因为一个有许多链入链接的网页被访问的概率较大。下图(底图)中的网页D就是个好例子:它有五个链入链接——比模拟中的其他网页都多——访问者权重值也最高(15%)。

其次,让我们来看看权重把戏。权重把戏的主要思想是,和来自低权重网页的链入链接相比,一个来自高权重网页的链入链接应该更能证明一个网页的排名。随机访问者模型也包含这一点。为什么?因为和一个来自不知名网页的链接相比,访问者更有可能继续点击一个来自知名网页的链入链接。要在我们的模拟中找这样一个例子,请比较上面底图中的网页A和C:这两个网页都有一个链入链接,但网页A的访问者权重值要高得多(13% VS 2%),这主要取决于其链入链接的质量。

读书导航