搜索引擎索引——在世界上最大的草垛中寻针(2)

以正确顺序挑选出最好的几个命中被称为“排名”。排名是关键的第二个阶段,紧随最开始的匹配阶段。在搜索行业的残酷世界中,搜索引擎的生死由其排名系统的质量决定。2002年,美国前三大搜索引擎的市场份额基本相当,谷歌、雅虎和MSN在美国的市场份额都在30%以下。[MSN随后被重新包装成Live Search,之后又被命名为必应(Bing)。]之后几年,谷歌的市场份额迅速扩大,同时将雅虎和MSN的市场份额打压到了20%以下。人们普遍认为,谷歌迅速上升为搜索行业冠军是得益于其排名算法。因此,毫不夸张地说,搜索引擎的生死由其排名系统的质量决定。不过,正如我已经提到的,我们将在下一章探讨排名算法。至于现在,让我们专注于匹配阶段吧。

AltaVista:第一个互联网级别的匹配算法

搜索引擎匹配算法的故事从哪里开始?一个很显然却错误的回答会说从谷歌——21世纪初期最伟大的技术成功故事——开始。事实上,谷歌最初只是两位斯坦福大学研究生的博士学位项目,这个故事不仅温暖人心,而且令人印象深刻。拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)在1998年组装了一堆计算机硬件来运行一种新的搜索引擎。不到10年,他们的公司成为了互联网时代崛起的最伟大的数字巨人。

不过,互联网搜索的想法已经存在很多年了。最早的商业应用是Infoseek和Lycos(两者都于1994年推出),以及于1995年推出搜索引擎的AltaVista。20世纪90年代中期的几年中,AltaVista是搜索引擎的王者。当时我还是一名计算机科学研究生,我清楚地记得自己惊叹于AltaVista搜索结果的成熟度。有史以来第一次,有一个搜索引擎能完全索引互联网上每一个页面的全部文本。更可贵的是,眨眼间就能返回结果。要继续理解这个令人回味的技术突破,我们要从接触一个古老的(毫不夸张)概念——索引——开始。

古老的索引

索引的概念是所有搜索引擎背后最基础的思想。但索引并非由搜索引擎发明:事实上,索引的思想几乎和书写本身一样古老。比如,人类学家发现了一座具有五千年历史的巴比伦神庙图书馆,里面按学科对楔形文字泥版进行了分类。因此,索引可以称得上是计算机科学中最古老的有用思想。

如今,“索引”这个词通常指参考书最后的一个板块。你可能想要查看的所有概念都以固定顺序(通常是按字母排序)列出,每一个概念下都列出了这个概念出现的位置(通常是页码)。因此,一本和动物有关的书也许会有一个像“cheetah 124,156”的索引项。这个索引项意味着“cheetah”(猎豹)这个词在第124页和第156页出现过。(让你做个相当有趣的练习,你可以在本书的索引中查询“index”这个词。你应该可以找到这一页。)

读书导航