“登月”计划(1)

然而,网页的出现仅仅是个开始。就在谷歌刚满三岁的2001年,在洛杉矶举行的一次业界集会上,其创始人拉里·佩奇和谢尔盖·布林进行了一场公开的演讲。两位创始人在这次讲话中解释说,尽管Google索引看起来足够庞大,其网页数量甚至达到了13亿之多,但除了网页自身附带的小部分信息外,这些数量惊人的网页并没有提供更多有价值的信息。佩奇说:“目前,人们仍旧只能存取互联网上业已存在的资料和信息。人们无法对图书馆里收藏的书籍资料进行存取,无法对杂志内容进行存取,无法对报纸内容进行存取,即使是过期的报纸也做不到。同样地,人们对于已经播放的电视节目也无法存取。但是这一切都将被改变。”

早在佩奇还是斯坦福大学的一名研究生时,他就参与过作为该大学数字化图书馆项目一部分的某些实验项目,而将传统的纸质媒体数字化的设想也正是开始于那段科研经历。但是直到2001年,谷歌对于是否应该做点什么具体工作来加速传统媒体的数字化仍旧没有明确的表态。图书馆、出版社以及电视台这类机构似乎有能力完成数字化的日常零碎工作并且能够将文件服务器上向公众开放的信息进行整理,而谷歌的“爬行器”则像它之前将大量网页进行编录索引那样,负责将这些传统传媒机构整理出来的信息编入索引。

然而,一年后的2002年,佩奇和布林以及他们的团队决定不再犹豫,要凭借自己的力量开始对最完整记录人类对世界的理解的信息类型――纸质书籍进行数字化的可行性进行审查。众所周知,Google算法在网页之间的优选认定上比较擅长,但是它不能够将网页上出现的最有价值信息像传统的纸质书籍那样向其用户提供高质量的选择建议。

很显然,与谷歌工程师熟悉的将网页编入索引和对网页进行排名运算的工作不同,书籍数字化绝对是一个全新的挑战性课题。将书本中的文字转换成由0和1组成字节的数字模式所需要的不只是强悍的计算机知识,是否具备其他领域的专业知识似乎显得更为重要。比如用于设计图像设备的机械工程学知识,用来游说拥有大量图书资源的大学图书馆参与合作的公关学知识,以及怎样将要扫描的书籍毫发无损地来回运送的后勤保障知识,甚至还包括要确保项目进行中不会触犯版权法的法律知识。此外,要完成这项工作还要有一个必不可少的条件,那就是强大的资金保证。因为Google决定从事的书籍数字化工程不只是针对某家大型图书馆的藏书,也不只是针对那些有价值的学术性书籍、那些普通的大众书籍甚至是那些饱受争议的书籍等,而是要将上述的所有书籍――迄今为止在全球书目数据库(WorldCat)里列出并被收藏在全球25000家图书馆内的3200万本书籍――中的每一册都进行数字化。

玛丽莎?梅耶尔(Marissa Mayer)曾经把谷歌的图书搜索项目(Google Book Search)称之为“我们的登月”计划。这种比喻至少在某些方面看来是恰当的。纸质书籍的数字化一直以来就是很多人的梦想。但这个梦想往往被认为过于雄心勃勃而在短期内很难实现。从1961年约翰·肯尼迪总统宣布著名的“登月”计划开始,到1969年人类安全地在月球上着陆,美国用了10年时间完成自己的这一梦想。与此相似的是,谷歌也打算用10年的时间来完成它的“登月”――Google 图书搜索。(2007年9月,谷歌又为它的另一项“登月”计划拨款,那就是投资3000万美元开发Google Lunar X Prize。)

读书导航