之后“百万图书项目”获得了美国国家科学基金会向其另行提供的250万美元基金,并提出该项目最终要达到的目标应远远超过之前设想的“百万图书”,而是要在2007年前将在中国、印度以及埃及把140万册图书全部实现数字化。这些图书中的绝大部分都是用汉语、印度语、阿拉伯语、法语以及其他一些语种印刷,英语只占了了很小一部分,并且这些图书都是由美国以外国家的大学图书馆提供并履行扫描任务的。很显然,“百万图书计划”更像是一个实验,它的多国合作模式使得这个计划无法实现自立。
2002年,就在谷歌悄然成立了实况调查小组对扫描所有图书的可行性进行调查时,布鲁斯特?卡尔也在谋求着同样一件事,他恳请美国国会图书馆(Library of Congress)将其馆藏的2000万册图书进行数字化。在2002年11月卡尔的一次有关图书馆的发言中,他怀着极大的热情描述了“普遍获得所有人类知识已成为几代人的梦想”的想法,并且坚定地认为古代的亚历山大图书馆就已经在成功地将人类知识集于一处方面做出了榜样。他说,现在的美国国会图书馆应该通过将全部的馆藏图书数字化来媲美甚至超过从前的亚历山大图书馆的辉煌。卡尔是一个有着强大信念的“牛虻”式的人物,他是如此执着于自己的梦想,并且因这个梦想而激动不已,早已将妨碍他实现梦想的种种可能最小化。他很随便地就做出断言,整个美国国会图书馆的藏书数字化工作只需要花费1亿美元就可以完成。卡尔没有解释他是如何计算出这个数字的,但他却乐观地认为美国国会图书馆会愉快地将其所有藏书装船,并统一送往位于印度的海得拉巴进行扫描――之前卡尔在堪萨斯市购买的那批图书就是在那里实现的数字化。
2002年,谷歌的研究小组在总结各个图书数字化项目的经验教训时发现,是花费10美元还是100美元来完成一本书的数字化,取决于许多因素。如果按照平均一本书需要50美元费用计算的话,完成世界范围内的3000万册图书数字化所需要的费用将会是一个惊人的数字:15亿美元。当时的谷歌正处于财富迅速增长的阶段,从2000年的年收益1900万美元、净亏损1500万美元,跃升为2002年的年收益亿美元、净利润约1亿美元,这是振奋人心的增长。但是,以它当时的规模去花费15亿美元的庞大数目进行图书数字化,从财务角度来说显然是不可行的。
谷歌决定,在佩奇和他的同事找到并制定出一套办法来获得书页上的图像之前,公司不会开始图书数字化项目。他们要求找到的办法所花费的成本必须要远远低于正在进行此类项目的其他公司。卡内基?梅隆大学的“百万图书项目”采用的做法从来就不在谷歌管理层的考虑范围之内。还有一种可能降低劳动力成本的办法,那就是依靠机器人扫描仪代替工人来完成工作,但这样的做法会使在劳动力成本上省下来的资金用于得不偿失的资产投资上。
谷歌应对图书数字化项目进行中出现的高费用问题的解决办法是,从两个渠道来获得图书的“书源”:一是还在印刷中的图书;一是尚未获得出版权的图书。如果出版商愿意帮忙的话,这些正在付印的图书就能够以非常低廉的费用进行数字化。出版商可以提出用同样的数字文件来给图书进行电子排版,但在许多情况下,这样的电子排版并不能使用,因为许多的网页内容不够规范,不合乎图书出版的页码要求。在这种情况下,谷歌可以利用现成的技术,而且不需要太多花费,将装订好的图书进行所谓的“破坏性扫描”:将书页拆开,然后对每一页进行快速扫描。这只是容易操作的部分。不容易的部分则是数字化――非破坏性地――90%的图书都不会再付诸印刷。