谷歌数字图书馆
正如活字印刷取代雕版印刷,将汉字、字母分离,再自由组合到一起,大幅提升了印刷的效率,推动了知识的传播与普及。如今,谷歌电子图书馆正在通过现代识别软件,把纸质书籍、图片数据化。
谷歌图书馆是谷歌公司于2004年发布的一个颇具理想主义色彩的项目。它通过把国家版权条例允许的书本内容进行数据化,建立一个容量丰富的谷歌电子图书馆,让处于这个世界任何角落的人都可以通过网络阅读,完全实现知识传递的无国界、无距离。
在项目初期,谷歌主要是使用扫描仪对实体书的内容进行电子化存储,于是珍藏在美国国会图书馆里的书本内容就变成了能在亚洲某个大学教室里使用的电子课件,这种网络的数字化传播方式极大地方便了渴望求知的人。但是这种电子化的读书方式首先需要读者明确自己所搜寻的内容,其次借助搜索引擎在浩如烟海的数字化图书海洋中找到自己需要的内容。因为没有对数字文本的内容进行数据化的处理和分析,谷歌数字图书馆中实际只储藏着这些书本的扫描图片。
近两年,随着识别软件和通信技术的发展,谷歌得以把这些数字化的图片转化为可处理的数据,使之“跃然纸上”。借助能识别数字图像的光学字符识别软件转化扫描图片上的字、词、句、段,如此处理后,谷歌的数字化图像也就顺利地转化为数据化的内容,让这些信息的潜在价值得到最大程度的释放,打造一个开放又可关联的知识世界。