数字数据的增长
希尔伯特研究发现:全球数字数据的数量每3年多就会翻一番,而模拟数据的数量则基本上没有增加。2000年,世界上3/4的数据都是存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上的模拟数据,数字存储信息只占全球数据量的1/4。2002年,数字技术的全球数据存储量首次超过模拟技术。而在2007年,只有7%的数据是存储在报纸、图书、图片等媒介上的模拟数据,其余全部是数字数据。预计到2013年,非数字数据只占不到2%。1986~2007年,纸质媒介存储的数据在全球数据总量中的比重从33%降到了的0.007%。
电子书替代了纸质书,数字影像替代了胶片影像,数字语音替代了模拟语音,数字视频替代了模拟视频,甚至公交卡替代了传统的公交票,存储在手机上的票据可以充当电影票、登机牌……当文本、图像、声音、视频都可以用1和0表示,都能够以数字格式记录、存储、编辑并传播时,数据便开始全面进入我们工作和生活。信息生产和传播变得更加简单,通过计算机智能化地处理这些信息成为可能。
数字化的力量是强大的。2010年纸质版《大英百科全书》,全套书售价1 395 美元,包含32册,重达58.5千克。然而,它的全部内容还装不满一个4G的U盘。有鉴于此,《大英百科全书》的出版社于2012年3月对外宣布,具有244年历史的《大英百科全书》将不再推出纸质版,内容全面数字化。实际上,4年前,大英百科全书公司总裁乔治·考茨就曾表示,《大英百科全书》的网络版和电子版的发行量已经超过纸质版,纸质版的发行收入只占总收入的20%。
互联网上运行的维基百科是数字化百科全书的代表,以此为例。在2001年,即维基百科创建的第一年,就创建了超过2万个条目,平均每月1 500条。截至2013年8月,英文版的维基百科已有429万多个条目,是《大英百科全书》的43倍。而全球所有282种语言独立运作的维基百科版本共突破2 100万个条目,总登记用户超越3 200万人,总编辑次数更是突破12亿次。来自世界各地的参与者都可以编辑维基百科中的任何文章及条目,他们共同形成了一个免费的、动态的、自由开放的全球知识体。数字化正是实现这一切的基础。
非结构化数据的增长
有研究认为,组织一直在分析应用的数据只占数据总量20%,这些数据主要是结构化数据,另外80%的数据并没有得到很好的利用,这部分数据主要是非结构化数据。