什么是大数据(1)

“人类历史上最早的一批城市都诞生在河边,河流为人类提供了食物、水和交通。而我们要做的就是创造一条数据的河流,滋养信息经济的发展。”

——纽约一家数据网站首页的标语

什么是大数据

“大数据”一词已经无处不在,然而其概念仍然存在混淆。有人从数量大、速度快、种类多等特征定义大数据;有人把大数据看作一项新技术,例如大数据处理技术Hadoop和非关系型数据库NoSQL;有人从大数据与数据的区别角度提出,大数据不仅包括人们过去搜集、存储和分析的交易数据,更包括人们从点击网页等操作中得到的交互数据以及机器自动搜集的观察数据;还有人认为大数据是一种新的预测信号,在传统情况下,当数据被记录时,人们已经无法对它们采取任何行动,组织在不断管理“失效的数据”,而在“新世界”,组织可以使用信号数据预测将发生什么,并通过干预改善情况。

值得注意的是,无论如何定义,业界几乎所有人都普遍认同,大数据不只是更多的数据,大数据是一个大事件,在未来几年将带来重大的机遇。

大数据与数据有何不同

“大数据”一词由英文“Big Data”翻译而来。很多文章在介绍大数据这一概念时都侧重于强调其“大”,即需要处理的信息量过大,已经超出了一般计算机在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具。

然而,究竟多大才算是大数据?这个问题并没有标准答案,因为大数据的标准是不断调整的。麦肯锡全球研究所报告对大数据有以下定义:大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。这个定义有意地带有主观性,即我们不以超过多少TB为大数据的标准。我们假设随着时间的推移和技术的进步,大数据的量仍会增加。还应注意到,该定义可以因部门的不同而有所差异,这取决于什么类型的软件工具是通用的,以及某个特定行业的数据集通常的大小。因此,今天众多行业的大数据范围可以从几十TB到数千TB。

有人可能有这样的疑问:大数据不就是数据分析的另一种说法吗?大数据与数据究竟有何不同?大数据与传统的数据挖掘相比,与其说是一种量的进步,不如说是一种质的飞跃。人们在大数据的基础上可以做到的事情,在小规模数据的基础上是无法完成的。

读书导航