庞杂赢得胜利(1)

“大象无形”出自老子的《道德经》,可以理解为世界上最巍峨的气势往往并不拘泥于一定的规则和格局,而是表现出气象万千的形态,无法捉摸。但在大数据时代,这种无法捕捉的“气”和“形”也许会随着技术的发展被描绘出来。

全景式观察与盲人摸象

过去,随机抽样一直被公认为一种最有效率的数据搜集方法。样本选择的科学性比样本数量更重要,统计学家这样告诉我们如何精确预测。抽样的目的是用最少的数据得到最准确的信息,抽样的科学程度(尤其是样本的随机性和代表性)对于统计结果的准确性至关重要。在传统数据思维下,寻找更大的样本量根本没有必要。因为当样本量达到一定程度后,我们从新增的个体样本上获得的信息只会越来越少,呈现出边际效应递减的规律。因此,并不是数据越大越好。

然而,统计学家们已经开始抱怨抽样方法的缺陷:它注定让我们无法观察事物全面的细节,抽样结果会受到主观偏见的影响,有如盲人摸象。有人说,用抽样的方法分析整体人口状况时,正确率能达到97%,但也许正是那被忽略的3%会完全颠覆已有的结论,尤其是当我们想了解更深层次的微观情况时,抽样方法就有些爱莫能助了。例如,1 000人看似是一个比较大的样本,但如果将研究对象细分至一线城市大龄单身女性,符合条件的可能只有10多个样本。从这样小规模的数据中,无法分析出任何有意义的结论。

即便不抽样,动员大量人力、物力进行普查,也是在事先确定调研问题和被访问人群后才开始执行的。从有限的问卷题目中,注定只能看到事物的某几个方面,无法获得更加客观和深入的信息。

以前由于缺乏存储和处理全量数据的工具,我们通常把这种无奈看作理所当然。在大数据时代,“样本=全体”的数据处理模式已经成为可能。我们可以分析更多的数据,而不再依赖于随机抽样。

谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美网络搜索市场,而在这些数据中,已经完全没有必要抽样调查这些数据:所有的记录都在数据仓库躺着等待人们挖掘和分析。

读书导航