万物皆有关联(2)

“是什么”比“为什么”更重要

一家公司正在从社会化媒体上抓取各种数据,通过寻找影响票房成绩的相关因素预测票房。它针对电影选取30个参数,对演员选取50个参数,包括在哪里长大、毕业学校和毕业时间、扮演过的角色、收视率和票房如何、有过什么绯闻、跟谁关系好、网民评价等。根据这些参数,这家公司预测电影《1942》票房是3.8亿元,会亏本。制片方华谊兄弟认为这家公司是在“黑”他们,但最后的票房真的只有3.6亿元。

整件事情背后最有意思的是该公司选取的那些貌似古怪的参数。大家知道这些参数和预测结果相关,却并不了解如何相关。换言之,大家只能知道“是什么”,不知道“为什么”。从对因果关系的重视转向对相关关系的渴求,是大数据带给我们的根本性的思维方式转变。

寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难且用途不大,人类还是习惯提出“为什么”。在日常生活中,人们总是热衷于用因果关系看待周围的一切。科学家们也都在努力探寻现象背后不变的真理与因果关系,以作为后续行为的指导。

进入大数据时代,如潮的数据涌来,信息更新和环境变迁的速度远快于我们思考和验证的速度,纷繁复杂的关系需要我们快速地梳理,我们无须知道现象背后的原因。

相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大。如果电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的致病原因就没有这种治疗方法本身重要。同样,只要我们知道什么时候是买机票的最佳时机,就算不知道机票价格频繁波动的原因也无所谓。

对相关关系的渴求将带领我们走向扁平化的世界,拓展思考领域与眼界,获得理解这个世界的更多角度。我们不再需要在还没有搜集数据之前,就把分析建立在早已设立的少量假设的基础之上。大数据可以让过分沉迷于因果关系的人对世界、对人类自己有一个开放性的解释。

预测:大数据的核心

在气象经济学界流行这样一条“德尔菲气象定律”,即气象投入与产出比为1∶98,也就是说,在气象信息方面每投入1元,就可以得到98元的经济回报。一个典型的例子是,气温每降低1摄氏度,北京市燃气供暖系统日消耗天然气将增加约200万立方米。如果提高气象预报的精度,实时对供暖系统进行合理调控,无疑将节省一笔很大的能源消耗和经费开支。

读书导航