“买了这款巧克力的人,也特别喜欢这种果酱。”“你和上面的这些成功人士都会钟爱这个品牌的家具。”这是哈佛商学院客座教授、数据分析专家汤姆·达文波特眼中大数据的运作方式。从数据中寻找相关关系,通过这种关系对未来做出预测,这是大数据方法论的核心思想。
追踪“蝴蝶效应”
“一只南美洲亚马孙河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可以在两周以后引起美国得克萨斯州的一场龙卷风。”麻省理工学院专家洛伦兹把这种现象称作“蝴蝶效应”。它告诉我们,一件表面上看来毫无关系、非常微小的事情可能与千里之外的一件事情发生关联,并且带来巨大的改变。
在大数据时代,万事万物都可以被数据化地描述出来,建立特定的模型,通过复杂的计算,向我们呈现一个充满关联的世界。
你可能很难想到,互联网上的微博评论会与某家公司的股票价格息息相关。在脸谱网首次公开募股当天,推特上的情感先是逐渐转向负面,脸谱网的股价也于开盘25分钟后下跌。当推特上的情感转向正面时,脸谱网股价在8分钟后开始反弹。当股市接近收盘、推特上的情感转向负面时,10分钟后,脸谱网的股价又开始下跌。推特上每一次情感转向都牵动着脸谱网股价的波动。这两者究竟为什么相关,似乎并没有太多人探究,或者很难在短时间内找到一个具有说服力的解释。但如果因为找不到合理的解释,就忽略这种相关性,不得不说是一种损失。
宾夕法尼亚州立大学生物学家马塞尔·萨拉特和软件工程师沙先克·康德沃通过分析推特上的内容发现,人们对于疫苗的态度与他们实际注射预防流感药物的可能呈现正相关性。他们利用推特用户中谁和谁相关的元数据进行了更进一步的调查,发现未接种疫苗的子人群,进而评估流感爆发的风险。这就是社交网络产生的数据带来的有趣分析和实用价值。
另一个家喻户晓的相关关系的案例是“啤酒与尿布”。在沃尔玛超市,有一个十分有趣的现象:啤酒与尿布这两种风马牛不相及的商品居然被摆到了一起。之所以这么安排货架是因为超市主管在分析数以万计的消费者购物篮后发现,啤酒和尿布是两种关联商品,经常被同时购买。原来,美国妇女通常在家照顾孩子,她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手拎一打自己爱喝的啤酒。与此类似,菠菜摆在沙拉酱旁边卖得更好,在龙卷风天气应该促销蛋挞,这些看起来荒诞不经的规律实实在在地提高了超市的销量。
让数据发声,我们会注意到很多以前从来没有意识到的联系的存在。当前,一场发掘数据相关关系、开发数据价值的竞赛正在世界各地上演。它开启了一场寻宝游戏,而人们对于数据的看法以及对于相关关系价值的态度正是主宰这场游戏的关键。