庞杂赢得胜利(2)

大数据导航的自动驾驶汽车能够实现360度全方位感知,安装在驾驶室内的摄像头会识别交通指示牌和信号灯,轮胎附近的传感器可以根据速度和方位推算汽车当前所在的位置,而连接GPS和谷歌地图的路线系统可以让它找到通往目的地的最快捷路线。

纽约警方通过分析案件与发薪日、体育赛事、天气变化、假日等变量的相关性,预测最可能发生罪案的“热点”地区,并预先在这些地区部署警力。无论是从时间纵向上来看,还是部门间数据联动的横向上来看,这种数据搜集视野都呈现出全景式的特点,从而更加富有生命力。

拥抱数据的杂乱

执著于精确性是信息缺乏时代的产物。传统的数据分析师很难容忍数据中存在的错误和噪声,他们会花大量的精力让数据更加精确和标准,提升基础数据的精准度以降低分析结果的错误概率。

当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。如果购买者不知道牛群里有 80头牛还是 100头牛,那么交易就无法进行。因为需要分析的数据很少,所以我们必须尽可能精准地量化我们的记录。在大数据时代,很多时候,追求精确度已经变得不可行,甚至不受欢迎了。例如,一个小商店在晚上打烊时要把收银台里的每分钱都数清楚,但是我们不会,也不可能用“分”这个单位精确计算国民生产总值。

曾经我们大部分的习惯都建立在一个预设立场上,即用来进行决策的信息必须是少量、精确且至关重要的。然而,当数据量变大、数据处理速度加快且数据变得不那么精确时,这些预设立场都不复存在了。随着互联网的发展,特别是社交媒体、电子商务以及智慧终端的快速发展,数量巨大的数据碎片时刻都在产生。这些数据来自不同的渠道、不同的领域,有着不同的格式与标准。数据的杂乱变得不可避免,如果只是执迷于数据的精确性,你可能会感到无所适从。

在大数据时代,我们完全可以用一种更轻松的心态看待杂乱性,并接受它带来的精确性问题。试想,如果杂质是偶然的,它一定会被更多的正确数据淹没;如果噪声存在规律,足够多的数据可以发现这个规律,从而过滤噪声;如果误差是内在的必然性,更多样化的数据采集和信息融合也必然能纠正误差。例如,GPS在监测地理位置时可能有几十米的误差,但加上了地图数据可以保证导航准确性。基于单个摄像头的车牌抓取和识别可能受光照条件、空气能见度、车辆运行速度和遮挡情况的影响,但获得的部分信息(不完整车牌和车辆特征),可以与其他摄像头获取的信息进行对照和相互印证。现代技术让我们能够对庞杂的数据进行快速高效的整理,帮助我们做出更好的决策。

读书导航