数据会说谎,为什么我们还深信不疑

人们衡量所做的一切

从生活到工作,从医疗到教育,从交通状况到企业利润,人们通过先观察再行动,来理解我们的世界。于是,我们衡量所做的几乎一切。

孩子在学校学习了吗?对他们进行测试。

我们的工作效率高吗?统计工作时间。

一家企业是否成功?对收入、利润、增长等数据进行细分,直到你确定为止。

这些措施、评价和业绩指标就是我们的衡量指标。它们不仅是我们用来量化了解生活的工具,也是量化了解世界的工具。衡量指标有助于我们决定哪些事情值得重视且优先于其他事情,衡量指标塑造了我们对世界的理解。我们花费大量时间和资源来选择、搜集和分析构成这些衡量指标的数据。几乎没有什么是我们不去测量的。

与简单的测量不同,衡量指标是一种进行赋值的测量。也就是说,衡量指标是带有目标的测量。例如,考试得A比得D好,公司利润增长是件好事。衡量指标可以告诉我们,情况是在改善还是在恶化。当我们选择衡量某个事物时,往往是在选择追求它。

在信息时代,我们被淹没在数据之中。数字革命在世界上掀起了一股数据浪潮,只要接入互联网,任何人都可以毫不费力地获得各种信息。我们不再受限于单调乏味的记录,我们拥有的数据多到不知该如何处理。计算机不仅成倍地提高了我们的计算能力,还提高了我们搜集、存储和共享信息的能力。互联网扩大了信息量,并从根本上提高了信息交换的便捷性。政府、企业、组织和个人搜集利用这些新信息来制定政策、开发更好的产品和营销策略、提高生产力、解决社会问题,以及满足个人利益。

数据的爆炸式增长导致我们对衡量指标的使用激增。有了更多的信息,我们就可以跟踪更多的措施,实现更多的目标,进行更多的评估。毫无疑问,在数据领域发生的革命给我们的世界带来了无数益处。更好的数据意味着更好的决策。更多更好的信息意味着我们的医疗系统能拯救更多的生命,企业能提供更好的产品和服务,人们对自己的健康、财富和幸福能做出更好的选择。

然而,数字革命创造了一种信息狂妄。聚光灯越集中在这个世界可测量的部分上,我们就越相信我们无法测量的部分不再存在。有了新信息,我们就忘记了所有我们不知道或难以知道的事情。我们太过专注于那些在灯光下看到的事物,以至于忘记了成功的关键可能在黑暗中。企业如果发现了有关其供应链、生产过程和市场运输的大量新信息,就不应该忽视市场适销性、创新、员工激励,以及市场中未知和不可预测的变化等更难获得的信息。

信息如此丰富也有不利的一面。就像蚂蚁会被信息素引入歧途一样,我们也会被我们认为对自己有帮助的衡量指标引入歧途。我们不仅要对信息的真实性和完整性持批判态度,还必须理解数据的含义,为什么它们很重要,以及它们如何影响我们的行为。

我们必须认识到,那些用来理解、评估和分析世界的工具,也会影响我们的判断,误导我们的注意力,或者蒙蔽真相。

无处不在的数据陷阱

你一定想不到,为什么癌症发病率上升竟可能是件好事?

2018年,60多万个美国人死于癌症,这简直骇人听闻。据估计,在那一年还有超过170万人被诊断出患有癌症。预计每4个美国人中就有一人死于癌症。但情况并非一直如此。1970年,死于癌症的人数只占美国死亡人数的16%。1958年这一数字是15%。1900年这一数字是4%。

癌症诊断率急剧上升的原因是什么?是我们摄入体内的化学物质吗?是我们的生活方式?又或许是手机、微波炉、电脑和收音机等的使用增多?其实,这些都不是。头号原因会让你大吃一惊。

虽然在过去的几十年里,有多种原因导致癌症死亡率上升,但最大的原因是我们很少有人猜到的:心脏病。心脏病导致癌症发病率上升的原因则更为奇特。这并不是因为得心脏病的人越来越多,而是因为得心脏病的人越来越少。

事实上,心脏病是美国人的头号杀手。2015年,心脏病导致的死亡人数多于癌症,有60多万人。但在过去的几十年里,心脏病的发病率和死亡率都大幅下降。2001-2011年,心脏病死亡人数下降了近39%。1970年,心脏病占全部死亡人数的40%。2002年,这一比例为28%。2011年,596339名美国人死于心脏病,相当于每10万美国人中有191人死于心脏病。2001年,这一数字为700142,即每10万美国人中有248人死于心脏病(请注意这里使用人均死亡率是多么重要)。心脏病的减少是过去几十年来公共卫生领域最伟大的成就之一。此外,结核病、腹泻、肠炎、伤寒、白喉和麻疹等传染病的死亡率也大幅下降。

不幸的是,每个人最终都会死。由于死于心脏病和各种传染病的人越来越少,而且心脏病和各种传染病是死亡的主要原因,因此,本应死于心脏病或传染病的人现在活得更长了。他们中的许多人寿命长到最终患上了癌症。简言之,并不是死于癌症的人越来越多,而是死于其他疾病的人越来越少。默认情况下,如果你只是用癌症造成的死亡比例,或者总死亡人数来衡量癌症的影响,那么癌症似乎越来越严重了。人总会死于某种疾病,一个人年纪越大,死于癌症的可能性就越大。所以,奇怪的是,癌症发病率上升是件好事。正如丹·加德纳(Dan Gardner)所言,如果平均预期寿命上升到100岁,癌症发病率将会飙升。由于很少有其他原因导致死亡,几乎每个人都会在某个时候患上癌症。这简直太棒了。

庆祝癌症发病率上升的奇葩案例引发了一个重要的问题:为什么这一点如此反常?死亡率上升怎么可能是积极的呢?原因在于,不是所有的死亡都是一样的。度过漫长的一生之后在85岁时死去和在8岁时死去是完全不同的两件事。晚上在睡梦中安全舒适地死在自己家里和被人随意攻击或谋杀是截然不同的。虽然我们都同意死亡是一件悲惨的事情,但我们也同意,有些死亡比其他死亡更理想,有些死亡比其他死亡更悲惨。这影响了我们对疾病的看法。

想象一下,有两种疾病每年造成的死亡人数相当,你会把更多的精力放在消除哪一种疾病上?在没有更多信息的情况下,我们很难做出决定。现在再想象一下,死于第一种疾病的人的平均年龄是70岁,而死于第二种疾病的人的平均年龄是11岁。此时你会集中精力消灭哪一种疾病呢?答案显而易见。基于每百万人死亡人数的直观评估会告诉我们,这两者之间没有区别。我们都知道这是不对的。然而,我们对疾病和其他死因的了解,很大程度上来自每年死于此病的原始人数。当在公共话语中讨论公共健康时,人们往往把焦点放在“头号死因”上,或前三名,或前十名,或其他什么。直到20世纪90年代,即使在公共卫生领域,大多数关于疾病的评估也集中在这些因素上:死亡率、发病率和流行率。但这些衡量方法是有误导性的。它们忽略了这些死亡的性质及其对受害者的影响。

衡量指标往往无法区分品质差异很大的测量单位。5岁时的死亡比85岁时的死亡要糟糕得多。患有重度抑郁症比轻度缺铁更糟糕。如果不考虑这些差异,我们就会过度重视不太重要的条件,而忽略更重要的条件。简言之,我们必须记住,既要衡量品质,也要衡量数量。某种东西越多,并不意味着它就越好。

当我们纯粹以数量来衡量事物,而不考虑它们的不同品质时,我们就会让自己陷入各种各样的适得其反、效率低下或不理想的境地。

说谎的从来不是数据本身

通过这个癌症发病率的案例,我们可以深刻感知到,那些看似理性的数据,却是会“说谎”的,在不知不觉中就欺骗了你。衡量指标能为我们的决策提供洞察力、清晰度和有价值的信息。但是,它们也可以瞒天过海,混淆视听。

为什么人们总是测量错误的数据,而忽视重要的指标设定?

在许多系统中,关于什么是有价值的、什么是重要的,存在着许多不同的观点。如果我们仅仅依靠个人观点来判断好坏,那么我们将永远无法解决这类问题。

衡量指标提供了一个客观、冷静且一致的标准,我们可以用这个标准比较和评估业绩,衡量指标能够让我们摆脱关于“什么是重要的,以及为什么重要”这个问题混乱的、各执一词的和情绪化的讨论。衡量指标可以跳过对话,提供一个适用于所有人的清晰一致的标准。衡量指标为我们提供了客观性,大多数衡量指标最终的目的都是改进我们所做的事。

在一个理想的世界里,我们选择最好的衡量指标,并遵循它们建议的成功之路。然而,这些衡量指标却可能让我们误入歧途。

当衡量指标的目的存在缺点时,就有可能会误导、误解和歪曲实际发生的事,并破坏衡量指标的初衷。衡量指标可能导致我们采取适得其反的行动,将我们的注意力吸引到最终并不重要的事情上,由于选择了错误的衡量指标,我们在无效的活动上花费了过多的时间和资源。衡量指标可能扭曲我们对世界的看法。我们甚至可能成为衡量指标的奴隶,过于关注自己在测量中的得分,而忘记了自己真正要实现的目标。

可见,说谎的从来不是数据本身,而是被不科学的衡量指标支配的人。

衡量指标会在很多方面误导我们,幸运的是,我们可以从这些错误中吸取教训。学会识别衡量指标如何以及为什么会误导我们,这样就不会落入陷阱。

本文摘编自《为什么数据会说谎》一书,澎湃新闻经出版方授权刊载。

《为什么数据会说谎:被忽视的衡量指标》,【加】彼得·施莱弗斯/著 张羿/译,中信出版集团,2023年6月版



读书推荐

读书导航