失败预测的公式——非样本，无思考

信号与噪声（美）纳特·西尔弗

假设你是一名非常出色的司机。每个人都认为自己是一个好司机，但是你有实际的驾驶记录可以证明这一点：驾龄长达30年，在20 000次出行过程中，只发生过两次轻微剐蹭事故。

你也不是酒鬼，醉驾这种事情似乎永远不会发生在你的身上。但是，有一年在公司的圣诞派对上，一位好友要离开公司，你当时的工作压力又很大，于是情绪出现了波动，不知不觉间喝了12杯伏特加，你喝醉了。此时该开车回家，还是叫一辆出租车呢？

这个问题的答案肯定是叫辆出租车载你回家。

但你突发奇想要自己开车回去，你是这样为自己找理由的：自己曾经有20 000次驾车出行的经历，只发生过两起小意外，其他19 998次都安全抵达目的地。安全率这么高，又何必那么麻烦让出租车载你回家呢？

但问题是，20 000次出行记录没有一次是像这次醉酒驾车的，你的醉驾样本数量不是20 000次，而是零次。因此，用先前的经验预测此次驾车的风险是毫无根据的。这个例子就解释了什么是“非样本”问题。

这一问题看似很容易避免，但评级公司正是犯了这一错误。穆迪公司根据过去的数据——特别是美国自20世纪80年代以来的房地产市场数据——构建了一个预测模式，以此来评估不同抵押违约行为之间的关联程度。问题是，从20世纪80年代到21世纪初期的二十几年的时间里，美国的房价一直保持稳定或略有增长。在这种情况下，认为一个房主的抵押贷款与其他贷款没有什么关系，这种假设看起来好像没有什么问题。但这些从前的数据无法显示当房价开始不断走低时会出现什么情况。房市崩盘是“非样本”事件，评级公司在此基础上对违约风险进行评价的预测模式也就毫无价值可言。