第7节：内在有偏的样本(5)

统计数字会撒谎（美）达莱尔·哈夫

我们知道，除非在某处安装了泵站，否则一条河流永远不可能高于它的源头。同样的，根据样本得到的结论不会比样本更精确。当数据经过层层统计处理，最后简化为一个带小数点的平均数时，结论似乎闪耀着精确的光芒，但只要再仔细留心整个抽样过程，这个光芒就会消逝。

为了确保结论有价值，根据抽样得出的结论一定要采用具有代表性的样本，这种样本才能排除各种误差。这就是耶鲁的收入数据失真的原因，它也是你在报纸和杂志中读到的许多资料根本不值一提的原因。

一位心理医生曾经写道：实际上每个人都有点神经质。暂且不去管这种提法是否破坏了"神经质"一词的含义，我们来看看这个医生的样本，也就是说，他观察了哪些人才得到了上述结论？事实上，他是在对他的病人进行研究后才得到了这个发人深省的结论，这和代表全体人的样本可差的是十万八千里。想想看，如果一个人心理健全，他是永远都不会接受心理医生的治疗的。

对你所读到的东西多思考一下，你将避免接受许多似是而非的结论。

记住下面这点是有益的：无形的误差与有形的误差一样容易破坏样本的可信度。也就是说，即使你找不到任何破坏性的误差来源，但只要有产生误差的可能性，你就有必要对结果保留一定的怀疑。事实上误差总是存在，如果你仍旧半信半疑，想想1948年和1952年的美国总统大选，它们已足够证明这一点。（1948年美国选举时，所有民调都显示民主党的杜威会获胜，结果却是杜威败给了共和党人杜鲁门，这是美国历史上至今最大的"选举惊奇"。1952年美国大选，新闻传媒普遍看好民主党竞选人史蒂文森，最终共和党候选人艾森豪威尔以绝对优势赢得这场选举。）

更远的例子可以追溯到著名的《文学文摘》（Literary Digest）的惨败，这件事发生在1936年。曾经准确预测了1932年美国大选的1000万个电话用户和《文学文摘》订户，他们又对1936年的大选结果进行了预测，他们向那个倒霉的杂志编辑信誓旦旦地保证：兰登（Landon）将在竞选中脱颖而出，并且与罗斯福（Roosevelt）的所得票数之比为370∶161。这样一个久经考验的调查群体怎么可能产生误差呢？但的确有误差，正如后来许多大学论文和其他史学分析人员所发现的，1936年就有能力购买电话和订阅杂志的人并不能代表所有的选民，至少在经济上，他们是一个极特殊的群体，是有偏的，后来证实他们中的许多人是共和党的选民。该样本选择了兰登，而全国选民却心系罗斯福。