第8节：内在有偏的样本(6)

统计数字会撒谎（美）达莱尔·哈夫

最基本的样本是随机样本，它是指完全遵循随机原则从总体中选出的样本。总体即形成样本的母体。把索引卡片文件夹中每隔10个的名字抽出来，从许多纸张中任意抽出50张，在皮卡迪利大街译者注：皮卡迪利大街是英国伦敦市一条繁华的街道。每遇见的第20个人作为访问对象。（但需要注意的是，在最后一个例子中，总体并不是全世界的人，也不是全体英国人或者所有旧金山人，而只是当时在皮卡迪利大街上的人。一个进行民意调查的访问员宣称，她选择在火车站进行调查的原因是"在那里能遇到所有类型的人。"不过，不得不向她指出的是，某些人比如婴儿母亲的代表性并不足。）

随机样本的检验方法是：总体中的每个名字或每个事物是否具有相同的几率被选进样本？纯随机样本是惟一有足够把握经受统计理论审查的样本。但它也有不足之处，在很多情况下，获得这种样本的难度很大并且十分昂贵，以至于单纯考虑成本就会排除它。分层随机抽样是一个更经济的替代品，目前在民意调查和市场研究等领域中得到了广泛的应用。

为了获得分层抽样下的随机样本，你需要将总体按照事先已知的优势比例划分出不同的组。这时你就可能遇上麻烦：关于分组比例的信息可能并不正确。你对访问员进行指导，以确保他们调查到一定数量的黑人，按照这样或那样的比例调查属于不同收入阶层的人，调查一定数量的农民，等等。同时，每一组人中40岁以下和40岁以上的人数相同。

这听上去很不错，但实际上会怎样呢？在黑人还是白人的问题上，大部分时候访问员能够准确判断。但在收入分组时，他会出很多错。至于农民，你如何划分一个在城镇上班又有部分时间种地的人？即便是岁数的问题也会引起差错，为了确保准确性，访问员会挑选那些看上去明显小于40岁或明显大于40岁的人进行调查。在这种情况下，由于缺少40岁左右的人而导致样本有偏。你不可能获得可靠的结果！