第8节:内在有偏的样本(6)

最基本的样本是随机样本,它是指完全遵循随机原则从总体中选出的样本。总体即形成样本的母体。把索引卡片文件夹中每隔10个的名字抽出来,从许多纸张中任意抽出50张,在皮卡迪利大街译者注:皮卡迪利大街是英国伦敦市一条繁华的街道。每遇见的第20个人作为访问对象。(但需要注意的是,在最后一个例子中,总体并不是全世界的人,也不是全体英国人或者所有旧金山人,而只是当时在皮卡迪利大街上的人。一个进行民意调查的访问员宣称,她选择在火车站进行调查的原因是"在那里能遇到所有类型的人。"不过,不得不向她指出的是,某些人比如婴儿母亲的代表性并不足。)

随机样本的检验方法是:总体中的每个名字或每个事物是否具有相同的几率被选进样本?纯随机样本是惟一有足够把握经受统计理论审查的样本。但它也有不足之处,在很多情况下,获得这种样本的难度很大并且十分昂贵,以至于单纯考虑成本就会排除它。分层随机抽样是一个更经济的替代品,目前在民意调查和市场研究等领域中得到了广泛的应用。

为了获得分层抽样下的随机样本,你需要将总体按照事先已知的优势比例划分出不同的组。这时你就可能遇上麻烦:关于分组比例的信息可能并不正确。你对访问员进行指导,以确保他们调查到一定数量的黑人,按照这样或那样的比例调查属于不同收入阶层的人,调查一定数量的农民,等等。同时,每一组人中40岁以下和40岁以上的人数相同。

这听上去很不错,但实际上会怎样呢?在黑人还是白人的问题上,大部分时候访问员能够准确判断。但在收入分组时,他会出很多错。至于农民,你如何划分一个在城镇上班又有部分时间种地的人?即便是岁数的问题也会引起差错,为了确保准确性,访问员会挑选那些看上去明显小于40岁或明显大于40岁的人进行调查。在这种情况下,由于缺少40岁左右的人而导致样本有偏。你不可能获得可靠的结果!

读书导航