增加1万个样本也只能改变0.1%的标准误差
那么,对于那些不喜欢看数学公式的人,让我们换一种说法解释标准误差的变化程度。
比如说,从10万名顾客的数据中对男女性别比率进行调查的结果,假设顾客中女性的比率占70%。那么关于这一结果的标准误差,在增加抽样调查的人数之后会发生怎样的变化呢。结果如图2–3所示。
当抽样人数只有100名的时候,标准误差为4.6%,那么“顾客中女性比率占70%”的结果实际上在综合考虑后就应该是“女性比率占61%~79%”。但是当抽样人数增加到1 000人时,标准误差就降低到1.4%,综合的结果为“女性比率占67%~73%”;当抽样人数增加至8 000人时,标准误差为0.5%,综合的结果为“女性比率占69%~71%”。
而在此基础上“继续增加抽样调查人数对标准误差的影响越来越小”,当抽样人数为1万人时,标准误差为0.4%,抽样人数为2万人时,标准误差为0.3%。
这一结果,就算与花高价投资的数据处理服务器所得到的“女性比率占70%”的准确结果相比,对于判断可以说也几乎没有影响。
随机抽取8 000名顾客的数据,对于数据库管理员来说易如反掌,而将这8 000条数据记录在Excel表格中,就连打工的学生也能轻松完成。至于数据库管理员的加班费和学生的报酬大概只要几万日元就搞定了吧。为了那仅仅不到1%的准确度,有必要投资数千万日元吗?
虽然这种方法与现在大数据时代的思考方式刚好相反,但是每当有人向我进行数据分析的咨询时,我都会推荐他们“先找到为了进行正确的判断所必需的最少数据”。如果1%的误差在今后几年内不断累积,会对数千万日元的销售额和成本产生影响,那么在这种情况下大数据分析技术就会派上用场吧。可是即便在这种情况下,也没有必要从一开始就对全部数据进行分析。