05 统计学家的大数据“狂想曲”（2）

看穿一切数字的统计学（日）西内启

表2–1 专业术语简单介绍

数据挖掘从已经存在的大量数据中找出有价值的信息和假设的方法，被称为数据挖掘。这种方法在拥有一定准确度的前提下更加重视速度，通过重复比较简单的计算过程就能够实现，所以应用比较广泛。最常见的例子是对超市的POS（销售终端）数据进行数据挖掘，结果显示同时购买尿片与啤酒的概率出人意料得高。

文本挖掘对文字进行数据分析的方法。将语言学的方法延展，使其也能够应用于商务活动。通过被称为语素分析（将文章拆分成单词）的过程，对出现过的某些单词，以及单词之间的关联性进行分析。

Exadata

系统常年以来，一直占据数据库业界老大地位的甲骨文公司经过巨额收购后终于完成的大数据相关主力商品。在软件和硬件两方面都能够最快地分散数据进行高速处理。性能和价格都很高。

Greenplum系统 Exadata系统的竞争对手。充分地利用了开源技术，比Exadata系统便宜很多，同时也能够对庞大的数据进行高速处理。

分散处理对于难以处理的庞大数据，如果分散到100台服务器上分别处理，最后将结果统计一下就能够得到比单一处理高100倍的效率。由于数据的构造和计算程序算法的不同，想要实现“完美分散后统计结果”所消耗的时间也不同，这是这种方法最大的难点所在。

内存

数据库为了提高数据读写的速度，将数据记录在内存（RAM）上的方法。当然，如果切断电源数据就会消失，所以为了弥补这一缺陷尝试使用SSD（固态硬盘）和RAM相结合的方法。