05 统计学家的大数据“狂想曲”(3)

Hadoop

系统 对数据进行分散处理的JAVA(一种程序语言)软件工作模式,主要负责分散处理“最关键的部分”。最近,我们所听说的大规模数据分散处理软件大部分都是基于Hadoop系统运行的。

AWS平台 亚马逊开发的数据库和数据分析云计算服务,也能够对应大数据的分散处理。

非结构化

数据 以甲骨文为首的传统数据库(RDB)是以“构造化的表”与“表之间的联系”为基础对数据进行保存和检索的。这种传统的数据库形式无法很好地进行整理的数据被称为非构造化数据。

(续)

NoSQL RDB的处理是使用结构化查询语言(SQL)记述的,使用其他不同方法保存数据进行处理的方法就被称为NoSQL。

KVS Key Value Store的简称。RDB是以既定的格式对表和表之间的联系进行处理,而KVS则是利用表中的值(Value)和值之间的联系(Key)来对数据进行处理。对包括非结构化数据的大规模数据进行分散处理非常方便。

R语言 开源的统计分析用语言。全世界的专家们可以随心所欲地制作分析方法并且将其公开的库。那些买不起收费软件的贫穷学者们都喜欢使用这个,最近忽然受到了大家的关注。似乎可以直接从Exadata系统、Greenplum系统甚至“统计产品与服务解决方案”软件(SPSS)之中直接调用R语言库。与“大数据”相关的商品和专业术语如表2–1所示。

通过高速化的数据处理,网站就算面对大量增加的用户也能够提供快捷的服务,公司内部系统也能够在短时间内收集指定的数据并且完成作业。由此应该也会带来人工费的节约与效率的提高。我们所听到的“大数据技术的成功体验”多数来自这些方面。

读书导航