书籍详情

R语言:大数据分析中的统计方法及应用

R语言:大数据分析中的统计方法及应用

作者:薛薇

出版社:电子工业出版社

出版时间:2018-07-01

ISBN:9787121339158

定价:¥48.00

购买这本书可以去
内容简介
  大数据分析,其学习起点应是大数据的统计分析;大数据分析,其学习特点应是案例化、工具化和业务导向化。本书面向大数据分析实践,基于大数据案例,以问题为线索,以解决问题为导向讲解统计方法及R语言实现;突出大数据应用特色,兼顾统计方法的经典性和普适性、理论讲解的通俗性和严谨性、R语言代码的实操性和示范性。本书提供配套全部案例数据及各章节R语言程序代码,可登录华信教育资源网www.hxedu.com.cn免费下载。
作者简介
  薛薇,中国人民大学统计学院副教授,应用统计科学研究中心副主任,主要著作:SPSS统计分析方法及应用(第4版),北京市高等教育精品教材,电子工业出版社,2017.R语言数据挖掘方法及应用,电子工业出版社,2016.SPSS Modoler数据挖掘方法及应用(第2版),电子工业出版社,2014.SPSS统计分析方法及应用(第4版),北京市高等教育精品教材,电子工业出版社,2017.1
目录

第1章 R语言与统计分析概述 1

1.1 写在前面的话 1

1.1.1 大数据的广义概念 1

1.1.2 目标定位 2

1.1.3 初识R 3

1.2 R语言入门 3

1.2.1 R中的基本概念 3

1.2.2 R的下载安装 5

1.2.3 R程序的运行 6

1.2.4 R使用的其他方面 10

1.3 Rstudio简介 12

1.4 从大数据分析案例看统计分析的基本框架 13

1.4.1 数据集 14

1.4.2 分析目标和数据预处理 16

1.4.3 数据的基本分析 17

1.4.4 总体特征的推断 17

1.4.5 推断多个变量间的总体相关性 18

1.4.6 数据的聚类 19

1.5 本章涉及的R函数 19

第2章 R的数据组织 20

2.1 R的数据对象 20

2.1.1 R对象的类型划分 20

2.1.2 创建和管理R对象 21

2.2 R数据组织的基本方式 22

2.2.1 R向量及其创建与访问 22

2.2.2 R矩阵和数组及其创建与访问 27

2.2.3 R数据框及其创建与访问 32

2.2.4 R列表及其创建与访问 36

2.3 R数据组织的其他问题 37

2.3.1 R对象数据的保存 37

2.3.2 通过键盘读入数据 38

2.3.3 共享R自带的数据包 39

2.4 大数据案例的数据结构和R组织 39

2.4.1 读文本文件数据到R数据框 39

2.4.2 大数据分析案例:北京市空气质量监测数据 40

2.4.3 大数据分析案例:美食餐馆食客点评数据 41

2.4.3 大数据分析案例:超市顾客购买行为数据 42

2.5 本章涉及的R函数 43

第3章 R的数据整理和编程基础 45

3.1 从大数据分析案例看数据整理 45

3.1.1 美食餐馆食客点评数据的整理问题 45

3.1.2 超市顾客购买行为数据的整理问题 45

3.1.3 北京市空气质量监测数据的整理问题 46

3.2 数据的初步整理 46

3.2.1 数据整合 46

3.2.2 数据筛选 46

3.2.3 大数据分析案例:美食餐馆食客点评数据的初步整理 47

3.3 数据质量评估 49

3.3.1 缺失数据报告 49

3.3.2 异常值排查 50

3.3.3 大数据分析案例:美食餐馆食客点评数据的质量评估 50

3.4 数据加工 52

3.4.1 数据加工管理中的常用函数 53

3.4.2 数据分组和重编码 59

3.4.3 大数据分析案例:利用数据加工寻找“人气”餐馆 60

3.5 数据管理中的R编程基础 61

3.5.1 分支结构的流程控制及示例――促销折扣的计算 61

3.5.2 循环结构的流程控制及示例:等差数列的求和 63

3.5.3 用户自定义函数及示例:汇总数据还原为原始数据 65

3.5.4 R编程大数据分析案例:超市顾客购买行为数据的RFM计算 67

3.5.5 R编程大数据分析案例:北京市空气质量监测数据的整理 68

3.6 本章涉及的R函数 70

第4章 R的基本分析和统计图形 71

4.1 从大数据分析案例看数据基本分析 71

4.1.1 美食餐馆食客点评数据的基本分析 71

4.1.2 北京市空气质量监测数据的基本分析 72

4.2 R的绘图基础 73

4.2.1 图形设备和图形文件 73

4.2.2 图形组成和图形参数 74

4.3 分类型单变量的基本分析 78

4.3.1 计算频数分布表 78

4.3.2 分类型变量的基本统计图形 78

4.3.3 大数据分析案例:主打菜的餐馆分布有怎样的特点 79

4.4 数值型单变量的基本分析 80

4.4.1 计算基本描述统计量 80

4.4.2 数值型变量的基本统计图形 81

4.4.3 大数据分析案例:餐馆评分的分布有怎样的特点 83

4.5 大数据分析案例综合:北京市空气质量监测数据的基本分析 85

4.6 本章涉及的R函数 88

第5章 R的变量相关性分析和统计图形 89

5.1 分类型变量相关性的分析 89

5.1.1 分类型变量相关性的描述 89

5.1.2 分类型变量相关性的统计图形 93

5.1.3 大数据分析案例:餐馆的区域分布与主打菜分布是否具有相关性 93

5.2 数值型变量相关性的分析 94

5.2.1 数值型变量相关性的描述 94

5.2.2 数值型变量相关性的统计图形 95

5.2.3 大数据分析案例:餐馆各打分之间、打分与人均消费之间是否具有相关性 96

5.3 大数据分析案例综合:北京市空气质量监测数据的相关性分析 100

5.4 本章涉及的R函数 102

第6章 R的均值检验:单个总体的均值推断及两个总体均值的对比 104

6.1 从大数据分析案例看推断统计 104

6.1.1 美食餐馆食客点评数据分析中的推断统计问题 104

6.1.2 北京市空气质量监测数据分析中的推断统计问题 105

6.2 单个总体的均值推断 106

6.2.1 以PM2.5总体均值推断为例看假设检验基本原理 106

6.2.2 大数据案例分析:估计供暖季北京市PM2.5浓度的总体均值 110

6.3 两个总体均值的对比:基于独立样本的常规t检验 111

6.3.1 两个独立样本均值t检验的原理和R实现 111

6.3.2 深入问题:方差齐性检验和R实现 114

6.3.3 大数据分析案例:两个区域美食餐馆人均消费金额是否存在差异 115

6.4 两个总体均值的对比:置换检验 117

6.4.1 两个独立样本均值差的置换检验原理和R实现 117

6.4.2 大数据分析案例:利用置换检验对比两个区域美食餐馆人均消费金额的总体均值 118

6.5 两个总体的均值对比:自举法检验 118

6.5.1 两个独立样本均值差的自举法检验原理和R实现 118

6.5.2 大数据分析案例:利用自举法对比两个区域美食餐馆人均消费金额的总体均值 120

6.6 两个总体的均值对比:基于配对样本的常规t检验 121

6.6.1 两个配对样本均值t检验的原理和R实现 121

6.6.2 大数据分析案例:两个区域美食餐馆口味评分与就餐环境评分的均值是否存在差异 122

6.7 大数据分析案例综合:北京市空气质量监测数据的均值研究 123

6.8 本章涉及的R函数 125

第7章 R的方差分析:多个总体均值的对比 127

7.1 从大数据分析案例看方差分析 127

7.1.1 美食餐馆食客点评数据分析中的方差分析问题 127

7.1.2 北京市空气质量监测数据分析中的方差分析问题 128

7.2 多个总体均值的对比:单因素方差分析 128

7.2.1 单因素方差分析原理和R实现 128

7.2.2 深入问题:方差齐性检验和多重比较检验 131

7.2.3 大数据分析案例:利用单因素方差分析对比不同主打菜餐馆人均消费金额的

总体均值 131

7.3 多个总体均值的对比:多因素方差分析 135

7.3.1 多因素方差分析原理和R实现 135

7.3.2 大数据分析案例:利用多因素方差分析对比不同主打菜餐馆人均消费金额的

总体均值 137

7.4 大数据分析案例综合:北京市空气质量监测数据的均值研究 140

7.5 本章涉及的R函数 142

第8章 R的线性回归分析:对数值变量影响程度的度量和预测 143

8.1 从数据分析案例看线性回归分析 143

8.1.1 美食餐馆食客点评数据分析中的回归分析问题 143

8.1.2 北京市空气质量监测数据分析中的回归分析问题 143

8.1.3 线性回归分析的一般步骤 143

8.2 建立回归方程 145

8.2.1 线性回归模型和线性回归方程 145

8.2.2 线性回归方程的参数估计和R实现 145

8.2.3 大数据分析案例:建立美食餐馆食客评分的线性回归模型 146

8.3 回归方程的检验 147

8.3.1 回归方程的显著性检验 148

8.3.2 回归系数的显著性检验 149

8.3.3 大数据分析案例:美食餐馆食客评分回归方程的检验 149

8.4 回归方程的应用 152

8.4.1 回归方程拟合效果的度量 152

8.4.2 预测和预测误差 153

8.4.3 大数据分析案例:美食餐馆食客评分回归方程的评价和预测 153

8.5 回归模型的验证 154

8.5.1 回归模型的N折交叉验证法和R实现 155

8.5.2 回归模型的自举法验证和R实现 155

8.5.3 大数据分析案例:美食餐馆食客评分回归模型的验证 156

8.6 虚拟自变量回归和协方差分析 157

8.6.1 虚拟自变量回归 157

8.6.2 协方差分析 159

8.6.3 大数据分析案例:就餐环境对不同区域美食餐馆人均消费的影响 159

8.7 大数据分析案例综合:北京市空气质量监测数据的回归分析研究 162

8.8 本章涉及的R函数 168

第9章 R的Logistic回归分析:对分类变量影响程度的度量和预测 169

9.1 从大数据分析案例看Logistic回归分析 169

9.1.1 人力资源调查数据分析中的Logistic回归分析问题 169

9.1.2 Logistic回归分析的基本建模思路 172

9.2 Logistic回归方程的解读 173

9.2.1 Logistic回归方程的系数 173

9.2.2 Logistic回归方程的检验 174

9.2.3 大数据分析案例:基于人力资源调查数据探讨技术人员离职的原因 176

9.3 Logistic回归方程的应用 179

9.3.1 Logistic回归方程拟合效果的评价 179

9.3.2 大数据分析案例:基于人力资源调查数据预测技术人员离职的可能性 180

9.4 本章涉及的R函数 181

第10章 R的聚类分析:数据分组 182

10.1 从大数据分析案例看聚类分析 182

10.1.1 超市顾客购买行为数据分析中的聚类分析问题 182

10.1.2 北京市空气质量监测数据分析中的聚类分析问题 183

10.1.3 聚类分析的基本思路 183

10.2 K-Means聚类 185

10.2.1 K-Means聚类原理和R实现 185

10.2.2 大数据分析案例:超市顾客购买行为数据分析中的K-Means聚类 187

10.3 分层聚类 191

10.3.1 分层聚类原理和R实现 191

10.3.2 大数据分析案例:超市顾客购买行为数据分析中的分层聚类 192

10.4 大数据分析案例综合:北京市空气质量监测数据的聚类分析研究 195

10.5 本章涉及的R函数 197

第11章 R的线性判别分析:分类预测 198

11.1 从大数据分析案例看判别分析 198

11.1.1 人力资源调查数据分析中的判别分析问题 198

11.1.2 判别分析的数据和基本出发点 199

11.2 距离判别法 199

11.2.1 距离判别的基本思路 199

11.2.2 判别函数的计算和R实现 201

11.2.3 大数据分析案例:利用距离判别预测技术人员离职的可能性 203

11.3 Fisher判别法 205

11.3.1 Fisher判别的基本原理 205

11.3.2 Fisher判别系数的求解和R实现 207

11.3.3 大数据分析案例:利用Fisher判别预测技术人员离职的可能性 209

11.4 本章涉及的R函数 210

第12章 R的因子分析:特征提取 211

12.1 从大数据分析案例看因子分析 211

12.1.1 植物物种分类中的因子分析问题 211

12.1.2 北京市空气质量监测数据分析中的因子分析问题 213

12.2 因子分析基础 213

12.2.1 因子分析的数学模型 213

12.2.2 因子分析的特点和基本步骤 215

12.2.3 因子分析的模型评价 216

12.3 确定因子变量 217

12.3.1 主成分分析法的基本原理 217

12.3.2 基于主成分分析法的因子载荷矩阵求解和R实现 219

12.3.3 计算因子得分和R实现 220

12.3.4 大数据分析案例:利用因子分析实现植物物种分类中的特征提取 221

12.4 因子变量命名 223

12.4.1 从大数据分析案例看因子变量命名的必要性 223

12.4.2 因子旋转的原理和R实现 226

12.4.3 大数据分析案例:利用因子分析实现北京市空气质量的区域综合评价 227

12.5 本章涉及的R函数 229

猜您喜欢

读书导航