书籍详情

R统计高级编程和数据模型:分析、机器学习和可视化

R统计高级编程和数据模型:分析、机器学习和可视化

作者:[美] 马特·威利,[美] 约书亚·F.威利 著,吴文国,胡明晓 译

出版社:清华大学出版社

出版时间:2020-07-01

ISBN:9787302557005

定价:¥128.00

购买这本书可以去
内容简介
  ● 如何使用R语言进行高级数据分析,涉及的技术包括广义线性模型、广义可加模型、混合效应模型、机器学习、并行处理 ● 如何使用R语言的数据可视化技术实现回归,如线性回归和高级回归,并了解回归样条和可加模型 ● 如何使用R语言实现机器学习,包含平行处理、降维、特征选取和分类 ● 如何使用R语言的多重插补技术解决数据缺失问题 ● 如何使用广义线性可加模型实现普通量、二值量和计次量的输出,如何使用自采样法(Bootstrapping)分析不确定性 ● 学习如何对个体内的变异性进行建模,进而捕捉个体在方法以及时间稳定性上的差异
作者简介
  Matt Wiley数学专业终身副教授,他在数学教育和学生培养方面获得过许多奖项。Matt在加州大学和得克萨斯 A&M大学获得了理论数学学位、计算机科学学位和工商管理学位。他是维多利亚学院质量提升项目的主任,负责学院综合评估、关键绩效指标管理、一键式报表生成器和校园师生数据咨询等工作。他还兼职Elkhart集团有限责任公司的管理工作,是该公司的数据咨询师。Matt在R语言、SQL、C++、Ruby、Fortran和JavaScript等语言方面具有丰富的编程经验。他喜欢把自己的热情融入程序设计中,从逻辑问题求解和数据科学中找到乐趣。从董事会会议室到教室,他总是能找到合适的方法来与不同学科和不同领域的团队建立起良好的合作关系,他总是能把复杂的思想和项目变得容易理解和解决。 Joshua F.Wiley莫纳什大学认知与临床神经科学学院和心理学学院讲师,他在加州大学洛杉矶分校获得了博士学位,并在初级保健和预防领域完成了博士后训练。Joshua研究如何用先进的量化方法理解心理因素之间的动态关系、睡眠以及其他与身心健康有关的行为。他开发或与他人共同开发了众多R语言包,如用于建立位置尺度结构化方程模型的varian包,能够把R语言链接到商业软件Mplus的MplusAutomation包,他还设计了许多数据分析函数和能够加快JWileymisc处理速度的函数。译者简介 吴文国 温州大学计算机科学与人工智能学院副教授、博士,从事计算机专业基础课教学工作,讲授C程序设计、C++程序设计、Python程序设计、数据结构与算法等课程,研究方向是算法、数据挖掘和人工智能,他还翻译了许多计算机专业的英文图书。
目录

第1章  单变量数据可视化  1

1.1  分布  2

1.1.1  可视化观测数据的分布  2

1.1.2  堆积点阵图与直方图  2

1.1.3  经验密度图  4

1.1.4  比较观测分布与期望分布  6

1.1.5  Q-Q图  7

1.1.6  比较经验密度图与期望分布的密度图  10

1.1.7  其他分布的拟合  11

1.2  异常值  16

1.3  小结  23

第2章  多变量数据可视化  25

2.1  分布  25

2.2  奇异值  30

2.3  变量之间的关系  33

2.4  小结  45

第3章  GLM Ⅰ  47

3.1  概念背景  48

3.2  分类预测器和虚拟编码  49

3.2.1  二级分类预测器  49

3.2.2  三级或三级以上的分类预测值  50

3.3  交互作用和调节效应  52

3.4  公式接口  53

3.5  方差分析  55

3.5.1  概念背景  55

3.5.2  R语言的ANOVA函数  58

3.6  线性回归  61

3.6.1  概念背景  61

3.6.2  R语言中的线性回归  62

3.6.3  高性能线性回归  76

3.7  控制混合影响  78

3.8  案例研究:多线性回归与交互作用  86

3.9  小结  93

第4章  GLM Ⅱ  95

4.1  概念背景  96

4.1.1  Logistic回归  96

4.1.2  计数回归  97

4.2  R程序示例  99

4.2.1  二项Logistic回归  99

4.2.2  有序Logistic回归  106

4.2.3  多分类Logistic回归  109

4.2.4  泊松回归和负二项回归  113

4.3  案例研究:多项Logistic回归  119

4.4  小结  127

第5章  广义可加模型  129

5.1  概念背景  130

5.2  R语言中的GAM模型  136

5.2.1  高斯因变量  136

5.2.2  二值因变量  159

5.2.3  无序因变量  164

5.2.4  计数因变量  168

5.3  小结  176

第6章  机器学习:引言  179

6.1  训练数据和验证数据  180

6.2  重采样和交叉验证  186

6.3  自采样法  189

6.4  并行处理和随机数  191

6.5  小结  198

第7章  机器学习:无监督学习  201

7.1  数据背景和探索性分析  202

7.2  k-均值聚类算法  212

7.3  层次聚类算法  223

7.4  主成分分析  235

7.5  非线性聚类分析  245

7.6  小结  246

第8章  机器学习:监督学习  249

8.1  数据准备  250

8.1.1  独热编码  252

8.1.2  定标化与中心化  254

8.1.3  变换  255

8.1.4  训练数据与验证数据  260

8.1.5  主成分分析  261

8.2  监督学习模型  266

8.2.1  支持向量机  267

8.2.2  分类与回归树  276

8.2.3  随机森林  282

8.2.4  随机梯度提升  288

8.2.5  多层感知机  297

8.3  小结  318

第9章  缺失数据  321

9.1  概念背景  322

9.2  R示例  328

9.2.1  回归模型与多重插补  332

9.2.2  多重插补与并行处理  342

9.2.3  使用随机森林法实现多重插补  345

9.3  案例研究:使用RF实现多重插补  349

9.4  小结  360

第10章  GLMM:引言  361

10.1  多层数据  362

10.1.1  数据重整  363

10.1.2  日记研究数据集  365

10.2  描述性统计量  368

10.2.1  基本描述量  370

10.2.2  组内相关系数(ICC)  376

10.3  探索与假设  379

10.3.1  分布与奇异值  379

10.3.2  时间趋势  384

10.3.3  自相关  386

10.3.4  假设  390

10.4  小结  395

第11章  GLMM:线性  397

11.1  理论  398

11.1.1  广义线性混合模型  398

11.1.2  术语混合效应和多层次模型  401

11.1.3  统计推断  402

11.1.4  效应量  403

11.1.5  随机截距模型  404

11.1.6  可视化随机效应  404

11.1.7  解释随机截距模型  409

11.1.8  随机截距斜率模型  416

11.1.9  将截距和斜率作为因变量  420

11.2  R示例  425

11.2.1  随机截距的线性混合模型  425

11.2.2  随机截距和随机斜率的线性混合模型  437

11.3  小结  453

第12章  GLMM:高级  457

12.1  概念背景  458

12.2  Logistic广义线性混合模型  458

12.2.1  随机截距  458

12.2.2  随机截距和随机斜率  463

12.3  泊松分布和负二项分布GLMM  467

12.3.1  随机截距  467

12.3.2  随机截距和随机斜率  477

12.4  小结  486

第13章  建模IIV  489

13.1  概念背景  490

13.1.1  贝叶斯推断  490

13.1.2  什么是IIV  490

13.1.3  将IIV作为预测量  495

13.1.4  软件实现:VARIAN  499

13.2  R程序示例  500

13.3  小结  508


猜您喜欢

读书导航