书籍详情
现代数据科学(R语言·第2版)
作者:本杰明·S.鲍默,丹尼尔·T.卡普兰 著,张小明,郭华,张骞允 译
出版社:清华大学出版社
出版时间:2022-03-01
ISBN:9787302598794
定价:¥128.00
购买这本书可以去
内容简介
本书对上一版做了全面更新,与日益强大的tidyverse套包保持同步,纳入sf、purrr、tidymodels和tidytext等包中的新功能。代码的内容和格式都经过修改,以方便阅读和理解。部分 章节被拆分、重新组织和重新构思,以适应不断变化的实践环境。
作者简介
Benjamin S. Baumer是美国史密斯学院统计与数据科学专业的副教授。Benjamin 于2004年成为纽约大都会队第一位全职统计分析师,此后一直担任应用数据科学家。Benjamin曾荣获美国棒球研究学会颁发的2019年Waller教育奖和2016年突出贡献者奖,参与撰写了TheSabermetric Revolution-书。Daniel T. Kaplan是美国玛卡莱斯特学院数学和计算机科学系的名誉教授,是多本统计建模和统计计算教科书的作者。Daniel获 得2006年玛卡莱斯特学院卓越教学奖和2017年终身成就奖。Nicholas J. Horton是美国阿默斯特学院统计和数据科学系的教授,是ASA和AAAS的高级会员,美国国家科学院应用与理论统计委员会的联合主席,多项美国国家教学奖的获得者,一系列统计计算书籍的作者,并积极参与编写数据科学课程,帮助学生“用数据思考。
目录
第Ⅰ部分 数据科学简介
第1章 序言:为什么有数据科学? 2
1.1 数据科学是什么 3
1.2 案例学习:棒球资料统计分析
的演变 5
1.3 数据集 6
1.4 扩展资源 7
第2章 数据可视化 8
2.1 2012年联邦大选周期 8
2.1.1 这两组数据有区别吗? 10
2.1.2 图形变化 11
2.1.3 检查变量之间的关系 12
2.1.4 网络 14
2.2 组成数据图形 15
2.2.1 数据图形分类 15
2.2.2 颜色 17
2.2.3 剖析数据图形 19
2.3 数据图形的重要性:
挑战者号 21
2.4 创建有效的演示 25
2.5 更广阔的数据可视化世界 25
2.6 扩展资源 27
2.7 练习题 28
2.8 附加练习 29
第3章 图形语法 30
3.1 数据图形语法 30
3.1.1 画面 31
3.1.2 刻度 33
3.1.3 指南 35
3.1.4 方面 35
3.1.5 层次 36
3.2 R中的规范数据图形 38
3.2.1 单变量显示 38
3.2.2 多元显示 40
3.2.3 地图 46
3.2.4 网络 46
3.3 扩展示例:历史婴儿名字 47
3.3.1 至今仍活着的人口的
百分比 48
3.3.2 最普通的女性名字 53
3.4 扩展资源 56
3.5 练习题 56
3.6 附加练习 58
第4章 在一张表中整理数据 59
4.1 数据整理语法 59
4.1.1 select()和filter() 59
4.1.2 mutate()和rename() 62
4.1.3 arrange() 64
4.1.4 用group_by()进行
summarize() 66
4.2 扩展示例:Ben在大都会队
(Mets)的时间 67
4.3 扩展资源 75
4.4 练习题 76
4.5 附加练习 79
第5章 多张表的数据整理 80
5.1 inner_join() 80
5.2 left_join() 82
5.3 扩展示例:Manny Ramirez 83
5.4 扩展资源 90
5.5 练习题 90
5.6 附加练习 92
第6章 数据规整 93
6.1 规整数据 93
6.1.1 动机 93
6.1.2 规整的数据是什么 95
6.2 重塑数据 101
6.2.1 用于从宽到窄以及从窄到
宽转换的数据动词 103
6.2.2 pivot_wider()函数 103
6.2.3 pivot_longer()函数 103
6.2.4 list-column 104
6.2.5 示例:中性姓名 108
6.3 命名约定 110
6.4 数据获取 111
6.4.1 数据表友好的格式 111
6.4.2 API 115
6.4.3 清洗数据 115
6.4.4 示例:日本核反应堆 121
6.5 扩展资源 124
6.6 练习题 124
6.7 附加练习 127
第17章 使用地理空间数据 348
17.1 动机:地理空间数据有什么了不起的? 348
17.2 空间数据结构 351
17.3 制作地图 353
17.3.1 静态地图 353
17.3.2 投影 354
17.3.3 基于leaflet的动态地图 360
17.4 扩展示例:国会选区 362
17.4.1 选举结果 362
17.4.2 国会选区 365
17.4.3 整合所有数据 367
17.4.4 使用ggplot2 368
17.4.5 使用leaflet 369
17.5 有效的地图:如何避免撒谎 370
17.6 投影多边形 371
17.7 有效利用其他技术 373
17.8 扩展资源 374
17.9 练习题 374
17.10 附加练习 374
第18章 地理空间计算 375
18.1 地理空间操作 375
18.1.1 地理编码、路线和距离 375
18.1.2 几何运算 378
18.2 地理空间聚合 384
18.3 地理空间联接 386
18.4 拓展示例:MacLeish中的路径海拔 387
18.5 扩展资源 391
18.6 练习题 391
18.7 附加练习 392
第19章 文本数据 393
19.1 使用Macbeth的正则表达式 393
19.1.1 解析苏格兰戏剧文本 393
19.1.2 Macbeth中的生与死 397
19.2 扩展示例:分析arXiv.org的文本数据 399
19.2.1 语料库 402
19.2.2 词云 404
19.2.3 情感分析 405
19.2.4 bigrams和N-grams 407
19.2.5 文档词项矩阵 408
19.3 获取文本 412
19.4 扩展资源 415
19.5 练习题 416
19.6 附加练习 418
第20章 网络科学 419
20.1 网络科学引言 419
20.1.1 定义 419
20.1.2 网络科学简史 420
20.2 扩展示例:Kristen Stewart的六度空间理论 424
20.2.1 收集好莱坞数据 424
20.2.2 构建好莱坞网络 427
20.2.3 建立Kristen Stewart预言 430
20.3 PageRank 433
20.4 扩展示例:1996年男子大学篮球赛 435
20.5 扩展资源 442
20.6 练习题 442
20.7 附加练习 443
第21章 结束语:走向“大数据” 444
21.1 大数据的一些概念 444
21.2 更大数据的工具 446
21.2.1 大数据的数据和内存结构 446
21.2.2 编译 447
21.2.3 并行和分布式计算 447
21.2.4 SQL的替代方案 454
21.3 R的替代方案 455
21.4 结束语 456
21.5 扩展资源 456
第Ⅳ部分 附录
附录A 本书使用的包 458
附录B R和RStudio简介 465
附录C 算法思维 483
附录D 可再现性分析和工作流程 495
附录E 回归建模 504
附录F 安装数据库服务器 524
第1章 序言:为什么有数据科学? 2
1.1 数据科学是什么 3
1.2 案例学习:棒球资料统计分析
的演变 5
1.3 数据集 6
1.4 扩展资源 7
第2章 数据可视化 8
2.1 2012年联邦大选周期 8
2.1.1 这两组数据有区别吗? 10
2.1.2 图形变化 11
2.1.3 检查变量之间的关系 12
2.1.4 网络 14
2.2 组成数据图形 15
2.2.1 数据图形分类 15
2.2.2 颜色 17
2.2.3 剖析数据图形 19
2.3 数据图形的重要性:
挑战者号 21
2.4 创建有效的演示 25
2.5 更广阔的数据可视化世界 25
2.6 扩展资源 27
2.7 练习题 28
2.8 附加练习 29
第3章 图形语法 30
3.1 数据图形语法 30
3.1.1 画面 31
3.1.2 刻度 33
3.1.3 指南 35
3.1.4 方面 35
3.1.5 层次 36
3.2 R中的规范数据图形 38
3.2.1 单变量显示 38
3.2.2 多元显示 40
3.2.3 地图 46
3.2.4 网络 46
3.3 扩展示例:历史婴儿名字 47
3.3.1 至今仍活着的人口的
百分比 48
3.3.2 最普通的女性名字 53
3.4 扩展资源 56
3.5 练习题 56
3.6 附加练习 58
第4章 在一张表中整理数据 59
4.1 数据整理语法 59
4.1.1 select()和filter() 59
4.1.2 mutate()和rename() 62
4.1.3 arrange() 64
4.1.4 用group_by()进行
summarize() 66
4.2 扩展示例:Ben在大都会队
(Mets)的时间 67
4.3 扩展资源 75
4.4 练习题 76
4.5 附加练习 79
第5章 多张表的数据整理 80
5.1 inner_join() 80
5.2 left_join() 82
5.3 扩展示例:Manny Ramirez 83
5.4 扩展资源 90
5.5 练习题 90
5.6 附加练习 92
第6章 数据规整 93
6.1 规整数据 93
6.1.1 动机 93
6.1.2 规整的数据是什么 95
6.2 重塑数据 101
6.2.1 用于从宽到窄以及从窄到
宽转换的数据动词 103
6.2.2 pivot_wider()函数 103
6.2.3 pivot_longer()函数 103
6.2.4 list-column 104
6.2.5 示例:中性姓名 108
6.3 命名约定 110
6.4 数据获取 111
6.4.1 数据表友好的格式 111
6.4.2 API 115
6.4.3 清洗数据 115
6.4.4 示例:日本核反应堆 121
6.5 扩展资源 124
6.6 练习题 124
6.7 附加练习 127
第17章 使用地理空间数据 348
17.1 动机:地理空间数据有什么了不起的? 348
17.2 空间数据结构 351
17.3 制作地图 353
17.3.1 静态地图 353
17.3.2 投影 354
17.3.3 基于leaflet的动态地图 360
17.4 扩展示例:国会选区 362
17.4.1 选举结果 362
17.4.2 国会选区 365
17.4.3 整合所有数据 367
17.4.4 使用ggplot2 368
17.4.5 使用leaflet 369
17.5 有效的地图:如何避免撒谎 370
17.6 投影多边形 371
17.7 有效利用其他技术 373
17.8 扩展资源 374
17.9 练习题 374
17.10 附加练习 374
第18章 地理空间计算 375
18.1 地理空间操作 375
18.1.1 地理编码、路线和距离 375
18.1.2 几何运算 378
18.2 地理空间聚合 384
18.3 地理空间联接 386
18.4 拓展示例:MacLeish中的路径海拔 387
18.5 扩展资源 391
18.6 练习题 391
18.7 附加练习 392
第19章 文本数据 393
19.1 使用Macbeth的正则表达式 393
19.1.1 解析苏格兰戏剧文本 393
19.1.2 Macbeth中的生与死 397
19.2 扩展示例:分析arXiv.org的文本数据 399
19.2.1 语料库 402
19.2.2 词云 404
19.2.3 情感分析 405
19.2.4 bigrams和N-grams 407
19.2.5 文档词项矩阵 408
19.3 获取文本 412
19.4 扩展资源 415
19.5 练习题 416
19.6 附加练习 418
第20章 网络科学 419
20.1 网络科学引言 419
20.1.1 定义 419
20.1.2 网络科学简史 420
20.2 扩展示例:Kristen Stewart的六度空间理论 424
20.2.1 收集好莱坞数据 424
20.2.2 构建好莱坞网络 427
20.2.3 建立Kristen Stewart预言 430
20.3 PageRank 433
20.4 扩展示例:1996年男子大学篮球赛 435
20.5 扩展资源 442
20.6 练习题 442
20.7 附加练习 443
第21章 结束语:走向“大数据” 444
21.1 大数据的一些概念 444
21.2 更大数据的工具 446
21.2.1 大数据的数据和内存结构 446
21.2.2 编译 447
21.2.3 并行和分布式计算 447
21.2.4 SQL的替代方案 454
21.3 R的替代方案 455
21.4 结束语 456
21.5 扩展资源 456
第Ⅳ部分 附录
附录A 本书使用的包 458
附录B R和RStudio简介 465
附录C 算法思维 483
附录D 可再现性分析和工作流程 495
附录E 回归建模 504
附录F 安装数据库服务器 524
猜您喜欢