书籍详情
用Python动手学统计学
作者:[日] 马场真哉 著,吴昊天 译
出版社:人民邮电出版社
出版时间:2021-06-01
ISBN:9787115560285
定价:¥79.80
购买这本书可以去
内容简介
《用Python动手学统计学》是面向零基础读者的统计学入门书,对同一个知识点分别使用文字、公式和Python 示例代码加以讲解,循序渐进地介绍了统计学和Python 的基础知识、使用Python 进行统计分析的方法、正态线性模型和广义线性模型等统计模型,以及机器学习等。通过阅读本书,读者不仅可以通过书中例子深刻理解统计学术语、统计分析方法和预测方法等,还可以学到十分前沿的机器学习知识,以及如何使用Python 实现数据可视化和建模等。 《用Python动手学统计学》结构清晰、直观易懂,适合统计学和Python初学者以及对数据科学和机器学习感兴趣的读者使用,也可作为高等院校计算机、统计等专业学生的入门书。
作者简介
[日]马场真哉(作者) 出生于日本神户市,毕业于北海道大学。经常在个人网站Logics of Blue分享统计学、数据分析与编程知识。著有《决策分析和预测的活用:从基础理论懂啊Python实现》《R语言编程和数据分析》《基于贝叶斯统计建模的数据分析入门:使用R和Stan》等。吴昊天(译者) 2017年毕业于同济大学,研究方向是车载软件。目前在汽车行业从事代码迁移工作,业余参与一些游戏软件的国际化工作。
目录
目 录
第 1章 统计学基础
1.1 统计学 2
1.1.1 统计学的目标①:描述现有数据 2
1.1.2 统计学的目标②:估计未知数据 3
1.1.3 术语 样本与总体 3
1.1.4 1.2节及之后的内容 4
1.2 获取样本的过程 5
1.2.1 术语 随机变量 5
1.2.2 湖中钓鱼的例子 5
1.2.3 从总体中获取样本的过程 6
1.2.4 术语 样本值 7
1.2.5 术语 抽样 7
1.2.6 术语 简单随机抽样 7
1.2.7 术语 样本容量 7
1.2.8 术语 普查与抽样调查 8
1.3 抽样过程的抽象描述 9
1.3.1 符号 概率 9
1.3.2 术语 概率分布 9
1.3.3 术语 服从概率分布 10
1.3.4 术语 总体分布 10
1.3.5 作为抽样过程的总体分布 10
1.3.6 无限总体的含义与总体分布 11
1.3.7 总结:抽样过程 12
1.3.8 补充 瓮模型 13
1.4 描述统计基础 14
1.4.1 术语 定量变量 14
1.4.2 术语 离散变量与连续变量 14
1.4.3 术语 分类变量 15
1.4.4 术语 组、组中值 15
1.4.5 术语 频数、频数分布、频率 15
1.4.6 术语 累积频数、累积频率 16
1.4.7 术语 直方图 17
1.4.8 术语 统计量 19
1.4.9 术语 均值 19
1.4.10 术语 期望值 20
1.4.11 术语 方差 21
1.4.12 补充 均值、方差与数据范围 21
1.5 总体分布的推断 23
1.5.1 总体分布与总体的频率分布 23
1.5.2 更现实一些的湖中钓鱼 24
1.5.3 做假设 24
1.6 概率质量函数与概率密度函数 27
1.6.1 术语 概率质量函数 27
1.6.2 术语 概率密度 27
1.6.3 补充 积分与加法的关系 28
1.6.4 术语 概率密度函数 28
1.6.5 术语 正态分布 29
1.6.6 术语 参数(概率分布的参数) 30
1.6.7 补充 各种各样的概率分布 30
1.6.8 推断总体分布 =确定分布 +估计参数 31
1.6.9 把样本的统计量看作参数的估计值 32
1.6.10 补充 估计误差 32
1.6.11 总结:统计学基础 33
1.7 统计量的计算 35
1.7.1 为什么要使用数学式 35
1.7.2 符号 样本 35
1.7.3 符号 均值 36
1.7.4 符号 期望值 36
1.7.5 术语 总体均值与样本均值 37
1.7.6 符号 样本方差 37
1.7.7 术语 无偏方差 38
1.7.8 为什么样本方差会偏离 38
1.7.9 术语 标准差 39
1.8 概率论基础 41
1.8.1 术语 集合 41
1.8.2 术语 元素 41
1.8.3 集合的两种表示方法 42
1.8.4 术语 子集 42
1.8.5 术语 维恩图 43
1.8.6 术语 交集与并集 43
1.8.7 术语 差集 44
1.8.8 术语 空集 44
1.*8.*9 术语 全集 44
1.8.10 术语 补集 45
1.8.11 术语 样本点、样本空间、事件 45
1.8.12 术语 互斥事件 46
1.8.13 通过掷骰子可以联想到的各种概率分布 47
1.8.14 概率的公理化定义 47
1.8.15 用频率解释概率 48
1.8.16 主观概率 48
1.8.17 术语 概率的加法公式 49
1.8.18 术语 条件概率 49
1.8.19 术语 概率的乘法公式 50
1.8.20 术语 独立事件 50
1.9 随机变量与概率分布 51
1.9.1 随机变量与样本值 51
1.9.2 离散型概率分布与概率质量函数 52
1.9.3 概率密度 52
1.9.4 连续型概率分布与概率密度函数 53
1.9.5 概率的总和与概率密度的积分 53
1.9.6 补充 积分与面积的关系 54
1.9.7 正态分布的概率密度函数 56
1.9.8 符号 服从概率分布 56
1.9.9 独立同分布 57
1.9.10 使用正态分布的概率密度函数计算概率的方法 57
1.9.11 使用概率密度计算期望值的方法 57
第 2章 Python与 Jupyter Notebook基础 59
2.1 环境搭建 60
2.1.1 什么是 Python 60
2.1.2 Python的版本 60
2.1.3 Python与 Anaconda 60
2.1.4 Jupyter Notebook 61
2.1.5 下载和安装 61
2.1.6 补充 Python编程术语 61
2.2 认识 Jupyter Notebook 63
2.2.1 启动 Jupyter Notebook 63
2.2.2 创建新文件 64
2.2.3 执行代码 65
2.2.4 保存执行结果 65
2.2.5 Markdown的用法 65
2.2.6 退出 Jupyter Notebook 66
2.3 Python编程基础 67
2.3.1 实现 四则运算 67
2.3.2 实现 编写注释 68
2.3.3 实现 数据类型 69
2.3.4 实现 比较运算符 70
2.3.5 实现 变量 71
2.3.6 实现 函数 71
2.3.7 实现 类与实例 73
2.3.8 实现 基于 if语句的程序分支 75
2.3.9 实现 基于 for语句的循环 76
2.3.10 编写易用程序的窍门 77
2.4 认识 numpy与 pandas 78
2.4.1 导入用于分析的功能 78
2.4.2 numpy与 pandas 79
2.4.3 实现 列表 79
2.4.4 术语 行与列 79
2.4.5 实现 数组 81
2.4.6 实现 生成等差数列的方法 82
2.4.7 实现 多种生成数组的方式 83
2.4.8 实现 切片 84
2.4.9 实现 数据帧 85
2.4.10 实现 读取文件中的数据 87
2.4.11 实现 连接数据帧 87
2.4.12 实现 数据帧的列操作 88
2.4.13 实现 数据帧的行操作 90
2.4.14 补充 序列 91
2.4.15 补充 函数文档 92
第3 章 使用Python 进行数据分析 95
3.*1 使用Python 进行描述统计:单变量 96
3*.1*.1 统计分析与scipy 96
3*.1.*2 单变量数据的操作 96
3*.1.*3 实现 总和与样本容量 97
3.*1*.4 实现 均值(期望值) 98
3.*1.*5 实现 样本方差 98
3.*1.*6 实现 无偏方差 100
3*.1.*7 实现 标准差 101
3.*1.*8 补充 标准化 101
3.*1.*9 补充 其他统计量 103
3*.1.*10 实现 scipy.stats 与四分位数 104
3.2 使用 Python进行描述统计:多变量 106
3.2.1 术语 整洁数据 106
3.2.2 术语 杂乱数据 107
3.2.3 术语 列联表(交叉分类表) 108
3.2.4 多变量数据的管理 109
3.2.5 实现 求各分组的统计量 110
3.2.6 实现 列联表 111
3.2.7 术语 协方差 112
3.2.8 术语 协方差矩阵 114
3.2.9 实现 协方差 114
3.2.10 实现 协方差矩阵 115
3.2.11 术语 皮尔逊积矩相关系数 116
3.2.12 术语 相关矩阵 116
3.2.13 实现 皮尔逊积矩相关系数 117
3.2.14 补充 相关系数无效的情况 118
3.3 基于 matplotlib、seaborn的数据可视化 119
3.3.1 Python中的数据可视化 119
3.3.2 实现 数据可视化的环境准备 119
3.3.3 实现 用 pyplot绘制折线图 120
3.3.4 实现 用 seaborn和 pyplot绘制折线图 121
3.3.5 实现 用 seaborn绘制直方图 122
3.3.6 实现 通过核密度估计将直方图平滑化 123
3.3.7 实现 两个变量的直方图 125
3.3.8 将多变量可视化的代码 127
3.3.9 实现 箱形图 128
3.3.10 实现 小提琴图 129
3.3.11 实现 条形图 130
3.3.12 实现 散点图 131
3.3.13 实现 散点图矩阵 132
3.4 用 Python模拟抽样 135
3.4.1 环境准备 135
3.4.2 抽样过程 136
3.4.3 在只有 5条鱼的湖中抽样 136
3.4.4 术语 随机数 138
3.4.5 术语 放回抽样、不放回抽样 138
3.4.6 从鱼较多的湖中抽样 139
3.4.7 总体分布 140
3.4.8 对比总体分布和正态分布的概率密度函数 141
3.4.9 抽样过程的抽象描述 143
3.4.10 补充 有限总体校正 144
3.4.11 补充 假设总体服从正态分布是否恰当 145
3.5 样本统计量的性质 146
3.5.1 术语 试验 146
3.5.2 术语 样本分布 146
3.5.3 导入所需的库 147
3.5.4 多次计算样本均值 148
3.5.5 样本均值的均值与总体均值相近 149
3.5.6 样本容量越大,样本均值越接近总体均值 150
3.5.7 定义用来计算样本均值的函数 152
3.5.8 不同样本容量所得的样本均值的分布 153
3.5.9 样本均值的标准差小于总体标准差 154
3.5.10 术语 标准误差 156
3.5.11 标准误差的直观解释 158
3.5.12 样本方差的均值偏离总体方差 158
3.5.13 采用无偏方差消除偏离 159
3.5.14 样本容量越大,其无偏方差越接近总体方差 160
3.5.15 术语 无偏性 161
3.5.16 术语 一致性 161
3.5.17 较好的参数估计量 162
3.5.18 补充 大数定律 162
3.5.19 补充 中心极限定理 162
3.6 正态分布及其应用 165
3.6.1 导入函数库 165
3.6.2 实现 概率密度 166
3.6.3 样本小于等于某值的比例 168
3.6.4 术语 累积分布函数 168
3.6.5 实现 累积分布函数 169
3.6.6 术语 左侧概率与百分位数 170
3.6.7 实现 百分位数 170
3.6.8 术语 标准正态分布 171
3.6.9 术语 t值 171
3.6.10 t值的样本分布 172
3.6.11 术语 t分布 174
3.6.12 实现 t分布 175
3.7 参数估计 177
3.7.1 本节任务 177
3.7.2 环境准备 177
3.7.3 术语 点估计 178
3.7.4 实现 点估计 179
3.7.5 术语 区间估计 179
3.7.6 术语 置信水平、置信区间 180
3.7.7 术语 置信界限 180
3.7.8 置信区间的计算 180
3.7.9 实现 区间估计 180
3.7.10 补充 置信区间的求解细节 181
3.7.11 决定置信区间大小的因素 183
3.7.12 区间估计结果的解读 184
3.8 假设检验 187
3.8.1 术语 假设检验 187
3.8.2 单样本 t检验 187
3.8.3 显著性差异 188
3.8.4 t检验的直观解释 188
3.8.5 均值差异大不代表存在显著性差异 189
3.8.6 t值 189
3.8.7 假设检验的结构:零假设与备择假设 190
3.8.8 术语 p值 191
3.8.9 术语 显著性水平 191
3.8.10 t检验与 t分布的关系 191
3.8.11 术语 单侧检验与双侧检验 192
3.8.12 p值的计算 192
3.8.13 t检验的实现:环境准备 193
3.8.14 t检验的实现:计算 t值 194
3.8.15 t检验的实现:计算 p值 195
3.8.16 通过模拟实验计算 p值 196
3.9 均值差的检验 198
3.9.1 双样本 t检验 198
3.9.2 配对样本 t检验 198
3.9.3 环境准备 199
3.9.4 实现 配对样本 t检验 200
3.9.5 独立样本 t检验 201
3.9.6 实现 独立样本 t检验 202
3.9.7 补充 独立样本 t检验(同方差) 203
3.9.8 补充 p值操纵 203
3.10 列联表检验 205
3.10.1 使用列联表的好处 205
3.10.2 本节例题 206
3.10.3 计算期望频数 207
3.10.4 计算观测频数和期望频数的差 208
3.10.5 实现 计算 p值 209
3.10.6 实现 列联表检验 209
3.11 检验结果的解读 211
3.11.1 p值小于 0.05时的表述方法 211
3.11.2 p值大于 0.05时的表述方法 211
3.11.3 关于假设检验的常见误区 212
3.11.4 p值小不代表差异大 212
3.11.5 p值大于 0.05不代表没有差异 213
3.11.6 术语 第 一类错误与第二类错误 213
3.11.7 术语 假设检验的非对称性 213
3.11.8 在检验之前确定显著性水平 214
3.11.9 补充 统计模型的选择 214
3.11.10 假设检验有什么用 214
3.11.11 假设是否正确 215
第 4章 统计模型基础 217
4.1 统计模型 218
4.1.1 术语 模型 218
4.1.2 术语 建模 218
4.1.3 模型有什么用 218
4.1.4 简化复杂的世界 219
4.1.5 从某个角度观察复杂的现象 219
4.1.6 术语 数学模型 220
4.1.7 术语 概率模型 220
4.1.8 术语 统计模型 221
4.1.9 概率分布与统计模型 221
4.1.10 基于统计模型的预测 222
4.1.11 统计模型与经典数据分析的对比 222
4.1.12 统计模型应用 223
4.2 建模方法 224
4.2.1 本节例题 224
4.2.2 术语 响应变量和解释变量 224
4.2.3 术语 参数模型 224
4.2.4 术语 非参数模型 224
4.2.5 术语 线性模型 224
4.2.6 术语 系数与权重 226
4.2.7 建模 = 模型选择 + 参数估计 227
4.2.8 线性模型的建模方法 227
4.2.9 术语 变量选择 228
4.2.10 术语 空模型 228
4.2.11 通过假设检验选择变量 229
4.2.12 通过信息量准则选择变量 229
4.2.13 模型评估 230
4.2.14 补充 在建模之前确定分析目的 230
4.3 数据表示与模型名称 231
4.3.1 术语 正态线性模型 231
4.3.2 术语 回归分析(经典术语) 231
4.3.3 术语 多元回归分析(经典术语) 232
4.3.4 术语 方差分析(经典术语) 232
4.3.5 术语 广义线性模型 232
4.3.6 补充 机器学习中的叫法 232
4.4 参数估计:最大似然估计 234
4.4.1 为什么要学习参数估计 234
4.4.2 术语 似然 234
4.4.3 术语 似然函数 235
4.4.4 术语 对数似然 235
4.4.5 术语 对数的性质 235
4.4.6 术语 最大似然法 238
4.4.7 术语 最大似然估计量 238
4.4.8 术语 最大对数似然 239
4.4.9 服从正态分布的数据的似然 239
4.4.10 术语 多余参数 239
4.4.11 正态线性模型的似然 240
4.4.12 补充 最大似然法计算举例 241
4.4.13 补充 最大似然估计量的性质 243
4.5 参数估计:最小化损失 244
4.5.1 术语 损失函数 244
4.5.2 术语 残差 244
4.5.3 为什么不把残差之和作为损失指标 245
4.5.4 术语 残差平方和 246
4.5.5 术语 最小二乘法 247
4.5.6 补充 最小二乘法与最大似然法的关系 247
4.5.7 术语 误差函数 248
4.5.8 多种损失函数 248
4.6 预测精度的评估与变量选择 249
4.6.1 术语 拟合精度与预测精度 249
4.6.2 术语 过拟合 249
4.6.3 变量选择的意义 250
4.6.4 术语 泛化误差 250
4.6.5 术语 训练集与测试集 250
4.6.6 术语 交叉验证 250
4.6.7 术语 赤池信息量准则 251
4.6.8 术语 相对熵 252
4.6.9 最小化相对熵与平均对数似然 252
4.6.10 AIC与平均对数似然中的偏离 253
4.6.11 AIC与交叉验证 254
4.6.12 使用 AIC进行变量选择 254
4.6.13 用变量选择代替假设检验 254
4.6.14 使用假设检验还是 AIC 255
第 5章 正态线性模型 257
5.1 含有单个连续型解释变量的模型(一元回归) 258
5.1.1 环境准备 258
5.1.2 实现 读入数据并绘制其图形 259
5.1.3 建模 260
5.1.4 实现 使用 statsmodels实现模型化 261
5.1.5 实现 打印估计结果并检验系数 261
5.1.6 关于 summary函数的输出的说明 263
5.1.7 实现 使用 AIC进行模型选择 264
5.1.8 术语 回归直线 266
5.1.9 实现 用 seaborn绘制回归直线 266
5.1.10 实现 使用模型进行预测 267
5.1.11 实现 获取残差 269
5.1.12 术语 决定系数 270
5.1.13 实现 决定系数 270
5.1.14 术语 修正决定系数 272
5.1.15 实现 修正决定系数 272
5.1.16 实现 残差的直方图和散点图 273
5.1.17 术语 分位图 274
5.1.18 实现 分位图 275
5.1.19 根据 summary函数的输出分析残差 277
5.2 方差分析 279
5.2.1 本节例题 279
5.2.2 什么时候应该使用方差分析 279
5.2.3 术语 多重假设检验 280
5.2.4 方差分析的直观理解:F比 280
5.2.5 显著性差异与小提琴图 281
5.2.6 方差分析的直观理解:分离效应和误差 283
5.2.7 术语 组间差异与组内差异 283
5.2.8 环境准备 284
5.2.9 生成数据并可视化 284
5.2.10 实现 方差分析①:计算组间偏差平方和与组内偏差平方和 286
5.2.11 实现 方差分析②:计算组间方差与组内方差 287
5.2.12 实现 方差分析③:计算 p值 288
5.2.13 解释变量为分类变量的正态线性模型 289
5.2.14 术语 虚拟变量 289
5.2.15 实现 statsmodels中的方差分析 290
5.2.16 术语 方差分析表 290
5.2.17 模型系数的含义 290
5.2.18 使用模型分离效应和误差 291
5.2.19 回归模型中的方差分析 292
5.3 含有多个解释变量的模型 295
5.3.1 环境准备 295
5.3.2 实现 数据可视化 296
5.3.3 错误的分析:建立只有 1个变量的模型 297
5.3.4 分析解释变量之间的关系 299
5.3.5 实现 多解释变量的模型 301
5.3.6 错误的分析:使用普通方差分析 301
5.3.7 实现 回归系数的 t检验 303
5.3.8 术语 Type II ANOVA 304
5.3.9 模型选择与方差分析 304
5.3.10 Type II ANOVA与调整平方和 307
5.3.11 实现 Type II ANOVA 308
5.3.12 Type II ANOVA的含义 310
5.3.13 实现 变量选择与模型选择 310
5.3.14 使用 AIC进行变量选择 311
5.3.15 补充 多重共线性 312
第 6章 广义线性模型 313
6.1 各种概率分布 314
6.1.1 术语 二值随机变量 314
6.1.2 术语 伯努利试验 314
6.1.3 术语 成功概率 315
6.1.4 术语 伯努利分布 315
6.1.5 术语 二项分布 315
6.1.6 二项分布的应用 316
6.1.7 二项分布的概率质量函数 316
6.1.8 环境准备 317
6.1.9 实现 二项分布 318
6.1.10 术语 泊松分布 319
6.1.11 泊松分布的应用 319
6.1.12 泊松分布的概率质量函数 320
6.1.13 补充 二项分布与泊松分布的关系 320
6.1.14 实现 泊松分布 320
6.1.15 补充 其他概率分布 323
6.1.16 补充 指数分布族 323
6.2 广义线性模型基础 325
6.2.1 广义线性模型的组成 325
6.2.2 概率分布 326
6.2.3 术语 线性预测算子 326
6.2.4 术语 联系函数 326
6.2.5 联系函数与概率分布的关系 327
6.2.6 广义线性模型的参数估计 328
6.2.7 补充 广义线性模型的检验方法 328
6.3 logistic回归 329
6.3.1 术语 logistic回归 329
6.3.2 本节例题 329
6.3.3 二值分类问题 329
6.3.4 术语 logit函数 330
6.3.5 术语 反函数 330
6.3.6 术语 logistic函数 330
6.3.7 logistic函数的性质 331
6.3.8 logistic回归的推导 331
6.3.9 logistic回归的似然函数 332
6.3.10 环境准备 333
6.3.11 实现 读取数据并可视化 334
6.3.12 实现 logistic回归 335
6.3.13 实现 logistic 回归的结果 336
6.3.14 实现 模型选择 337
6.3.15 实现 回归曲线 337
6.3.16 实现 预测成功概率 338
6.3.17 术语 优势 339
6.3.18 术语 优势比 340
6.3.19 logistic回归的系数与优势比的关系 340
6.4 广义线性模型的评估 342
6.4.1 环境准备 342
6.4.2 术语 皮尔逊残差 343
6.4.3 皮尔逊残差的含义 343
6.4.4 实现 皮尔逊残差 344
6.4.5 术语 模型偏差 345
6.4.6 模型偏差的含义 345
6.4.7 补充 模型偏差与似然比检验 346
6.4.8 术语 偏差残差 346
6.4.9 实现 偏差残差 346
6.4.10 补充 交叉熵误差 347
6.5 泊松回归 349
6.5.1 术语 泊松回归 349
6.5.2 本节例题 349
6.5.3 泊松回归的推导 349
6.5.4 环境准备 350
6.5.5 实现 泊松回归 351
6.5.6 实现 模型选择 352
6.5.7 实现 回归曲线 352
6.5.8 回归系数的含义 353
第 7章 统计学与机器学习 355
7.1 机器学习基础 356
7.1.1 术语 机器学习 356
7.1.2 术语 有监督学习 356
7.1.3 术语 无监督学习 357
7.1.4 补充 强化学习 357
7.1.5 补充 规则学习 357
7.1.6 统计学与机器学习无法彻底分离 357
7.1.7 统计学注重过程,机器学习注重结果 358
7.2 正则化、Ridge回归与 Lasso回归 359
7.2.1 术语 正则化 359
7.2.2 术语 Ridge回归 359
7.2.3 术语 Lasso回归 361
7.2.4 确定正则化强度 361
7.2.5 将解释变量标准化 361
7.2.6 Ridge回归与 Lasso回归的估计结果对比 362
7.2.7 变量选择与正则化的对比 363
7.2.8 正则化的意义 363
7.3 Python中的 Ridge回归与 Lasso回归 365
7.3.1 scikit.learn 365
7.3.2 环境准备 365
7.3.3 实现 标准化 366
7.3.4 定义响应变量 368
7.3.5 实现 普通最小二乘法 369
7.3.6 实现 使用 sklearn实现线性回归 370
7.3.7 实现 Ridge回归:惩罚指标的影响 370
7.3.8 实现 Ridge回归:确定最佳正则化强度 373
7.3.9 实现 Lasso回归:惩罚指标的影响 374
7.3.10 实现 Lasso回归:确定最佳正则化强度 376
7.4 线性模型与神经网络 378
7.4.1 本节例题 378
7.4.2 术语 输入向量、目标向量、权重、偏置 378
7.4.3 术语 单层感知机 379
7.4.4 术语 激活函数 379
7.4.5 从线性模型到神经网络 380
7.4.6 术语 隐藏层 381
7.4.7 术语 神经网络 381
7.4.8 神经网络的结构 381
7.4.9 神经网络中的 L2正则化 382
7.4.10 环境准备 382
7.4.11 实现 读入数据并整理 383
7.4.12 实现 logistic 回归 385
7.4.13 实现 标准化 387
7.4.14 实现 神经网络 388
7.4.15 线性模型与神经网络的优点 389
7.5 扩展内容 390
7.5.1 数学原理 390
7.5.2 经典统计学 390
7.5.3 统计模型 391
7.5.4 机器学习 391
7.5.5 模型评估 392
7.5.6 数据科学 392
参考文献 394
第 1章 统计学基础
1.1 统计学 2
1.1.1 统计学的目标①:描述现有数据 2
1.1.2 统计学的目标②:估计未知数据 3
1.1.3 术语 样本与总体 3
1.1.4 1.2节及之后的内容 4
1.2 获取样本的过程 5
1.2.1 术语 随机变量 5
1.2.2 湖中钓鱼的例子 5
1.2.3 从总体中获取样本的过程 6
1.2.4 术语 样本值 7
1.2.5 术语 抽样 7
1.2.6 术语 简单随机抽样 7
1.2.7 术语 样本容量 7
1.2.8 术语 普查与抽样调查 8
1.3 抽样过程的抽象描述 9
1.3.1 符号 概率 9
1.3.2 术语 概率分布 9
1.3.3 术语 服从概率分布 10
1.3.4 术语 总体分布 10
1.3.5 作为抽样过程的总体分布 10
1.3.6 无限总体的含义与总体分布 11
1.3.7 总结:抽样过程 12
1.3.8 补充 瓮模型 13
1.4 描述统计基础 14
1.4.1 术语 定量变量 14
1.4.2 术语 离散变量与连续变量 14
1.4.3 术语 分类变量 15
1.4.4 术语 组、组中值 15
1.4.5 术语 频数、频数分布、频率 15
1.4.6 术语 累积频数、累积频率 16
1.4.7 术语 直方图 17
1.4.8 术语 统计量 19
1.4.9 术语 均值 19
1.4.10 术语 期望值 20
1.4.11 术语 方差 21
1.4.12 补充 均值、方差与数据范围 21
1.5 总体分布的推断 23
1.5.1 总体分布与总体的频率分布 23
1.5.2 更现实一些的湖中钓鱼 24
1.5.3 做假设 24
1.6 概率质量函数与概率密度函数 27
1.6.1 术语 概率质量函数 27
1.6.2 术语 概率密度 27
1.6.3 补充 积分与加法的关系 28
1.6.4 术语 概率密度函数 28
1.6.5 术语 正态分布 29
1.6.6 术语 参数(概率分布的参数) 30
1.6.7 补充 各种各样的概率分布 30
1.6.8 推断总体分布 =确定分布 +估计参数 31
1.6.9 把样本的统计量看作参数的估计值 32
1.6.10 补充 估计误差 32
1.6.11 总结:统计学基础 33
1.7 统计量的计算 35
1.7.1 为什么要使用数学式 35
1.7.2 符号 样本 35
1.7.3 符号 均值 36
1.7.4 符号 期望值 36
1.7.5 术语 总体均值与样本均值 37
1.7.6 符号 样本方差 37
1.7.7 术语 无偏方差 38
1.7.8 为什么样本方差会偏离 38
1.7.9 术语 标准差 39
1.8 概率论基础 41
1.8.1 术语 集合 41
1.8.2 术语 元素 41
1.8.3 集合的两种表示方法 42
1.8.4 术语 子集 42
1.8.5 术语 维恩图 43
1.8.6 术语 交集与并集 43
1.8.7 术语 差集 44
1.8.8 术语 空集 44
1.*8.*9 术语 全集 44
1.8.10 术语 补集 45
1.8.11 术语 样本点、样本空间、事件 45
1.8.12 术语 互斥事件 46
1.8.13 通过掷骰子可以联想到的各种概率分布 47
1.8.14 概率的公理化定义 47
1.8.15 用频率解释概率 48
1.8.16 主观概率 48
1.8.17 术语 概率的加法公式 49
1.8.18 术语 条件概率 49
1.8.19 术语 概率的乘法公式 50
1.8.20 术语 独立事件 50
1.9 随机变量与概率分布 51
1.9.1 随机变量与样本值 51
1.9.2 离散型概率分布与概率质量函数 52
1.9.3 概率密度 52
1.9.4 连续型概率分布与概率密度函数 53
1.9.5 概率的总和与概率密度的积分 53
1.9.6 补充 积分与面积的关系 54
1.9.7 正态分布的概率密度函数 56
1.9.8 符号 服从概率分布 56
1.9.9 独立同分布 57
1.9.10 使用正态分布的概率密度函数计算概率的方法 57
1.9.11 使用概率密度计算期望值的方法 57
第 2章 Python与 Jupyter Notebook基础 59
2.1 环境搭建 60
2.1.1 什么是 Python 60
2.1.2 Python的版本 60
2.1.3 Python与 Anaconda 60
2.1.4 Jupyter Notebook 61
2.1.5 下载和安装 61
2.1.6 补充 Python编程术语 61
2.2 认识 Jupyter Notebook 63
2.2.1 启动 Jupyter Notebook 63
2.2.2 创建新文件 64
2.2.3 执行代码 65
2.2.4 保存执行结果 65
2.2.5 Markdown的用法 65
2.2.6 退出 Jupyter Notebook 66
2.3 Python编程基础 67
2.3.1 实现 四则运算 67
2.3.2 实现 编写注释 68
2.3.3 实现 数据类型 69
2.3.4 实现 比较运算符 70
2.3.5 实现 变量 71
2.3.6 实现 函数 71
2.3.7 实现 类与实例 73
2.3.8 实现 基于 if语句的程序分支 75
2.3.9 实现 基于 for语句的循环 76
2.3.10 编写易用程序的窍门 77
2.4 认识 numpy与 pandas 78
2.4.1 导入用于分析的功能 78
2.4.2 numpy与 pandas 79
2.4.3 实现 列表 79
2.4.4 术语 行与列 79
2.4.5 实现 数组 81
2.4.6 实现 生成等差数列的方法 82
2.4.7 实现 多种生成数组的方式 83
2.4.8 实现 切片 84
2.4.9 实现 数据帧 85
2.4.10 实现 读取文件中的数据 87
2.4.11 实现 连接数据帧 87
2.4.12 实现 数据帧的列操作 88
2.4.13 实现 数据帧的行操作 90
2.4.14 补充 序列 91
2.4.15 补充 函数文档 92
第3 章 使用Python 进行数据分析 95
3.*1 使用Python 进行描述统计:单变量 96
3*.1*.1 统计分析与scipy 96
3*.1.*2 单变量数据的操作 96
3*.1.*3 实现 总和与样本容量 97
3.*1*.4 实现 均值(期望值) 98
3.*1.*5 实现 样本方差 98
3.*1.*6 实现 无偏方差 100
3*.1.*7 实现 标准差 101
3.*1.*8 补充 标准化 101
3.*1.*9 补充 其他统计量 103
3*.1.*10 实现 scipy.stats 与四分位数 104
3.2 使用 Python进行描述统计:多变量 106
3.2.1 术语 整洁数据 106
3.2.2 术语 杂乱数据 107
3.2.3 术语 列联表(交叉分类表) 108
3.2.4 多变量数据的管理 109
3.2.5 实现 求各分组的统计量 110
3.2.6 实现 列联表 111
3.2.7 术语 协方差 112
3.2.8 术语 协方差矩阵 114
3.2.9 实现 协方差 114
3.2.10 实现 协方差矩阵 115
3.2.11 术语 皮尔逊积矩相关系数 116
3.2.12 术语 相关矩阵 116
3.2.13 实现 皮尔逊积矩相关系数 117
3.2.14 补充 相关系数无效的情况 118
3.3 基于 matplotlib、seaborn的数据可视化 119
3.3.1 Python中的数据可视化 119
3.3.2 实现 数据可视化的环境准备 119
3.3.3 实现 用 pyplot绘制折线图 120
3.3.4 实现 用 seaborn和 pyplot绘制折线图 121
3.3.5 实现 用 seaborn绘制直方图 122
3.3.6 实现 通过核密度估计将直方图平滑化 123
3.3.7 实现 两个变量的直方图 125
3.3.8 将多变量可视化的代码 127
3.3.9 实现 箱形图 128
3.3.10 实现 小提琴图 129
3.3.11 实现 条形图 130
3.3.12 实现 散点图 131
3.3.13 实现 散点图矩阵 132
3.4 用 Python模拟抽样 135
3.4.1 环境准备 135
3.4.2 抽样过程 136
3.4.3 在只有 5条鱼的湖中抽样 136
3.4.4 术语 随机数 138
3.4.5 术语 放回抽样、不放回抽样 138
3.4.6 从鱼较多的湖中抽样 139
3.4.7 总体分布 140
3.4.8 对比总体分布和正态分布的概率密度函数 141
3.4.9 抽样过程的抽象描述 143
3.4.10 补充 有限总体校正 144
3.4.11 补充 假设总体服从正态分布是否恰当 145
3.5 样本统计量的性质 146
3.5.1 术语 试验 146
3.5.2 术语 样本分布 146
3.5.3 导入所需的库 147
3.5.4 多次计算样本均值 148
3.5.5 样本均值的均值与总体均值相近 149
3.5.6 样本容量越大,样本均值越接近总体均值 150
3.5.7 定义用来计算样本均值的函数 152
3.5.8 不同样本容量所得的样本均值的分布 153
3.5.9 样本均值的标准差小于总体标准差 154
3.5.10 术语 标准误差 156
3.5.11 标准误差的直观解释 158
3.5.12 样本方差的均值偏离总体方差 158
3.5.13 采用无偏方差消除偏离 159
3.5.14 样本容量越大,其无偏方差越接近总体方差 160
3.5.15 术语 无偏性 161
3.5.16 术语 一致性 161
3.5.17 较好的参数估计量 162
3.5.18 补充 大数定律 162
3.5.19 补充 中心极限定理 162
3.6 正态分布及其应用 165
3.6.1 导入函数库 165
3.6.2 实现 概率密度 166
3.6.3 样本小于等于某值的比例 168
3.6.4 术语 累积分布函数 168
3.6.5 实现 累积分布函数 169
3.6.6 术语 左侧概率与百分位数 170
3.6.7 实现 百分位数 170
3.6.8 术语 标准正态分布 171
3.6.9 术语 t值 171
3.6.10 t值的样本分布 172
3.6.11 术语 t分布 174
3.6.12 实现 t分布 175
3.7 参数估计 177
3.7.1 本节任务 177
3.7.2 环境准备 177
3.7.3 术语 点估计 178
3.7.4 实现 点估计 179
3.7.5 术语 区间估计 179
3.7.6 术语 置信水平、置信区间 180
3.7.7 术语 置信界限 180
3.7.8 置信区间的计算 180
3.7.9 实现 区间估计 180
3.7.10 补充 置信区间的求解细节 181
3.7.11 决定置信区间大小的因素 183
3.7.12 区间估计结果的解读 184
3.8 假设检验 187
3.8.1 术语 假设检验 187
3.8.2 单样本 t检验 187
3.8.3 显著性差异 188
3.8.4 t检验的直观解释 188
3.8.5 均值差异大不代表存在显著性差异 189
3.8.6 t值 189
3.8.7 假设检验的结构:零假设与备择假设 190
3.8.8 术语 p值 191
3.8.9 术语 显著性水平 191
3.8.10 t检验与 t分布的关系 191
3.8.11 术语 单侧检验与双侧检验 192
3.8.12 p值的计算 192
3.8.13 t检验的实现:环境准备 193
3.8.14 t检验的实现:计算 t值 194
3.8.15 t检验的实现:计算 p值 195
3.8.16 通过模拟实验计算 p值 196
3.9 均值差的检验 198
3.9.1 双样本 t检验 198
3.9.2 配对样本 t检验 198
3.9.3 环境准备 199
3.9.4 实现 配对样本 t检验 200
3.9.5 独立样本 t检验 201
3.9.6 实现 独立样本 t检验 202
3.9.7 补充 独立样本 t检验(同方差) 203
3.9.8 补充 p值操纵 203
3.10 列联表检验 205
3.10.1 使用列联表的好处 205
3.10.2 本节例题 206
3.10.3 计算期望频数 207
3.10.4 计算观测频数和期望频数的差 208
3.10.5 实现 计算 p值 209
3.10.6 实现 列联表检验 209
3.11 检验结果的解读 211
3.11.1 p值小于 0.05时的表述方法 211
3.11.2 p值大于 0.05时的表述方法 211
3.11.3 关于假设检验的常见误区 212
3.11.4 p值小不代表差异大 212
3.11.5 p值大于 0.05不代表没有差异 213
3.11.6 术语 第 一类错误与第二类错误 213
3.11.7 术语 假设检验的非对称性 213
3.11.8 在检验之前确定显著性水平 214
3.11.9 补充 统计模型的选择 214
3.11.10 假设检验有什么用 214
3.11.11 假设是否正确 215
第 4章 统计模型基础 217
4.1 统计模型 218
4.1.1 术语 模型 218
4.1.2 术语 建模 218
4.1.3 模型有什么用 218
4.1.4 简化复杂的世界 219
4.1.5 从某个角度观察复杂的现象 219
4.1.6 术语 数学模型 220
4.1.7 术语 概率模型 220
4.1.8 术语 统计模型 221
4.1.9 概率分布与统计模型 221
4.1.10 基于统计模型的预测 222
4.1.11 统计模型与经典数据分析的对比 222
4.1.12 统计模型应用 223
4.2 建模方法 224
4.2.1 本节例题 224
4.2.2 术语 响应变量和解释变量 224
4.2.3 术语 参数模型 224
4.2.4 术语 非参数模型 224
4.2.5 术语 线性模型 224
4.2.6 术语 系数与权重 226
4.2.7 建模 = 模型选择 + 参数估计 227
4.2.8 线性模型的建模方法 227
4.2.9 术语 变量选择 228
4.2.10 术语 空模型 228
4.2.11 通过假设检验选择变量 229
4.2.12 通过信息量准则选择变量 229
4.2.13 模型评估 230
4.2.14 补充 在建模之前确定分析目的 230
4.3 数据表示与模型名称 231
4.3.1 术语 正态线性模型 231
4.3.2 术语 回归分析(经典术语) 231
4.3.3 术语 多元回归分析(经典术语) 232
4.3.4 术语 方差分析(经典术语) 232
4.3.5 术语 广义线性模型 232
4.3.6 补充 机器学习中的叫法 232
4.4 参数估计:最大似然估计 234
4.4.1 为什么要学习参数估计 234
4.4.2 术语 似然 234
4.4.3 术语 似然函数 235
4.4.4 术语 对数似然 235
4.4.5 术语 对数的性质 235
4.4.6 术语 最大似然法 238
4.4.7 术语 最大似然估计量 238
4.4.8 术语 最大对数似然 239
4.4.9 服从正态分布的数据的似然 239
4.4.10 术语 多余参数 239
4.4.11 正态线性模型的似然 240
4.4.12 补充 最大似然法计算举例 241
4.4.13 补充 最大似然估计量的性质 243
4.5 参数估计:最小化损失 244
4.5.1 术语 损失函数 244
4.5.2 术语 残差 244
4.5.3 为什么不把残差之和作为损失指标 245
4.5.4 术语 残差平方和 246
4.5.5 术语 最小二乘法 247
4.5.6 补充 最小二乘法与最大似然法的关系 247
4.5.7 术语 误差函数 248
4.5.8 多种损失函数 248
4.6 预测精度的评估与变量选择 249
4.6.1 术语 拟合精度与预测精度 249
4.6.2 术语 过拟合 249
4.6.3 变量选择的意义 250
4.6.4 术语 泛化误差 250
4.6.5 术语 训练集与测试集 250
4.6.6 术语 交叉验证 250
4.6.7 术语 赤池信息量准则 251
4.6.8 术语 相对熵 252
4.6.9 最小化相对熵与平均对数似然 252
4.6.10 AIC与平均对数似然中的偏离 253
4.6.11 AIC与交叉验证 254
4.6.12 使用 AIC进行变量选择 254
4.6.13 用变量选择代替假设检验 254
4.6.14 使用假设检验还是 AIC 255
第 5章 正态线性模型 257
5.1 含有单个连续型解释变量的模型(一元回归) 258
5.1.1 环境准备 258
5.1.2 实现 读入数据并绘制其图形 259
5.1.3 建模 260
5.1.4 实现 使用 statsmodels实现模型化 261
5.1.5 实现 打印估计结果并检验系数 261
5.1.6 关于 summary函数的输出的说明 263
5.1.7 实现 使用 AIC进行模型选择 264
5.1.8 术语 回归直线 266
5.1.9 实现 用 seaborn绘制回归直线 266
5.1.10 实现 使用模型进行预测 267
5.1.11 实现 获取残差 269
5.1.12 术语 决定系数 270
5.1.13 实现 决定系数 270
5.1.14 术语 修正决定系数 272
5.1.15 实现 修正决定系数 272
5.1.16 实现 残差的直方图和散点图 273
5.1.17 术语 分位图 274
5.1.18 实现 分位图 275
5.1.19 根据 summary函数的输出分析残差 277
5.2 方差分析 279
5.2.1 本节例题 279
5.2.2 什么时候应该使用方差分析 279
5.2.3 术语 多重假设检验 280
5.2.4 方差分析的直观理解:F比 280
5.2.5 显著性差异与小提琴图 281
5.2.6 方差分析的直观理解:分离效应和误差 283
5.2.7 术语 组间差异与组内差异 283
5.2.8 环境准备 284
5.2.9 生成数据并可视化 284
5.2.10 实现 方差分析①:计算组间偏差平方和与组内偏差平方和 286
5.2.11 实现 方差分析②:计算组间方差与组内方差 287
5.2.12 实现 方差分析③:计算 p值 288
5.2.13 解释变量为分类变量的正态线性模型 289
5.2.14 术语 虚拟变量 289
5.2.15 实现 statsmodels中的方差分析 290
5.2.16 术语 方差分析表 290
5.2.17 模型系数的含义 290
5.2.18 使用模型分离效应和误差 291
5.2.19 回归模型中的方差分析 292
5.3 含有多个解释变量的模型 295
5.3.1 环境准备 295
5.3.2 实现 数据可视化 296
5.3.3 错误的分析:建立只有 1个变量的模型 297
5.3.4 分析解释变量之间的关系 299
5.3.5 实现 多解释变量的模型 301
5.3.6 错误的分析:使用普通方差分析 301
5.3.7 实现 回归系数的 t检验 303
5.3.8 术语 Type II ANOVA 304
5.3.9 模型选择与方差分析 304
5.3.10 Type II ANOVA与调整平方和 307
5.3.11 实现 Type II ANOVA 308
5.3.12 Type II ANOVA的含义 310
5.3.13 实现 变量选择与模型选择 310
5.3.14 使用 AIC进行变量选择 311
5.3.15 补充 多重共线性 312
第 6章 广义线性模型 313
6.1 各种概率分布 314
6.1.1 术语 二值随机变量 314
6.1.2 术语 伯努利试验 314
6.1.3 术语 成功概率 315
6.1.4 术语 伯努利分布 315
6.1.5 术语 二项分布 315
6.1.6 二项分布的应用 316
6.1.7 二项分布的概率质量函数 316
6.1.8 环境准备 317
6.1.9 实现 二项分布 318
6.1.10 术语 泊松分布 319
6.1.11 泊松分布的应用 319
6.1.12 泊松分布的概率质量函数 320
6.1.13 补充 二项分布与泊松分布的关系 320
6.1.14 实现 泊松分布 320
6.1.15 补充 其他概率分布 323
6.1.16 补充 指数分布族 323
6.2 广义线性模型基础 325
6.2.1 广义线性模型的组成 325
6.2.2 概率分布 326
6.2.3 术语 线性预测算子 326
6.2.4 术语 联系函数 326
6.2.5 联系函数与概率分布的关系 327
6.2.6 广义线性模型的参数估计 328
6.2.7 补充 广义线性模型的检验方法 328
6.3 logistic回归 329
6.3.1 术语 logistic回归 329
6.3.2 本节例题 329
6.3.3 二值分类问题 329
6.3.4 术语 logit函数 330
6.3.5 术语 反函数 330
6.3.6 术语 logistic函数 330
6.3.7 logistic函数的性质 331
6.3.8 logistic回归的推导 331
6.3.9 logistic回归的似然函数 332
6.3.10 环境准备 333
6.3.11 实现 读取数据并可视化 334
6.3.12 实现 logistic回归 335
6.3.13 实现 logistic 回归的结果 336
6.3.14 实现 模型选择 337
6.3.15 实现 回归曲线 337
6.3.16 实现 预测成功概率 338
6.3.17 术语 优势 339
6.3.18 术语 优势比 340
6.3.19 logistic回归的系数与优势比的关系 340
6.4 广义线性模型的评估 342
6.4.1 环境准备 342
6.4.2 术语 皮尔逊残差 343
6.4.3 皮尔逊残差的含义 343
6.4.4 实现 皮尔逊残差 344
6.4.5 术语 模型偏差 345
6.4.6 模型偏差的含义 345
6.4.7 补充 模型偏差与似然比检验 346
6.4.8 术语 偏差残差 346
6.4.9 实现 偏差残差 346
6.4.10 补充 交叉熵误差 347
6.5 泊松回归 349
6.5.1 术语 泊松回归 349
6.5.2 本节例题 349
6.5.3 泊松回归的推导 349
6.5.4 环境准备 350
6.5.5 实现 泊松回归 351
6.5.6 实现 模型选择 352
6.5.7 实现 回归曲线 352
6.5.8 回归系数的含义 353
第 7章 统计学与机器学习 355
7.1 机器学习基础 356
7.1.1 术语 机器学习 356
7.1.2 术语 有监督学习 356
7.1.3 术语 无监督学习 357
7.1.4 补充 强化学习 357
7.1.5 补充 规则学习 357
7.1.6 统计学与机器学习无法彻底分离 357
7.1.7 统计学注重过程,机器学习注重结果 358
7.2 正则化、Ridge回归与 Lasso回归 359
7.2.1 术语 正则化 359
7.2.2 术语 Ridge回归 359
7.2.3 术语 Lasso回归 361
7.2.4 确定正则化强度 361
7.2.5 将解释变量标准化 361
7.2.6 Ridge回归与 Lasso回归的估计结果对比 362
7.2.7 变量选择与正则化的对比 363
7.2.8 正则化的意义 363
7.3 Python中的 Ridge回归与 Lasso回归 365
7.3.1 scikit.learn 365
7.3.2 环境准备 365
7.3.3 实现 标准化 366
7.3.4 定义响应变量 368
7.3.5 实现 普通最小二乘法 369
7.3.6 实现 使用 sklearn实现线性回归 370
7.3.7 实现 Ridge回归:惩罚指标的影响 370
7.3.8 实现 Ridge回归:确定最佳正则化强度 373
7.3.9 实现 Lasso回归:惩罚指标的影响 374
7.3.10 实现 Lasso回归:确定最佳正则化强度 376
7.4 线性模型与神经网络 378
7.4.1 本节例题 378
7.4.2 术语 输入向量、目标向量、权重、偏置 378
7.4.3 术语 单层感知机 379
7.4.4 术语 激活函数 379
7.4.5 从线性模型到神经网络 380
7.4.6 术语 隐藏层 381
7.4.7 术语 神经网络 381
7.4.8 神经网络的结构 381
7.4.9 神经网络中的 L2正则化 382
7.4.10 环境准备 382
7.4.11 实现 读入数据并整理 383
7.4.12 实现 logistic 回归 385
7.4.13 实现 标准化 387
7.4.14 实现 神经网络 388
7.4.15 线性模型与神经网络的优点 389
7.5 扩展内容 390
7.5.1 数学原理 390
7.5.2 经典统计学 390
7.5.3 统计模型 391
7.5.4 机器学习 391
7.5.5 模型评估 392
7.5.6 数据科学 392
参考文献 394
猜您喜欢