书籍详情
Python贝叶斯分析(第2版)
作者:[阿根廷] 奥斯瓦尔多·马丁(Osvaldo Martin)
出版社:人民邮电出版社
出版时间:2023-04-01
ISBN:9787115600899
定价:¥119.80
购买这本书可以去
内容简介
本书是一本概率编程的入门书。本书使用概率编程库 PyMC3以及可视化库 ArviZ对贝叶斯统计分析的相关知识进行讲解,包括概率思维、概率编程、线性回归建模、广义线性模型、模型比较、混合模型、高斯过程以及推断引擎等知识。全书图文并茂,通俗易懂,适合具备一定 Python基础的读者学习使用。学完本书,读者可以利用概率思维建立贝叶斯模型并解决自己的数据分析问题。
作者简介
奥斯瓦尔多·马丁( Osvaldo Martin)是阿根廷国家科学与技术研究理事会(CONICET)的一名研究员。他曾从事蛋白质、多糖及 RNA分子等结构生物信息学方面的研究,此外,在应用马尔可夫链蒙特卡洛方法模拟分子动力学方向上有着丰富的经验,他喜欢用 Python解决数据分析中的问题。 他曾讲授结构生物信息学、数据科学以及贝叶斯数据分析相关的课程,在 2017年带头组建了阿根廷圣路易斯 PyData委员会。同时,他也是 PyMC3以及 ArviZ两个项目的核心开发者之一。
目录
第 1 章 概率思维 1
1.1 统计学、模型以及本书采用的方法 1
1.1.1 与数据打交道 2
1.1.2 贝叶斯建模 3
1.2 概率论 4
1.2.1 解释概率 4
1.2.2 定义概率 6
1.3 单参数推断 14
1.4 报告贝叶斯分析结果 23
1.4.1 模型表示和可视化 23
1.4.2 总结后验 24
1.5 后验预测检查 26
1.6 总结 27
1.7 练习 28
第 2 章 概率编程 30
2.1 简介 31
2.2 PyMC3 指南 32
2.3 总结后验 34
2.4 随处可见的高斯分布 41
2.4.1 高斯推断 41
2.4.2 鲁棒推断 46
2.5 组间比较 50
2.5.1 Cohen’s d 52
2.5.2 概率优势 53
2.5.3 “小费”数据集 53
2.6 分层模型 57
2.6.1 收缩 60
2.6.2 额外的例子 63
2.7 总结 66
2.8 练习 67
第3 章 线性回归建模 69
3.1 一元线性回归 69
3.1.1 与机器学习的联系 70
3.1.2 线性回归模型的核心 71
3.1.3 线性模型与高自相关性 75
3.1.4 对后验进行解释和可视化 77
3.1.5 皮尔逊相关系数 80
3.2 鲁棒线性回归 84
3.3 分层线性回归 87
3.4 多项式回归 94
3.4.1 解释多项式回归的系数 96
3.4.2 多项式回归——终极模型 97
3.5 多元线性回归 97
3.5.1 混淆变量和多余变量 101
3.5.2 多重共线性或相关性太高 104
3.5.3 隐藏效果变量 107
3.5.4 增加相互作用 109
3.5.5 变量的方差 110
3.6 总结 113
3.7 练习 114
第4 章 广义线性模型 117
4.1 简介 117
4.2 逻辑回归 118
4.2.1 逻辑回归模型 119
4.2.2 鸢尾花数据集 120
4.3 多元逻辑回归 125
4.3.1 决策边界 125
4.3.2 模型实现 126
4.3.3 解释逻辑回归的系数 127
4.3.4 处理相关变量 130
4.3.5 处理不平衡分类 131
4.3.6 softmax 回归 133
4.3.7 判别式模型和生成式模式 135
4.4 泊松回归 137
4.4.1 泊松分布 137
4.4.2 零膨胀泊松模型 139
4.4.3 泊松回归和ZIP 回归 141
4.5 鲁棒逻辑回归 143
4.6 GLM 模型 144
4.7 总结 145
4.8 练习 146
第5 章 模型比较 148
5.1 后验预测检查 148
5.2 奥卡姆剃刀原理——简单性和准确性 153
5.2.1 参数过多会导致过拟合 155
5.2.2 参数太少会导致欠拟合 156
5.2.3 简单性与准确性之间的平衡 157
5.2.4 预测精度度量 157
5.3 信息准则 159
5.3.1 对数似然和偏差 159
5.3.2 赤池信息量准则 160
5.3.3 广泛适用的信息准则 161
5.3.4 帕累托平滑重要性采样留一法交叉验证 161
5.3.5 其他信息准则 161
5.3.6 使用PyMC3 比较模型 162
5.3.7 模型平均 165
5.4 贝叶斯因子 168
5.4.1 一些讨论 169
5.4.2 贝叶斯因子与信息准则 173
5.5 正则化先验 176
5.6 深入WAIC 177
5.6.1 熵 178
5.6.2 KL 散度 180
5.7 总结 182
5.8 练习 183
第6 章 混合模型 185
6.1 简介 185
6.2 有限混合模型 187
6.2.1 分类分布 188
6.2.2 狄利克雷分布 189
6.2.3 混合模型的不可辨识性 192
6.2.4 怎样选择K 194
6.2.5 混合模型与聚类 198
6.3 非有限混合模型 199
6.4 连续混合模型 206
6.4.1 贝塔-二项分布和负二项分布 207
6.4.2 t 分布 207
6.5 总结 208
6.6 练习 209
第7 章 高斯过程 210
7.1 线性模型和非线性数据 210
7.2 建模函数 211
7.2.1 多元高斯函数 213
7.2.2 协方差函数与核函数 213
7.3 高斯过程回归 217
7.4 空间自相关回归 222
7.5 高斯过程分类 229
7.6 Cox 过程 235
7.6.1 煤矿灾害 236
7.6.2 红杉数据集 238
7.7 总结 241
7.8 练习 241
第8 章 推断引擎 243
8.1 简介 243
8.2 非马尔可夫方法 245
8.2.1 网格计算 245
8.2.2 二次近似法 247
8.2.3 变分法 249
8.3 马尔可夫方法 252
8.3.1 蒙特卡洛 253
8.3.2 马尔可夫链 255
8.3.3 梅特罗波利斯- 黑斯廷斯算法 255
8.3.4 哈密顿蒙特卡洛 259
8.3.5 序贯蒙特卡洛 261
8.4 样本诊断 263
8.4.1 收敛 264
8.4.2 蒙特卡洛误差 268
8.4.3 自相关 268
8.4.4 有效样本量 269
8.4.5 分歧 270
8.5 总结 273
8.6 练习 273
第9 章 拓展学习 274
1.1 统计学、模型以及本书采用的方法 1
1.1.1 与数据打交道 2
1.1.2 贝叶斯建模 3
1.2 概率论 4
1.2.1 解释概率 4
1.2.2 定义概率 6
1.3 单参数推断 14
1.4 报告贝叶斯分析结果 23
1.4.1 模型表示和可视化 23
1.4.2 总结后验 24
1.5 后验预测检查 26
1.6 总结 27
1.7 练习 28
第 2 章 概率编程 30
2.1 简介 31
2.2 PyMC3 指南 32
2.3 总结后验 34
2.4 随处可见的高斯分布 41
2.4.1 高斯推断 41
2.4.2 鲁棒推断 46
2.5 组间比较 50
2.5.1 Cohen’s d 52
2.5.2 概率优势 53
2.5.3 “小费”数据集 53
2.6 分层模型 57
2.6.1 收缩 60
2.6.2 额外的例子 63
2.7 总结 66
2.8 练习 67
第3 章 线性回归建模 69
3.1 一元线性回归 69
3.1.1 与机器学习的联系 70
3.1.2 线性回归模型的核心 71
3.1.3 线性模型与高自相关性 75
3.1.4 对后验进行解释和可视化 77
3.1.5 皮尔逊相关系数 80
3.2 鲁棒线性回归 84
3.3 分层线性回归 87
3.4 多项式回归 94
3.4.1 解释多项式回归的系数 96
3.4.2 多项式回归——终极模型 97
3.5 多元线性回归 97
3.5.1 混淆变量和多余变量 101
3.5.2 多重共线性或相关性太高 104
3.5.3 隐藏效果变量 107
3.5.4 增加相互作用 109
3.5.5 变量的方差 110
3.6 总结 113
3.7 练习 114
第4 章 广义线性模型 117
4.1 简介 117
4.2 逻辑回归 118
4.2.1 逻辑回归模型 119
4.2.2 鸢尾花数据集 120
4.3 多元逻辑回归 125
4.3.1 决策边界 125
4.3.2 模型实现 126
4.3.3 解释逻辑回归的系数 127
4.3.4 处理相关变量 130
4.3.5 处理不平衡分类 131
4.3.6 softmax 回归 133
4.3.7 判别式模型和生成式模式 135
4.4 泊松回归 137
4.4.1 泊松分布 137
4.4.2 零膨胀泊松模型 139
4.4.3 泊松回归和ZIP 回归 141
4.5 鲁棒逻辑回归 143
4.6 GLM 模型 144
4.7 总结 145
4.8 练习 146
第5 章 模型比较 148
5.1 后验预测检查 148
5.2 奥卡姆剃刀原理——简单性和准确性 153
5.2.1 参数过多会导致过拟合 155
5.2.2 参数太少会导致欠拟合 156
5.2.3 简单性与准确性之间的平衡 157
5.2.4 预测精度度量 157
5.3 信息准则 159
5.3.1 对数似然和偏差 159
5.3.2 赤池信息量准则 160
5.3.3 广泛适用的信息准则 161
5.3.4 帕累托平滑重要性采样留一法交叉验证 161
5.3.5 其他信息准则 161
5.3.6 使用PyMC3 比较模型 162
5.3.7 模型平均 165
5.4 贝叶斯因子 168
5.4.1 一些讨论 169
5.4.2 贝叶斯因子与信息准则 173
5.5 正则化先验 176
5.6 深入WAIC 177
5.6.1 熵 178
5.6.2 KL 散度 180
5.7 总结 182
5.8 练习 183
第6 章 混合模型 185
6.1 简介 185
6.2 有限混合模型 187
6.2.1 分类分布 188
6.2.2 狄利克雷分布 189
6.2.3 混合模型的不可辨识性 192
6.2.4 怎样选择K 194
6.2.5 混合模型与聚类 198
6.3 非有限混合模型 199
6.4 连续混合模型 206
6.4.1 贝塔-二项分布和负二项分布 207
6.4.2 t 分布 207
6.5 总结 208
6.6 练习 209
第7 章 高斯过程 210
7.1 线性模型和非线性数据 210
7.2 建模函数 211
7.2.1 多元高斯函数 213
7.2.2 协方差函数与核函数 213
7.3 高斯过程回归 217
7.4 空间自相关回归 222
7.5 高斯过程分类 229
7.6 Cox 过程 235
7.6.1 煤矿灾害 236
7.6.2 红杉数据集 238
7.7 总结 241
7.8 练习 241
第8 章 推断引擎 243
8.1 简介 243
8.2 非马尔可夫方法 245
8.2.1 网格计算 245
8.2.2 二次近似法 247
8.2.3 变分法 249
8.3 马尔可夫方法 252
8.3.1 蒙特卡洛 253
8.3.2 马尔可夫链 255
8.3.3 梅特罗波利斯- 黑斯廷斯算法 255
8.3.4 哈密顿蒙特卡洛 259
8.3.5 序贯蒙特卡洛 261
8.4 样本诊断 263
8.4.1 收敛 264
8.4.2 蒙特卡洛误差 268
8.4.3 自相关 268
8.4.4 有效样本量 269
8.4.5 分歧 270
8.5 总结 273
8.6 练习 273
第9 章 拓展学习 274
猜您喜欢