Scikit-Learn机器学习核心技术与实践

作者：谭贞军

出版社：清华大学出版社

出版时间：2022-04-01

ISBN：9787302599487

定价：¥79.00

　　《Scikit-Learn机器学习核心技术与实践》循序渐进地讲解了使用 Scikit-Learn 开发机器学习程序的核心知识，并通过具体实例的实现过程演练了使用 Scikit-Learn 的方法和流程。全书共10章，包括人工智能与Scikit-Learn 简介，加载数据集，监督学习，无监督学习，模型选择和评估，数据集转换，实现大数据计算，英超联赛比分预测系统（Matplotlib+Scikit-Learn+Flask+Pandas），AI考勤管理系统（face-recognition+Matplotlib+ Django+Scikit-Learn+Dlib），实时电影推荐系统（Scikit-Learn+Flask+Pandas）。本书简洁而不失其技术深度，内容丰富全面，易于阅读。 \n《Scikit-Learn机器学习核心技术与实践》适用于已经了解Python语言基础语法的读者，以及想进一步学习机器学习和深度学习技术的读者，还可以作为大专院校相关专业的师生用书和培训学校的专业教材。 \n

　　谭贞军，哈尔滨工业大学计算机硕士，平常喜爱Android应用开发和底层开发，在谷歌市场已经发布多款经典应用程序。热衷于人工智能、机器学习、Android开发和物联网开发，对AI项目的架构设计和实现原理有非常深刻的认识和理解，应用开发经验也十分丰富。另外还十分精通Python、C、C++、Java、C#开发语言，熟悉软件规划、项目架构和项目推广。近年来随着AI和大数据业务的兴起，深入研究了人工智能开发应用，并且基于Python的AI研发一直是最擅长的领域。

第1 章人工智能与Scikit-Learn 简介 1

\n

1.1 人工智能技术的兴起 2

\n

1.1.1 人工智能介绍 2

\n

1.1.2 人工智能的研究领域 2

\n

1.1.3 和人工智能相关的几个重要概念 3

\n

1.1.4 人工智能的两个重要发展阶段 4

\n

1.2 机器学习和深度学习 4

\n

1.2.1 机器学习 5

\n

1.2.2 深度学习 5

\n

1.2.3 机器学习和深度学习的区别 6

\n

1.3　初步认识Scikit-Learn 7

\n

1.3.1 Scikit-Learn 介绍 7

\n

1.3.2 使用pip 安装Scikit-Learn 7

\n

1.3.3 使用Anaconda 安装Scikit-Learn 8

\n

1.3.4 解决速度过慢的问题 9

\n

1.4 准备开发工具 10

\n

第2 章加载数据集 11

\n

2.1 标准数据集API 12

\n

2.1.1 波士顿房价数据集（适用于回归任务） 12

\n

2.1.2 威斯康星州乳腺癌数据集（适用于分类问题） 13

\n

2.1.3 糖尿病数据集（适用于回归任务） 13

\n

2.1.4 手写数字数据集（适用于分类任务） 14

\n

2.1.5 Fisher 的鸢尾花数据集（适用于分类问题） 15

\n

2.1.6 红酒数据集（适用于分类问题） 15

\n

2.2 自定义数据集 16

\n

2.2.1 生成聚类数据 16

\n

2.2.2 生成同心圆样本点 17

\n

2.2.3 生成模拟分类数据集 18

\n

2.2.4 生成太极型非凸集样本点 19

\n

第3 章监督学习 21

\n

3.1 广义线性模型 22

\n

3.1.1 普通最小二乘法 22

\n

3.1.2 岭回归 24

\n

3.1.3 Lasso 回归 25

\n

3.2 线性判别分析和二次判别分析 27

\n

3.2.1 使用线性判别分析来降维 28

\n

3.2.2 LDA 和QDA 分类器的数学公式 30

\n

3.2.3 收缩 30

\n

3.3 内核岭回归 32

\n

3.4 支持向量机 33

\n

3.4.1 分类 34

\n

3.4.2 回归 36

\n

3.4.3 密度估计和异常检测 38

\n

3.5 随机梯度下降 39

\n

3.5.1 分类 40

\n

3.5.2 回归 42

\n

3.5.3 稀疏数据的随机梯度下降 42

\n

第4 章无监督学习 49

\n

4.1 高斯混合模型 50

\n

4.1.1 高斯混合 50

\n

4.1.2 变分贝叶斯高斯混合 53

\n

4.2 流形学习 55

\n

4.3 聚类 57

\n

4.3.1 KMeans 算法 57

\n

4.3.2 MiniBatchKMeans 算法 60

\n

4.4 双聚类 62

\n

4.4.1 谱聚类算法 63

\n

4.4.2 光谱联合聚类算法 66

\n

第5 章模型选择和评估 69

\n

5.1 交叉验证：评估估算器的表现 70

\n

5.1.1 计算交叉验证的指标 71

\n

5.1.2 交叉验证迭代器 75

\n

5.2 调整估计器的超参数 76

\n

5.2.1 网格追踪法：穷尽的网格搜索 77

\n

5.2.2 随机参数优化 80

\n

5.3 模型评估: 量化预测的质量 82

\n

5.3.1 得分参数scoring ：定义模型评估规则 83

\n

5.3.2 分类指标 85

\n

第6 章数据集转换 89

\n

6.1 Pipeline（管道）和 FeatureUnion（特征联合） 90

\n

6.1.1 Pipeline ：链式评估器 90

\n

6.1.2 FeatureUnion（特征联合）：特征层 93

\n

6.2 特征提取 95

\n

6.2.1 从字典类型加载特征 95

\n

6.2.2 特征哈希 96

\n

6.2.3 提取文本特征 97

\n

6.2.4 提取图像特征 99

\n

6.3 预处理数据 102

\n

6.3.1 标准化处理 102

\n

6.3.2 非线性转换 103

\n

6.4 无监督降维 106

\n

6.4.1 PCA ：主成分分析 106

\n

6.4.2 随机投影 110

\n

第7 章实现大数据计算 117

\n

7.1 计算扩展策略 118

\n

7.1.1 使用外核学习实例进行拓展 118

\n

7.1.2 使用外核方法进行分类 119

\n

7.2 计算性能 129

\n

7.2.1 预测延迟 129

\n

7.2.2 预测吞吐量 137

\n

第8 章英超联赛比分预测系统（Matplotlib+Scikit-Learn+Flask+Pandas） 143

\n

8.1 英超联赛介绍 144

\n

8.2 系统模块介绍 144

\n

8.3 数据集 144

\n

8.3.1 获取api-football 密钥 145

\n

8.3.2 获取数据 145

\n

8.3.3 收集最新数据 150

\n

8.4 特征提取和数据可视化 152

\n

8.4.1 提取数据 153

\n

8.4.2 数据可视化 154

\n

8.5 模型选择和训练 161

\n

8.5.1 机器学习函数 161

\n

8.5.2 数据降维 172

\n

8.5.3 MLP 神经网络 175

\n

8.6 模型评估 178

\n

8.6.1 近邻模型和混淆矩阵模型 179

\n

8.6.2 随机森林模型和混淆矩阵模型 186

\n

8.6.3 SVM 模型和混淆矩阵模型 190

\n

8.7 Web 可视化 197

\n

8.7.1 获取预测数据 197

\n

8.7.2 Flask Web 主页 200

\n

第9 章 AI 考勤管理系统（face-recognition+Matplotlib+Django+Scikit-Learn+Dlib） 203

\n

9.1 背景介绍 204

\n

9.2 系统需求分析 204

\n

9.2.1 可行性分析 204

\n

9.2.2 系统操作流程分析 204

\n

9.2.3 系统模块设计 204

\n

9.3 系统配置 205

\n

9.3.1 Django 配置文件 205

\n

9.3.2 路径导航文件 206

\n

9.4 用户注册和登录验证 207

\n

9.4.1 登录验证 207

\n

9.4.2 添加新用户 208

\n

9.4.3 设计数据模型 210

\n

9.5 采集照片和机器学习 210

\n

9.5.1 设置采集对象 210

\n

9.5.2 采集照片 212

\n

9.5.3 训练照片模型 214

\n

9.6 考勤打卡 216

\n

9.6.1 上班打卡签到 216

\n

9.6.2 下班打卡 218

\n

9.7 可视化考勤数据 220

\n

9.7.1 统计最近两周员工的考勤数据 220

\n

9.7.2 查看本人在指定时间段内的考勤信息 225

\n

9.7.3 查看某员工在指定时间段内的考勤信息 229

\n

第10 章实时电影推荐系统（Scikit-Learn+Flask+Pandas） 233

\n

10.1 系统介绍 234

\n

10.1.1 背景介绍 234

\n

10.1.2 推荐系统和搜索引擎 234

\n

10.1.3 项目介绍 235

\n

10.2 系统模块 235

\n

10.3 数据采集和整理 235

\n

10.3.1 数据整理 236

\n

10.3.2 电影详情数据 239

\n

10.3.3 提取电影特征 247

\n

10.4 情感分析和序列化操作 252

\n

10.5 Web 端实时推荐 253

\n

10.5.1 Flask 启动页面 253

\n

10.5.2 模板文件 256

\n

10.5.3 后端处理 263

\n