书籍详情

机器学习实践:数据科学应用与工作流的开发及优化

机器学习实践:数据科学应用与工作流的开发及优化

作者:[美] 安德鲁·凯莱赫,亚当·凯莱赫 著,陈子墨 刘瀚文译 译

出版社:机械工业出版社

出版时间:2020-04-01

ISBN:9787111651369

定价:¥99.00

购买这本书可以去
内容简介
  本书以作者在BuzzFeed的工作经验为基础,将机器学习和计算机工程巧妙地结合在一起。第壹部分的基本原则是数据科学世界坚实的基础;第二部分介绍现实问题中的常用算法,帮助读者迅速解决实际问题,避免被数据误导、产生结论错误;第三部分则着眼于工程实践,基于工程角度突破瓶颈,让算法能够在现实条件中得以实现。
作者简介
暂缺《机器学习实践:数据科学应用与工作流的开发及优化》作者简介
目录
译者序

前言
作者简介
第一部分 框架原则
第1章 数据科学家的定位 2
1.1 引言 2
1.2 数据科学家扮演的角色 2
1.2.1 公司规模 3
1.2.2 团队背景 3
1.2.3 职业晋升和发展 4
1.2.4 重要性 5
1.2.5 工作细分 5
1.3 结论 5
第2章 项目流程 7
2.1 引言 7
2.2 数据团队背景 7
2.2.1 专门岗位与资源池 8
2.2.2 研究分析 8
2.2.3 原型设计 9
2.2.4 集成的工作流 10
2.3 敏捷开发与产品定位 10
2.4 结论 15
第3章 量化误差 16
3.1 引言 16
3.2 量化测量值的误差 16
3.3 抽样误差 18
3.4 误差传递 20
3.5 结论 22
第4章 数据编码与预处理 23
4.1 引言 23
4.2 简单文本预处理 24
4.2.1 分词 24
4.2.2 n元模型 26
4.2.3 稀疏 26
4.2.4 特征选择 27
4.2.5 表示学习 29
4.3 信息量损失 31
4.4 结论 33
第5章 假设检验 34
5.1 引言 34
5.2 什么是假设 34
5.3 假设检验的错误类型 36
5.4 p值和置信区间 37
5.5 多重测试和p值操控 38
5.6 实例 39
5.7 假设检验的设计 40
5.8 结论 41
第6章 数据可视化 43
6.1 引言 43
6.2 数据分布和汇总统计 43
6.2.1 数据分布和直方图 44
6.2.2 散点图和热力图 48
6.2.3 箱线图和误差条 52
6.3 时间序列图 54
6.3.1 移动统计 54
6.3.2 自相关 56
6.4 图可视化 57
6.4.1 布局算法 57
6.4.2 时间复杂度 59
6.5 结论 60
第二部分 算法与架构
第7章 算法和架构简介 62
7.1 引言 62
7.2 架构 64
7.2.1 服务 64
7.2.2 数据源 65
7.2.3 分批及在线计算 66
7.2.4 规模扩展 66
7.3 模型 67
7.3.1 训练 68
7.3.2 预测 68
7.3.3 验证 69
7.4 结论 70
第8章 距离度量 71
8.1 引言 71
8.2 Jaccard距离 71
8.2.1 算法 72
8.2.2 时间复杂度 73
8.2.3 内存注意事项 73
8.2.4 分布式方法 73
8.3 MinHash 74
8.3.1 假设 75
8.3.2 时空复杂度 75
8.3.3 工具 75
8.3.4 分布式方法 75
8.4 余弦相似度 76
8.4.1 复杂度 78
8.4.2 内存注意事项 78
8.4.3 分布式方法 78
8.5 马氏距离 78
8.5.1 复杂度 79
8.5.2 内存注意事项 79
8.5.3 分布式方法 79
8.6 结论 80
第9章 回归 81
9.1 引言 81
9.1.1 选择模型 82
9.1.2 选择目标函数 82
9.1.3 模型拟合 83
9.1.4 模型验证 84
9.2 线性最小二乘 87
9.2.1 假设 88
9.2.2 复杂度 89
9.2.3 内存注意事项 89
9.2.4 工具 89
9.2.5 分布式方法 89
9.2.6 实例 90
9.3 线性回归中的非线性回归 97
9.4 随机森林 100
9.4.1 决策树 100
9.4.2 随机森林 103
9.5 结论 106
第10章 分类和聚类 107
10.1 引言 107
10.2 逻辑回归 108
10.2.1 假设 111
10.2.2 时间复杂度 111
10.2.3 内存注意事项 112
10.2.4 工具 112
10.3 贝叶斯推断与朴素贝叶斯 112
10.3.1 假设 114
10.3.2 复杂度 114
10.3.3 内存注意事项 114
10.3.4 工具 114
10.4 K-Means 115
10.4.1 假设 118
10.4.2 复杂度 118
10.4.3 内存注意事项 118
10.4.4 工具 118
10.5 最大特征值 118
10.5.1 复杂度 120
10.5.2 内存注意事项 120
10.5.3 工具 120
10.6 Louvain贪心算法 120
10.6.1 假设 121
10.6.2 复杂度 121
10.6.3 内存注意事项 121
10.6.4 工具 121
10.7 最近邻算法 121
10.7.1 假设 123
10.7.2 复杂度 123
10.7.3 内存注意事项 123
10.7.4 工具 123
10.8 结论 123
第11章 贝叶斯网络 125
11.1 引言 125
11.2 因果图、条件独立和马尔
 可夫 126
11.2.1 因果图和条件独立 126
11.2.2 稳定性和依赖性 127
11.3 d分离和马尔可夫性质 128
11.3.1 马尔可夫和因式
 分解 128
11.3.2 d分离 129
11.4 贝叶斯网络的因果图 132
11.5 模型拟合 133
11.6 结论 136
第12章 降维与隐变量模型 137
12.1 引言 137
12.2 先验 137
12.3 因子分析 139
12.4 主成分分析 140
12.4.1 复杂度 142
12.4.2 内存注意事项 142
12.4.3 工具 142
12.5 独立成分分析 142
12.5.1 假设 145
12.5.2 复杂度 145
12.5.3 内存注意事项 146
12.5.4 工具 146
12.6 LDA主题模型 146
12.7 结论 152
第13章 因果推断 153
13.1 引言 153
13.2 实验 154
13.3 观测值:一个实例 157
13.4 非因果阻断控制法 163
13.5 机器学习估计量 167
13.5.1 重新审视G公式 167
13.5.2 实例 168
13.6 结论 172
第14章 高级机器学习 173
14.1 引言 173
14.2 优化 173
14.3 神经网络 175
14.3.1 神经网络层 176
14.3.2 神经网络容量 177
14.3.3 过拟合 179
14.3.4 批拟合 183
14.3.5 损失函数 183
14.4 结论 185
第三部分 瓶颈和优化
第15章 硬件基础 188
15.1 引
猜您喜欢

读书导航