PYTHON分布式机器学习
作者:(美)冠华·王
出版社:清华大学出版社
出版时间:2023-04-01
ISBN:9787302633112
定价:¥99.00
第1篇 数 据 并 行
第1章 拆分输入数据 3
1.1 单节点训练太慢 3
1.1.1 数据加载带宽和模型训练带宽之间的不匹配 5
1.1.2 流行数据集的单节点训练时间 5
1.1.3 使用数据并行加速训练过程 7
1.2 数据并行 8
1.2.1 随机梯度下降 11
1.2.2 模型同步 12
1.3 超参数调优 14
1.3.1 全局批次大小 14
1.3.2 学习率调整 14
1.3.3 模型同步方案 15
1.4 小结 16
第2章 参数服务器和All-Reduce 17
2.1 技术要求 18
2.2 参数服务器架构 18
2.2.1 参数服务器架构中的通信瓶颈 19
2.2.2 在参数服务器之间分片模型 21
2.3 实现参数服务器 23
2.3.1 定义模型层 23
2.3.2 定义参数服务器 24
2.3.3 定义工作节点 25
2.3.4 在参数服务器和工作节点之间传递数据 26
2.4 参数服务器的问题 27
2.4.1 情况1—更多参数服务器 28
2.4.2 情况2—更多工作节点 28
2.4.3 参数服务器架构为从业者带来了很高的编码复杂度 28
2.5 All-Reduce架构 29
2.5.1 Reduce 29
2.5.2 All-Reduce 30
2.5.3 Ring All-Reduce 31
2.6 集体通信 33
2.6.1 Broadcast 33
2.6.2 Gather 34
2.6.3 All-Gather 35
2.7 小结 36
第3章 构建数据并行训练和服务管道 37
3.1 技术要求 37
3.2 数据并行训练管道概述 38
3.2.1 输入预处理 39
3.2.2 输入数据分区 40
3.2.3 数据加载 41
3.2.4 数据训练 41
3.2.5 模型同步 42
3.2.6 模型更新 42
3.3 单机多GPU和多机多GPU 42
3.3.1 单机多GPU 43
3.3.2 多机多GPU 46
3.4 检查点和容错 52
3.4.1 模型检查点 52
3.4.2 加载模型检查点 53
3.5 模型评估和超参数调优 55
3.6 数据并行中的模型服务 57
3.7 小结 59
第4章 瓶颈和解决方案 61
4.1 数据并行训练中的通信瓶颈 62
4.1.1 通信工作负载分析 62
4.1.2 参数服务器架构 62
4.1.3 All-Reduce架构 65
4.1.4 最新通信方案的效率问题 68
4.2 利用空闲链路和主机资源 69
4.2.1 Tree All-Reduce 69
4.2.2 通过PCIe和NVLink进行混合数据传输 75
4.3 设备内存瓶颈 76
4.4 重新计算和量化 77
4.4.1 重新计算 77
4.4.2 量化 81
4.5 小结 82
第2篇 模 型 并 行
第5章 拆分模型 85
5.1 技术要求 86
5.2 单节点训练错误—内存不足 86
5.2.1 在单个GPU上微调BERT 86
5.2.2 尝试将一个巨型模型打包到单个GPU中 88
5.3 ELMo、BERT和GPT 90
5.3.1 基本概念 91
5.3.2 循环神经网络 94
5.3.3 ELMo 97
5.3.4 BERT 99
5.3.5 GPT 101
5.4 预训练和微调 102
5.5 最先进的硬件 103
5.5.1 P100、V100和DGX-1 103
5.5.2 NVLink 104
5.5.3 A100和DGX-2 105
5.5.4 NVSwitch 105
5.6 小结 105
第6章 管道输入和层拆分 107
6.1 普通模型并行的低效问题 108
6.1.1 前向传播 109
6.1.2 反向传播 110
6.1.3 前向传播和反向传播之间的GPU空闲时间 111
6.2 管道输入 114
6.3 管道并行的优缺点 118
6.3.1 管道并行的优势 118
6.3.2 管道并行的缺点 118
6.4 层拆分 119
6.5 关于层内模型并行的注意事项 121
6.6 小结 122
第7章 实现模型并行训练和服务工作流程 123
7.1 技术要求 124
7.2 整个模型并行管道概述 124
7.2.1 模型并行训练概述 124
7.2.2 实现模型并行训练管道 125
7.2.3 指定GPU之间的通信协议 127
7.2.4 模型并行服务 131
7.3 微调Transformer 134
7.4 模型并行中的超参数调优 136
7.4.1 平衡GPU之间的工作负载 136
7.4.2 启用/禁用管道并行 136
7.5 NLP模型服务 137
7.6 小结 138
第8章 实现更高的吞吐量和更低的延迟 139
8.1 技术要求 140
8.2 冻结层 140
8.2.1 在前向传播期间冻结层 141
8.2.2 在前向传播期间降低计算成本 144
8.2.3 在反向传播期间冻结层 145
8.3 探索内存和存储资源 147
8.4 了解模型分解和蒸馏 150
8.4.1 模型分解 151
8.4.2 模型蒸馏 153
8.5 减少硬件中的位数 153
8.6 小结 154
第3篇 高级并行范式
第9章 数据并行和模型并行的混合 157
9.1 技术要求 158
9.2 Megatron-LM用例研究 158
9.2.1 模型并行和层拆分 159
9.2.2 按行试错法 161
9.2.3 按列试错法 165
9.2.4 跨机数据并行 168
9.3 Megatron-LM的实现 169
9.4 Mesh-TensorFlow用例研究 171
9.5 Mesh-TensorFlow的实现 172
9.6 Megatron-LM和Mesh-TensorFlow的比较 172
9.7 小结 173
第10章 联合学习和边缘设备 175
10.1 技术要求 176
10.2 共享知识而不共享数据 176
10.2.1 传统数据并行模型训练范式 176
10.2.2 工作节点之间没有输入共享 178
10.2.3 在工作节点之间通信以同步梯度 179
10.3 用例研究:TensorFlow Federated 183
10.4 使用TinyML运行边缘设备 185
10.5 用例研究:TensorFlow Lite 185
10.6 小结 186