书籍详情
白话强化学习与PyTorch
作者:高扬,叶振斌 著
出版社:电子工业出版社
出版时间:2019-08-01
ISBN:9787121367472
定价:¥99.00
购买这本书可以去
内容简介
以平实的语言风格讲解强化学习和深度学习的结合,以及他们在Pytorch上的应用。内容将从几个方面来进行落实,一个是原理,一个是相关论文的精讲,一个是工程实现,是一本脉络清晰,内容详实的科普读物。本书第一章到第五章,讲的是传统强化学习的研究目标与脉络,主要讲的是从一个程序员的角度怎么理解强化学习过渡为轻松,侧重理解方式的诱导。第六章到第十一章,是本书的核心内容,讲的是深度学习的原理,Pytorch框架的基本知识,以及深度强化学习的常用算法模型。第十二章到第十五章,讲的是扩展性的知识,例如其它帮助我们训练模型的算法思路,第三方工具插件,可供实验的环境,以及比较有趣的强化学习算法和观点,甚至还包括模型落地中的优化与压缩。
作者简介
高扬,金山办公软件人工智能组技术负责人,历任欢聚时代人工智能算法专家,金山软件西山居大数据架构师等职。重庆工商大学研究生导师,电子工业出版社博文视点大数据技术图书专家委员会专家委员,有多年海外工作经验。有多部白话系列大数据与机器学习相关著作。 叶振斌,现任网易游戏伏羲人工智能实验室高级深度学习研发工程师。多年从事机器学习,特别是强化学习智能算法的研究及开发工作。拥有丰富的软件开发经验,丰富的人工智能算法训练平台开发经验。于2014年获东北大学软件工程专业学士学位,2017年获重庆大学计算机科学与技术专业硕士学位。
目录
第1章 强化学习是什么
1.1 题设
1.1.1 多智能才叫智能
1.1.2 人工智能的定义
1.2 强化学习的研究对象
1.2.1 什么场合需要强化学习
1.2.2 强化学习的建模
1.3 本章小结
第2章 强化学习的脉络
2.1 什么是策略
2.2 什么是好的策略
2.3 什么是模型
2.4 如何得到一个好的策略
2.4.1 直接法
2.4.2 间接法
2.5 马尔可夫决策过程
2.5.1 状态转移
2.5.2 策略与评价
2.5.3 策略优化
2.6 MODEL-BASED和MODEL-FREE
2.6.1 Model-Based
2.6.2 规划问题
2.6.3 Model-Free
2.7 本章小结
第3章 动态规划
3.1 状态估值
3.2 策略优化
3.3 本章小结
第4章 蒙特卡罗法
4.1 状态估值
4.2 两种估值方法
4.2.1 首次访问策略估值
4.2.2 每次访问策略估值
4.3 策略优化
4.4 本章小结
第5章 时间差分
5.1 SARSA算法
5.1.1 伪代码
5.1.2 SARSA的优缺点
5.2 Q-LEARNING
5.2.1 伪代码
5.2.2 Q-Learning的优缺点
5.3 ON-POLICY和OFF-POLICY
5.4 ON-LINE学习和OFF-LINE学习
5.5 比较与讨论
5.6 本章小结
第6章 深度学习
6.1 PyTorch简介
6.1.1 历史渊源
6.1.2 支持
6.2 神经元
6.3 线性回归
6.4 激励函数
6.4.1 Sigmoid函数
6.4.2 Tanh函数
6.4.3 ReLU函数
6.4.4 Linear函数
6.5 神经网络
6.6 网络训练
6.6.1 输入
6.6.2 输出
6.6.3 网络结构
6.6.4 损失函数
6.6.5 求解极小值
6.6.6 线性回归
6.6.7 凸函数
6.6.8 二元(多元)凸函数
6.6.9 导数补充
6.6.10 导数怎么求
6.6.11 “串联式”神经元
6.6.12 模型的工作
6.6.13 损失函数的理解
6.7 深度学习的优势
6.7.1 线性和非线性的叠加
6.7.2 不用再提取特征
6.7.3 处理线性不可分
6.8 手写数字识别公开数据集
6.9 全连接网络
6.9.1 输入输出
6.9.2 代码解读
6.9.2.1 网络结构
6.9.2.2 交叉熵损失函数
6.9.3 运行结果
6.10 卷积网络
6.10.1 代码解读
6.10.2 理解卷积网络结构
6.10.3 卷积核结构
6.11 循环神经网络
6.11.1 网络结构
6.11.2 RNN应用案例
6.11.3 代码解读
6.12 其它注意事项
6.12.1 并行计算
6.12.2 梯度消失与梯度爆炸
6.12.3 归一化
6.12.4 超参数设置
6.12.5 正则化
6.12.6 不唯一的模型
6.13 深度神经网络的发展趋势
6.14 本章小结
第7章 GYM——不要钱的试验场
7.1 简介
7.2 安装
7.3 类别介绍
7.4 接口
7.5 本章小结
第8章 DQN算法族
8.1 DQN 2013
8.1.1 模型结构
8.1.2 训练过程
8.1.3 Replay Memory
8.1.4 小结
8.2 DQN 2015
8.2.1 模型结构
8.2.2 训练过程
8.2.3 Target网络
8.2.4 小结
8.3 DOUBLE DQN
8.3.1 模型结构
8.3.2 训练过程
8.3.3 效果
8.3.4 小结
8.4 DUELING DQN
8.4.1 模型结构
8.4.2 效果
8.4.3 小结
8.5 优先回放DQN
8.6 GORILA DQN
8.7 本章小结
第9章 PG算法族
9.1 策略梯度
9.2 ACTOR-CRITIC
9.3 DPG
9.4 DDPG
9.5 本章小结
第10章 A3C
10.1 模型结构
10.1.1 A3C DQN
10.1.2 A3C DDPG
10.2 本章小结
第11章、UNREAL
11.1 主任务
11.2 像素控制任务
11.3 奖励值预测
11.4 值函数回放
11.5 损失函数
11.6 本章小结
第12章 NEAT
12.1 遗传算法
12.1.1 进化过程
12.1.2 算法流程
12.1.3 背包问题
12.1.4 极大(小)值问题
12.2 NEAT原理
12.2.1 基因组
12.2.2 变异和遗传
12.3 NEAT示例
12.3.1 Cartpole
12.3.2 Lunar Lander
12.4 本章小结
第13章 SERPENTAI
13.1 简介
13.2 安装配置
13.3 示例
13.3.1 创建Game Plugin
13.3.2 创建Game Agent
13.3.3 训练Context Classifier
13.3.4 模型设计
13.3.5 训练Agent
13.4 本章小结
第14章 案例详解
14.1 ALPHAGO
14.1.1 AlphaGO的前世今生
14.1.2 深蓝是谁
14.1.3 围棋到底有多复杂
14.1.4 论文要义
14.1.5 成绩
14.1.6 开源项目
14.2 ALPHAGO ZERO
14.2.1 改进之处
14.2.2 成绩
14.2.3 开源项目
14.3 试验场大观
14.3.1 《星际争霸2》
14.3.2 VizDoom
14.3.3 Universe
14.3.4 DOTA2
14.4 本章小结
第15章 扩展讨论
15.1 TRPO
15.2 反向强化学习
15.3 模型压缩
15.3.1 剪枝
15.3.2 量化
15.3.3 结构压缩
15.3.4 矩阵分解
15.4 本章小结
后记
附录
参考文献
1.1 题设
1.1.1 多智能才叫智能
1.1.2 人工智能的定义
1.2 强化学习的研究对象
1.2.1 什么场合需要强化学习
1.2.2 强化学习的建模
1.3 本章小结
第2章 强化学习的脉络
2.1 什么是策略
2.2 什么是好的策略
2.3 什么是模型
2.4 如何得到一个好的策略
2.4.1 直接法
2.4.2 间接法
2.5 马尔可夫决策过程
2.5.1 状态转移
2.5.2 策略与评价
2.5.3 策略优化
2.6 MODEL-BASED和MODEL-FREE
2.6.1 Model-Based
2.6.2 规划问题
2.6.3 Model-Free
2.7 本章小结
第3章 动态规划
3.1 状态估值
3.2 策略优化
3.3 本章小结
第4章 蒙特卡罗法
4.1 状态估值
4.2 两种估值方法
4.2.1 首次访问策略估值
4.2.2 每次访问策略估值
4.3 策略优化
4.4 本章小结
第5章 时间差分
5.1 SARSA算法
5.1.1 伪代码
5.1.2 SARSA的优缺点
5.2 Q-LEARNING
5.2.1 伪代码
5.2.2 Q-Learning的优缺点
5.3 ON-POLICY和OFF-POLICY
5.4 ON-LINE学习和OFF-LINE学习
5.5 比较与讨论
5.6 本章小结
第6章 深度学习
6.1 PyTorch简介
6.1.1 历史渊源
6.1.2 支持
6.2 神经元
6.3 线性回归
6.4 激励函数
6.4.1 Sigmoid函数
6.4.2 Tanh函数
6.4.3 ReLU函数
6.4.4 Linear函数
6.5 神经网络
6.6 网络训练
6.6.1 输入
6.6.2 输出
6.6.3 网络结构
6.6.4 损失函数
6.6.5 求解极小值
6.6.6 线性回归
6.6.7 凸函数
6.6.8 二元(多元)凸函数
6.6.9 导数补充
6.6.10 导数怎么求
6.6.11 “串联式”神经元
6.6.12 模型的工作
6.6.13 损失函数的理解
6.7 深度学习的优势
6.7.1 线性和非线性的叠加
6.7.2 不用再提取特征
6.7.3 处理线性不可分
6.8 手写数字识别公开数据集
6.9 全连接网络
6.9.1 输入输出
6.9.2 代码解读
6.9.2.1 网络结构
6.9.2.2 交叉熵损失函数
6.9.3 运行结果
6.10 卷积网络
6.10.1 代码解读
6.10.2 理解卷积网络结构
6.10.3 卷积核结构
6.11 循环神经网络
6.11.1 网络结构
6.11.2 RNN应用案例
6.11.3 代码解读
6.12 其它注意事项
6.12.1 并行计算
6.12.2 梯度消失与梯度爆炸
6.12.3 归一化
6.12.4 超参数设置
6.12.5 正则化
6.12.6 不唯一的模型
6.13 深度神经网络的发展趋势
6.14 本章小结
第7章 GYM——不要钱的试验场
7.1 简介
7.2 安装
7.3 类别介绍
7.4 接口
7.5 本章小结
第8章 DQN算法族
8.1 DQN 2013
8.1.1 模型结构
8.1.2 训练过程
8.1.3 Replay Memory
8.1.4 小结
8.2 DQN 2015
8.2.1 模型结构
8.2.2 训练过程
8.2.3 Target网络
8.2.4 小结
8.3 DOUBLE DQN
8.3.1 模型结构
8.3.2 训练过程
8.3.3 效果
8.3.4 小结
8.4 DUELING DQN
8.4.1 模型结构
8.4.2 效果
8.4.3 小结
8.5 优先回放DQN
8.6 GORILA DQN
8.7 本章小结
第9章 PG算法族
9.1 策略梯度
9.2 ACTOR-CRITIC
9.3 DPG
9.4 DDPG
9.5 本章小结
第10章 A3C
10.1 模型结构
10.1.1 A3C DQN
10.1.2 A3C DDPG
10.2 本章小结
第11章、UNREAL
11.1 主任务
11.2 像素控制任务
11.3 奖励值预测
11.4 值函数回放
11.5 损失函数
11.6 本章小结
第12章 NEAT
12.1 遗传算法
12.1.1 进化过程
12.1.2 算法流程
12.1.3 背包问题
12.1.4 极大(小)值问题
12.2 NEAT原理
12.2.1 基因组
12.2.2 变异和遗传
12.3 NEAT示例
12.3.1 Cartpole
12.3.2 Lunar Lander
12.4 本章小结
第13章 SERPENTAI
13.1 简介
13.2 安装配置
13.3 示例
13.3.1 创建Game Plugin
13.3.2 创建Game Agent
13.3.3 训练Context Classifier
13.3.4 模型设计
13.3.5 训练Agent
13.4 本章小结
第14章 案例详解
14.1 ALPHAGO
14.1.1 AlphaGO的前世今生
14.1.2 深蓝是谁
14.1.3 围棋到底有多复杂
14.1.4 论文要义
14.1.5 成绩
14.1.6 开源项目
14.2 ALPHAGO ZERO
14.2.1 改进之处
14.2.2 成绩
14.2.3 开源项目
14.3 试验场大观
14.3.1 《星际争霸2》
14.3.2 VizDoom
14.3.3 Universe
14.3.4 DOTA2
14.4 本章小结
第15章 扩展讨论
15.1 TRPO
15.2 反向强化学习
15.3 模型压缩
15.3.1 剪枝
15.3.2 量化
15.3.3 结构压缩
15.3.4 矩阵分解
15.4 本章小结
后记
附录
参考文献
猜您喜欢