书籍详情
摄动马尔可夫决策与哈密尔顿圈
作者:刘克 著
出版社:中国科学技术大学出版社
出版时间:2009-04-01
ISBN:9787312022418
定价:¥58.00
购买这本书可以去
内容简介
马氏决策过程是一个非常有用的决策分析工具,已经成功的用于解决很多实际问题。利用马氏决策过程的建模思想,可以将一些离散数学中的传统问题描述为特殊的马氏决策过程加以考虑。通过优化这些特殊的马氏决策过程,不仅可以为解决这些传统问题提供新的思路,而且还可以促进马氏决策过程本身理论的发展。但是,在研究这类特殊马氏决策过程时,只有引入摄动因素才能有效的处理问题,所以我们还介绍了马氏决策的摄动理论。本书的内容包括一些基本的马氏决策过程知识,主要集中在有限状态和有限行动的马氏决策过程上。然后介绍了有关马氏决策过程的摄动理论。最后,利用前面的内容,比较详细的介绍了摄动马氏决策与哈密尔顿圈之间的关系和近些年的最新研究成果,提出了一些这个领域里人们现在最为感兴趣的研究问题。本书适用于三种读者,一个是希望利用马氏决策过程建立有效的模型来分析决策行为的读者,通过前四章的阅读可以了解基本的分析工具,后面的阅读可以使读者获得建立具体模型并进行分析的一些技巧;二是为希望利用这个随机优化的工具研究离散数学或者其他相关科学里的问题的读者提供思路;最后,对于希望发展马氏决策过程理论的读者,可以了解这方面的动态,尽快介入这方面的前沿研究领域。
作者简介
暂缺《摄动马尔可夫决策与哈密尔顿圈》作者简介
目录
总序
前言
主要符号表
第一部分 马氏决策过程与摄动
第1章 绪论
1.1 序列决策模型
1.2 马氏决策过程的例子
1.3 马氏决策过程的定义与记号
1.3.1 决策时刻与周期
1.3.2 状态与行动集
1.3.3 转移概率和报酬
1.3.4 历史、决策规则与策略
1.3.5 诱导过程、效用准则与马氏策略优势
1.4 马氏决策过程的起源和发展
第2章 有限阶段模型
2.1 最优准则
2.2 有限阶段的策略迭代和最优方程
2.3 最优策略的存在性和算法
2.4 最优策略的结构
2.5 单调策略的最优性
第3章 无限阶段折扣模型
3.1 最优准则
3.2 最优方程
3.3 最优策略的存在性
3.4 策略迭代算法
3.5 值迭代算法
3.6 改进的策略迭代算法
3.7 线性规划算法
3.8 最优单调策略
3.9 最优策略的结构
第4章 无限阶段平均模型
4.1 最优准则
4.2 最优平稳策略的存在性
4.3 平稳策略的一些特征
4.4 最优方程与策略迭代算法
4.5 单链的线性规划与相关问题
4.5.1 极限平均频率
4.5.2 带约束模型问题
4.5.3 方差问题
4.6 多链的线性规划与相关问题
4.6.1 对偶可行解与随机平稳策略
4.6.2 基本可行解与确定性决策规则
4.6.3 最优解与最优策略
4.7 平均准则下的Bellman最优原则
第5章 摄动MDP
5.1 预备知识
5.2 一些基本记号和定义
5.3 摄动平均问题的渐进性和极限控制原则
5.4 折扣准则的摄动问题
5.5 一般的摄动
5.6 单摄动极限平均MDP的算法
5.6.1 假设与渐进性质
5.6.2 数学规划和极限马尔可夫决策问题
5.6.3 聚合一分解算法
5.7 进一步的研究进展
5.7.1 折扣权重摄动模型
5.7.2 折扣平均权重摄动问题
第二部分 摄动MDP与哈密尔顿圈
第6章 HC与MDP
6.1 哈密尔顿圈问题
6.2 有向图到MDP的嵌入
6.3 平稳策略的分类
6.4 约束折扣MDP与HC
6.5 约束折扣MDP的求解
6.6 HC与TSP
第7章 HCP嵌入MDP的摄动
7.1 转移概率的摄动
7.1.1 转移概率的对称线性摄动
7.1.2 转移概率的非对称线性摄动
7.1.3 转移概率的非对称二次摄动
7.2 摄动下子图的稳态分布
7.3 非对称线性摄动下的几个例子
7.4 非对称线性摄动下HC的性质
7.5 更为精细的分析
7.6 开问题和有关猜想
第8章 频率空间上的分析
8.1 长期平均MDP频率空间中的HCP
8.2 二次非对称摄动与新目标函数
8.3 启发式内点算法
8.3.1 内点算法简介
8.3.2 关于(QP)求解的启发式算法
8.3.3 数值计算例子
8.4 一些开问题及其他
第9章 双随机摄动与HC
9.1 基本矩阵
9.2 再谈双随机摄动
9.3 渐进表达式
9.4 优化问题与HC的全局最优性
9.4.1 非线性规划问题
9.4.2 方向导数
9.4.3 HC既是局部也是全局最小
9.5 哈密尔顿间隙
9.6 对称双随机矩阵的探讨
9.7 混合时间及其变化的最小化
9.7.1 从不可约链到一般的情形
9.7.2 迹与对角线上的元素
9.7.3 摄动带来的好处
9.7.4 带有对称线性摄动的双随机矩阵
第10章 将来的研究方向和结束语
10.1 将来的研究方向
10.2 结束语
参考文献
索引
前言
主要符号表
第一部分 马氏决策过程与摄动
第1章 绪论
1.1 序列决策模型
1.2 马氏决策过程的例子
1.3 马氏决策过程的定义与记号
1.3.1 决策时刻与周期
1.3.2 状态与行动集
1.3.3 转移概率和报酬
1.3.4 历史、决策规则与策略
1.3.5 诱导过程、效用准则与马氏策略优势
1.4 马氏决策过程的起源和发展
第2章 有限阶段模型
2.1 最优准则
2.2 有限阶段的策略迭代和最优方程
2.3 最优策略的存在性和算法
2.4 最优策略的结构
2.5 单调策略的最优性
第3章 无限阶段折扣模型
3.1 最优准则
3.2 最优方程
3.3 最优策略的存在性
3.4 策略迭代算法
3.5 值迭代算法
3.6 改进的策略迭代算法
3.7 线性规划算法
3.8 最优单调策略
3.9 最优策略的结构
第4章 无限阶段平均模型
4.1 最优准则
4.2 最优平稳策略的存在性
4.3 平稳策略的一些特征
4.4 最优方程与策略迭代算法
4.5 单链的线性规划与相关问题
4.5.1 极限平均频率
4.5.2 带约束模型问题
4.5.3 方差问题
4.6 多链的线性规划与相关问题
4.6.1 对偶可行解与随机平稳策略
4.6.2 基本可行解与确定性决策规则
4.6.3 最优解与最优策略
4.7 平均准则下的Bellman最优原则
第5章 摄动MDP
5.1 预备知识
5.2 一些基本记号和定义
5.3 摄动平均问题的渐进性和极限控制原则
5.4 折扣准则的摄动问题
5.5 一般的摄动
5.6 单摄动极限平均MDP的算法
5.6.1 假设与渐进性质
5.6.2 数学规划和极限马尔可夫决策问题
5.6.3 聚合一分解算法
5.7 进一步的研究进展
5.7.1 折扣权重摄动模型
5.7.2 折扣平均权重摄动问题
第二部分 摄动MDP与哈密尔顿圈
第6章 HC与MDP
6.1 哈密尔顿圈问题
6.2 有向图到MDP的嵌入
6.3 平稳策略的分类
6.4 约束折扣MDP与HC
6.5 约束折扣MDP的求解
6.6 HC与TSP
第7章 HCP嵌入MDP的摄动
7.1 转移概率的摄动
7.1.1 转移概率的对称线性摄动
7.1.2 转移概率的非对称线性摄动
7.1.3 转移概率的非对称二次摄动
7.2 摄动下子图的稳态分布
7.3 非对称线性摄动下的几个例子
7.4 非对称线性摄动下HC的性质
7.5 更为精细的分析
7.6 开问题和有关猜想
第8章 频率空间上的分析
8.1 长期平均MDP频率空间中的HCP
8.2 二次非对称摄动与新目标函数
8.3 启发式内点算法
8.3.1 内点算法简介
8.3.2 关于(QP)求解的启发式算法
8.3.3 数值计算例子
8.4 一些开问题及其他
第9章 双随机摄动与HC
9.1 基本矩阵
9.2 再谈双随机摄动
9.3 渐进表达式
9.4 优化问题与HC的全局最优性
9.4.1 非线性规划问题
9.4.2 方向导数
9.4.3 HC既是局部也是全局最小
9.5 哈密尔顿间隙
9.6 对称双随机矩阵的探讨
9.7 混合时间及其变化的最小化
9.7.1 从不可约链到一般的情形
9.7.2 迹与对角线上的元素
9.7.3 摄动带来的好处
9.7.4 带有对称线性摄动的双随机矩阵
第10章 将来的研究方向和结束语
10.1 将来的研究方向
10.2 结束语
参考文献
索引
猜您喜欢