郭先平
- 作品数:31 被引量:16H指数:2
- 供职机构:中山大学更多>>
- 发文基金:国家自然科学基金广东省自然科学基金国家杰出青年科学基金更多>>
- 相关领域:理学经济管理更多>>
- 半Markov决策过程的研究进展
- 2015年
- 本文综述半Markov决策过程(SMDP)理论的发展现状,主要介绍SMDP无限阶段期望折扣报酬准则、长期平均准则、有限阶段期望报酬准则、首达目标期望报酬准则、概率准则、受约束问题和均值-方差准则的研究工作,着重阐述这些优化准则的背景、意义、主要研究进展及有待研究的问题.最后,展望SMDP未来的一些潜在研究方向和相关问题.
- 郭先平黄永辉
- 关键词:半MARKOV决策过程计算方法
- 非平稳MDP平均模型—状态空间可数情形被引量:1
- 1991年
- 本文利用扩充的不动点定理,建立了相应于非平稳MDP平均模型的最优方程,据此给出了最优策略和ε-最优策略存在的充分条件.许多有关平稳MDP平均模型的结果,尤其是Ross(1983)的结果,均可由本文给出.
- 郭先平
- 关键词:马氏决策规划非平稳
- 马尔可夫决策过程的理论与算法
- 本博士后的研究工作致力于发展马尔可夫决策过程的一般理论.其主要内容分成四章,分别由四篇论文组成.第一章,进—步讨论马尔可夫决策过程的基础理论问题,证明了任意随机策略类的任意凸组合,在“最优性”的意义下,与—个随机的马氏策...
- 郭先平
- 关键词:马氏决策过程凸组合
- 文献传递
- 连续时间马尔可夫决策过程的折扣模型被引量:1
- 2002年
- 本文考虑的是转移速率族任意且费用率函数可能无界的连续时间马尔可夫决策过程的折扣模型.放弃了传统的要求相应于每个策略的 Q -过程唯一等条件,而首次考虑相应每个策略的 Q -过程不一定唯一, 转移速率族也不一定保守, 费用率函数可能无界, 且允许行动空间非空任意的情形. 本文首次用"α-折扣费用最优不等式"更新了传统的α-折扣费用最优方程,并用"最优不等式"和新的方法,不仅证明了传统的主要结果即最优平稳策略的存在性, 而且还进一步探讨了( ∈>0 )-最优平稳策略,具有单调性质的最优平稳策略, 以及(∈≥0) -最优决策过程的存在性, 得到了一些有意义的新结果. 最后, 提供了一个迁移率受控的生灭系统例子, 它满足本文的所有条件, 而传统的假设(见文献[1-14])均不成立.
- 郭先平戴永隆
- 关键词:Q-过程
- 非平稳MDP平均模型及其算法被引量:1
- 1995年
- 本文考虑的是Hinderer提出的状态空间和行动空间均为一般集的非平稳MDP平均模型.利用扩大状态空间的方法,建立了此模型的最优方程,并给出了最优方程有解及其最优策略存在的条件,从最优方程出发,用概率的方法证明了最优策略的存在性.最后还提供了此模型的值迭代算法及其收敛性证明,从而推广了Smith.L.Lassere.B及Larma等的主要结果.
- 郭先平
- 关键词:马氏决策规划MDP
- 一般MDP最优策略的唯一性被引量:1
- 1998年
- 对于一般的MDP模型,本文证明了对任意一族依赖于历史的随机策略所导致的策略测度类的任意凸组合,存在一个随机马氏策略所导致的策略测度,使得相应于它们的平均期望目标,折扣目标以及期望总报酬目标的值均分别相等,推广了E.B.Dynkin和Yushkevich[1],M.Puterman[2],E.Feinberg和A.Shwartz[3],R.Strauch[4],以及董泽清和宋京生[5]等相应的所有结果.然后还进一步证明了关于平均期望目标、折扣目标以及期望总报酬目标的最优策略,它们要么唯一,要么有无穷多个.
- 郭先平
- 关键词:马氏决策过程唯一性
- Q(f)-过程非唯一时连续时间折扣目标MDP
- 1996年
- 考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设.而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的存在性.
- 郭先平
- 关键词:Q过程马氏决策规划
- 非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性
- 2000年
- 本文考虑的是可数状态空间任意行动空间非平稳MDP平均模型,借鉴于Feinberg E. A(1994)的思想,提出了比马氏策略和 Feinberg E. A的(f,B)-生成策略和更为广泛的(G,B)-生成策略的概念,在弱遍历条件下,用概率分析的方法,证明了一致最优(G,B)-生成策略的存在性.从而将 Feinberg E. A.(1994)的主要结果推广到非平衡可数状态空间情形.
- 郭先平
- 关键词:马氏决策规划
- 受控排队系统的平均最优与约束平均最优被引量:1
- 2009年
- 根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与约束平均最优策略.
- 张兰兰郭先平
- 风险概率准则下的非平稳马氏决策过程
- 2023年
- 本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性.
- 温馨徐小雅郭先平
- 关键词:首达时间