您的位置: 专家智库 > >

方长胜

作品数:3 被引量:3H指数:1
供职机构:合肥工业大学计算机与信息学院计算机科学与技术系更多>>
发文基金:国家自然科学基金安徽省自然科学基金安徽省高校省级自然科学研究项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 3篇自动化与计算...

主题

  • 3篇马尔可夫决策...
  • 2篇部分可观察马...
  • 2篇多AGENT...
  • 1篇多AGENT...
  • 1篇学习算法
  • 1篇马尔可夫
  • 1篇内部结构
  • 1篇POMDP

机构

  • 3篇合肥工业大学
  • 1篇安徽建筑工业...

作者

  • 3篇方长胜
  • 2篇姚宏亮
  • 2篇王浩
  • 1篇张润梅
  • 1篇张佑生

传媒

  • 1篇计算机工程与...

年份

  • 1篇2009
  • 1篇2008
  • 1篇2007
3 条 记 录,以下是 1-3
排序方式:
部分可观察Markov决策过程中基于内部状态的强化学习研究
强化学习是机器学习的一个重要分支,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采取最好的反应行为,从而提高智能系统的自适应性和鲁棒性。 尽管强化学习技术已有很多研究成果...
方长胜
关键词:部分可观察马尔可夫决策过程多AGENT系统
文献传递
基于内部结构MPoMDP模型的策略梯度学习算法被引量:1
2009年
为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法(MIS-GPOMDP),来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。
张润梅王浩张佑生姚宏亮方长胜
关键词:马尔可夫决策过程
POMDP中基于内部状态的多agent强化学习
基于部分可观察Markov决策过程(POMDP)的强化学习模型能有效地对动态决策问题进行建模,但精确求解最优策略是PSPACE难题,在直接逼近最优策略的近似求解方法中策略描述的复杂性随着问题规模的增大成指数增加。本文利用...
方长胜王浩王池社姚宏亮
关键词:部分可观察马尔可夫决策过程多AGENT系统
文献传递
共1页<1>
聚类工具0