公共文化服务平台

2024年6月26日星期三

|

欢迎来到维普•公共文化服务平台

登录 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

方长胜: 作品数：3 被引量：3H指数：1; 供职机构：合肥工业大学计算机与信息学院计算机科学与技术系更多>>; 发文基金：国家自然科学基金安徽省自然科学基金安徽省高校省级自然科学研究项目更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

王浩合肥工业大学计算机与信息学院计...
姚宏亮合肥工业大学计算机与信息学院计...
张佑生合肥工业大学计算机与信息学院计...
张润梅安徽建筑工业学院电子与信息工程...

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

1篇期刊文章
1篇学位论文
1篇会议论文

领域

3篇自动化与计算...

主题

3篇马尔可夫决策...
2篇部分可观察马...
2篇多AGENT...
1篇多AGENT...
1篇学习算法
1篇马尔可夫
1篇内部结构
1篇POMDP

机构

3篇合肥工业大学
1篇安徽建筑工业...

作者

3篇方长胜
2篇姚宏亮
2篇王浩
1篇张润梅
1篇张佑生

传媒

1篇计算机工程与...

年份

1篇2009
1篇2008
1篇2007

共 3 条记录，以下是 1-3

全选清除导出

排序方式：

部分可观察Markov决策过程中基于内部状态的强化学习研究: 强化学习是机器学习的一个重要分支,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采取最好的反应行为,从而提高智能系统的自适应性和鲁棒性。尽管强化学习技术已有很多研究成果...; 方长胜; 关键词：部分可观察马尔可夫决策过程多AGENT系统; 文献传递

基于内部结构MPoMDP模型的策略梯度学习算法被引量：1: 2009年; 为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法(MIS-GPOMDP),来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。; 张润梅王浩张佑生姚宏亮方长胜; 关键词：马尔可夫决策过程

POMDP中基于内部状态的多agent强化学习: 基于部分可观察Markov决策过程（POMDP）的强化学习模型能有效地对动态决策问题进行建模,但精确求解最优策略是PSPACE难题,在直接逼近最优策略的近似求解方法中策略描述的复杂性随着问题规模的增大成指数增加。本文利用...; 方长胜王浩王池社姚宏亮; 关键词：部分可观察马尔可夫决策过程多AGENT系统; 文献传递

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有 @ 渝北区图书馆 2016－2018 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张