您的位置: 专家智库 > >

穆翔

作品数:2 被引量:1H指数:1
供职机构:苏州大学更多>>
发文基金:江苏省高校自然科学研究项目江苏省自然科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 1篇迭代
  • 1篇迭代算法
  • 1篇梯度下降
  • 1篇模糊推理
  • 1篇函数
  • 1篇Q值

机构

  • 2篇苏州大学
  • 1篇吉林大学

作者

  • 2篇穆翔
  • 1篇周鑫
  • 1篇孙洪坤
  • 1篇刘全
  • 1篇傅启明

传媒

  • 1篇通信学报

年份

  • 1篇2014
  • 1篇2013
2 条 记 录,以下是 1-2
排序方式:
基于两层模糊划分的时间差分算法被引量:1
2013年
针对传统的基于查询表或函数逼近的Q值迭代算法在处理连续空间问题时收敛速度慢、且不易求解连续行为策略的问题,提出了一种基于两层模糊划分的在策略时间差分算法——DFP-OPTD,并从理论上分析其收敛性。算法中第一层模糊划分作用于状态空间,第二层模糊划分作用于动作空间,并结合两层模糊划分计算出Q值函数。根据所得的Q值函数,使用梯度下降方法更新模糊规则中的后件参数。将DFP-OPTD应用于经典强化学习问题中,实验结果表明,该算法有较好的收敛性能,且可以求解连续行为策略。
穆翔刘全傅启明孙洪坤周鑫
关键词:梯度下降
基于模糊近似的强化学习方法研究
强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过Agent与环境交互以获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何求解大规模状态或动作空间的问题。本文将模糊推理作为近似...
穆翔
关键词:模糊推理迭代算法
文献传递
共1页<1>
聚类工具0