您的位置: 专家智库 > >

国家教育部博士点基金(20070290537)

作品数:5 被引量:43H指数:4
相关作者:程玉虎王雪松易建强田西兰张依阳更多>>
相关机构:中国矿业大学中国科学院自动化研究所更多>>
发文基金:中国博士后科学基金国家教育部博士点基金江苏省博士后科研资助计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 5篇自动化与计算...

主题

  • 3篇Q学习
  • 2篇支持向量
  • 2篇支持向量机
  • 2篇最小二乘
  • 2篇最小二乘支持...
  • 2篇向量机
  • 1篇映射
  • 1篇自组织
  • 1篇自组织模糊
  • 1篇机器人
  • 1篇泛化
  • 1篇分类器
  • 1篇高斯
  • 1篇高斯过程
  • 1篇Q值
  • 1篇RBF网
  • 1篇RBF网络
  • 1篇并联机器
  • 1篇并联机器人
  • 1篇差分

机构

  • 5篇中国矿业大学
  • 3篇中国科学院自...

作者

  • 5篇王雪松
  • 5篇程玉虎
  • 2篇田西兰
  • 2篇易建强
  • 1篇马小平
  • 1篇郝名林
  • 1篇张依阳
  • 1篇孙伟
  • 1篇李明

传媒

  • 1篇自动化学报
  • 1篇中国矿业大学...
  • 1篇电子学报
  • 1篇信息与控制
  • 1篇系统仿真学报

年份

  • 2篇2009
  • 3篇2008
5 条 记 录,以下是 1-5
排序方式:
基于差分进化的并联机器人位姿正解被引量:4
2008年
利用并联机器人位姿反解容易求取的特点,把并联机器人的位姿正解问题转化为假设已知位姿正解,通过位姿反解求得杆长值,并使所求得的杆长值与给定的杆长值之差为最小的优化问题,然后利用差分进化的全局寻优能力来直接求解并联机器人的位姿正解.6-SPS型并联机器人位姿正解的数值仿真结果表明,该方法较遗传算法求解精度高且收敛速度快,经过508步迭代之后,位置误差小于0.000 1 mm,姿态误差小于0.000 1°.该方法不仅避免了繁琐的数学推导和迭代初值的选取,又可以获得符合精度要求的运动学正解,为解决并联机器人正向运动学问题提供了新的计算策略.
王雪松郝名林程玉虎李明
关键词:并联机器人差分进化
基于高斯过程分类器的连续空间强化学习被引量:11
2009年
如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态-离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题.
王雪松张依阳程玉虎
关键词:高斯过程分类器
最小二乘支持向量机在强化学习系统中的应用被引量:3
2008年
将连续状态空间下的Q学习构建为最小二乘支持向量机的回归估计问题,利用最小二乘支持向量机良好的泛化以及非线性逼近性能实现由系统状态-动作对到Q值函数的映射。为了保证计算速度以及适应Q学习系统在线学习的需要,最小二乘支持向量机的训练样本是窗式移动的,即在Q学习系统学习的同时获取样本数据并进行最小二乘支持向量机的训练。小车爬山控制问题的仿真结果表明该方法学习效率高,能够有效解决强化学习系统连续状态空间的泛化问题。
王雪松田西兰程玉虎马小平
关键词:最小二乘支持向量机Q学习泛化
基于协同最小二乘支持向量机的Q学习被引量:21
2009年
针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Least squares support vector regression machine,LS-SVRM)和一个最小二乘支持向量分类机(Least squares support vector classification machine,LS-SVCM)构成.LS-SVRM用于逼近状态-动作对到值函数的映射,LS-SVCM则用于逼近连续状态空间到离散动作空间的映射,并为LS-SVRM提供实时、动态的知识或建议(建议动作值)以促进值函数的学习.小车爬山最短时间控制仿真结果表明,与基于单一LS-SVRM的Q学习系统相比,该方法加快了系统的学习收敛速度,具有较好的学习性能.
王雪松田西兰程玉虎易建强
关键词:Q学习最小二乘支持向量机映射
基于自组织模糊RBF网络的连续空间Q学习被引量:4
2008年
针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了"连续状态—连续动作"的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验证了所提Q学习方法的有效性.
程玉虎王雪松易建强孙伟
关键词:自组织Q学习Q值
共1页<1>
聚类工具0