您的位置: 专家智库 > >

中国博士后科学基金(20070411064)

作品数:9 被引量:111H指数:5
相关作者:程玉虎王雪松田西兰郝名林马小平更多>>
相关机构:中国矿业大学中国科学院自动化研究所中国科学院更多>>
发文基金:中国博士后科学基金国家教育部博士点基金江苏省博士后科研资助计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 9篇中文期刊文章

领域

  • 9篇自动化与计算...

主题

  • 4篇Q学习
  • 3篇支持向量
  • 3篇支持向量机
  • 3篇向量机
  • 2篇最小二乘
  • 2篇最小二乘支持...
  • 2篇机器人
  • 1篇遗传算法
  • 1篇映射
  • 1篇预测控制
  • 1篇知识
  • 1篇知识引导
  • 1篇自适
  • 1篇自适应
  • 1篇自组织
  • 1篇自组织模糊
  • 1篇网络
  • 1篇细菌
  • 1篇细菌觅食
  • 1篇向量

机构

  • 9篇中国矿业大学
  • 5篇中国科学院自...
  • 1篇中国科学院

作者

  • 9篇王雪松
  • 9篇程玉虎
  • 3篇田西兰
  • 2篇马小平
  • 2篇易建强
  • 2篇郝名林
  • 2篇孙伟
  • 1篇高阳
  • 1篇张依阳
  • 1篇李明

传媒

  • 2篇中国矿业大学...
  • 2篇电子学报
  • 2篇系统仿真学报
  • 1篇自动化学报
  • 1篇信息与控制
  • 1篇控制与决策

年份

  • 1篇2010
  • 3篇2009
  • 4篇2008
  • 1篇2007
9 条 记 录,以下是 1-9
排序方式:
基于差分进化的并联机器人位姿正解被引量:4
2008年
利用并联机器人位姿反解容易求取的特点,把并联机器人的位姿正解问题转化为假设已知位姿正解,通过位姿反解求得杆长值,并使所求得的杆长值与给定的杆长值之差为最小的优化问题,然后利用差分进化的全局寻优能力来直接求解并联机器人的位姿正解.6-SPS型并联机器人位姿正解的数值仿真结果表明,该方法较遗传算法求解精度高且收敛速度快,经过508步迭代之后,位置误差小于0.000 1 mm,姿态误差小于0.000 1°.该方法不仅避免了繁琐的数学推导和迭代初值的选取,又可以获得符合精度要求的运动学正解,为解决并联机器人正向运动学问题提供了新的计算策略.
王雪松郝名林程玉虎李明
关键词:并联机器人差分进化
基于自组织模糊RBF网络的连续空间Q学习被引量:4
2008年
针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了"连续状态—连续动作"的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验证了所提Q学习方法的有效性.
程玉虎王雪松易建强孙伟
关键词:自组织Q学习Q值
基于支持向量机的连续状态空间Q学习被引量:6
2008年
针对连续状态空间下的强化学习控制问题,提出一种基于支持向量机的Q学习方法.支持向量机不易陷入局部极小,且有优良的泛化性能,对系统状态-动作对的Q值进行估计计算,解决状态空间泛化中易出现的"维数灾"问题.引入滚动时间窗机制实现支持向量机的在线学习:系统实时检测得到的新数据若不包含新信息,则保持学习的样本集不变;若包含新信息,则滚动时间窗,更新样本集,从而更新支持向量机的回归模型,并对时间窗内的数据分配不同的权值以充分利用数据的信息.倒立摆平衡控制的仿真结果表明该方法能够有效解决具有连续状态的非线性系统的强化学习控制.
王雪松田西兰程玉虎
关键词:支持向量机Q学习
最小二乘支持向量机在强化学习系统中的应用被引量:3
2008年
将连续状态空间下的Q学习构建为最小二乘支持向量机的回归估计问题,利用最小二乘支持向量机良好的泛化以及非线性逼近性能实现由系统状态-动作对到Q值函数的映射。为了保证计算速度以及适应Q学习系统在线学习的需要,最小二乘支持向量机的训练样本是窗式移动的,即在Q学习系统学习的同时获取样本数据并进行最小二乘支持向量机的训练。小车爬山控制问题的仿真结果表明该方法学习效率高,能够有效解决强化学习系统连续状态空间的泛化问题。
王雪松田西兰程玉虎马小平
关键词:最小二乘支持向量机Q学习泛化
基于高斯过程分类器的连续空间强化学习被引量:11
2009年
如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态-离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题.
王雪松张依阳程玉虎
关键词:高斯过程分类器
基于协同最小二乘支持向量机的Q学习被引量:21
2009年
针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Least squares support vector regression machine,LS-SVRM)和一个最小二乘支持向量分类机(Least squares support vector classification machine,LS-SVCM)构成.LS-SVRM用于逼近状态-动作对到值函数的映射,LS-SVCM则用于逼近连续状态空间到离散动作空间的映射,并为LS-SVRM提供实时、动态的知识或建议(建议动作值)以促进值函数的学习.小车爬山最短时间控制仿真结果表明,与基于单一LS-SVRM的Q学习系统相比,该方法加快了系统的学习收敛速度,具有较好的学习性能.
王雪松田西兰程玉虎易建强
关键词:Q学习最小二乘支持向量机映射
基于细菌觅食行为的分布估计算法在预测控制中的应用被引量:35
2010年
为增强分布估计算法(EDA)的局部优化能力,将细菌的觅食(BF)行为,即细菌的趋化性运动引入到分布估计算法中,提出一种基于细菌觅食行为的分布估计算法BF-EDA.通过8个Benchmark函数来测试算法性能,并与常规EDA、粒子群优化(PSO)和HPSO-TVAC算法进行实验比较,结果表明BF-EDA算法在优化解的质量和收敛速度方面具有较好的性能.进一步,为克服传统的基于梯度信息优化方法的缺点,将BF-EDA应用于预测控制的非线性滚动优化阶段,以优化求解被控系统的最优控制序列.曲线跟踪实验结果表明,基于BF-EDA的预测控制算法具有良好的控制品质.
王雪松程玉虎郝名林
关键词:分布估计算法细菌觅食预测控制
自适应T-S型模糊径向基函数网络被引量:4
2007年
针对T-S型模糊推理系统的模型参数辨识问题,充分利用模糊推理系统的可理解性与神经网络的学习能力,提出一种自适应T-S型模糊径向基函数网络。为设计满足精度要求的最小结构神经网络,在对网络学习动态进行分析的基础上,给出了网络拓扑结构的动态构造学习算法。在不需要任何先验知识的情况下,能够根据任务复杂度和学习进度进行网络隐层节点的自适应增加、合并和删除操作。将该网络应用于非线性函数逼近问题,取得较好的效果。
程玉虎王雪松孙伟
关键词:径向基函数网络
知识引导遗传算法实现机器人路径规划被引量:24
2009年
针对传统遗传算法求解机器人路径规划问题存在的收敛速度较慢的缺陷,设计一种知识引导遗传算法,在染色体的编码、初始种群的产生、各种遗传算子和优化算子中加入相关的领域知识.综合考虑机器人路径的长度、安全度和平滑度等性能指标,在对机器人进行路径规划的同时,利用删除、简化、修正和平滑4种优化算子进行路径优化操作.仿真结果表明,所提方法能够有效提高遗传算法求解实际路径规划问题的能力和效率.
王雪松高阳程玉虎马小平
关键词:遗传算法领域知识机器人路径规划
共1页<1>
聚类工具0