李兆斌
- 作品数:4 被引量:22H指数:2
- 供职机构:国防科学技术大学机电工程与自动化学院更多>>
- 发文基金:国家自然科学基金教育部“新世纪优秀人才支持计划”霍英东青年教师基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 自主车辆发展概况及关键技术被引量:13
- 2010年
- 为了更有效地开发新型自主车辆,对自主车辆发展概况及关键技术进行研究。简述了自主车辆的相关概念及其优缺点,详细介绍了当前国内外无人自主车辆的研究发展现状,分析了自主车辆的结构组成,并分别阐述了环境感知、定位导航、规划决策、控制体系和交通仿真五大模块的关键技术,最后提出了自主车辆未来的发展趋势及需要努力的方向。
- 黄岩吴军刘春明李兆斌
- 关键词:自主车辆环境感知交通仿真
- 基于LSPI和滚动窗口的移动机器人反应式导航方法被引量:6
- 2013年
- 结合最小二乘策略迭代(Least-squares policy iteration,LSPI)的算法特性和基于滚动窗口的实时重规划,提出一种新的基于LSPI和滚动窗口的反应式导航学习控制方法。仿真和实验结果表明:该方法对移动机器人在未知环境中的运动控制有效,并且对未知环境具有自适应性。
- 刘春明李兆斌黄振华左磊吴军徐昕
- 关键词:移动机器人
- 增强学习算法的性能测试与对比分析被引量:2
- 2010年
- 研究了几类典型增强学习算法的性能评估问题,包括Q-学习算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代(KLSPI)算法等,重点针对Markov决策问题(MDP)的值函数平滑特性对算法性能的影响进行了研究。分别利用值函数非平滑的组合优化问题——旅行商问题(TSP)和值函数平滑的Mountain-Car运动控制问题,对不同增强学习算法的性能进行了测试和比较分析。分析了三种算法针对不同类型问题的各自特点,通过实验对比,验证了近似策略迭代算法,特别是KLSPI算法在解决值函数平滑的序贯决策问题时性能更优。通过分析实验结果表明,MDP值函数的平滑程度是影响近似策略迭代算法性能表现的重要因素。
- 李兆斌徐昕吴军连传强
- 关键词:值函数
- 面向资源分配问题的Q-CF多智能体强化学习被引量:1
- 2011年
- 多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反馈(chain feedback,CF)学习算法相结合,提出了Q-CF多智能体强化学习算法,利用一种称为信息链式反馈的机制实现了多智能体之间的高效协同.仿真结果表明,和已有的多智能体Q-学习算法相比,该方法具有更加快速的收敛速度,同时保证了协同策略的性能优化.
- 连传强徐昕吴军李兆斌
- 关键词:多智能体系统资源分配协同控制