王云
- 作品数:6 被引量:10H指数:2
- 供职机构:南京财经大学信息工程学院更多>>
- 发文基金:国家自然科学基金江苏省教育厅自然科学基金江苏省“青蓝工程”基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于多agent学习的电子市场智能定价方法被引量:1
- 2007年
- B2B电子市场的定价问题是一个半学习半推理的连续决策过程,每个定价agent不是直接采用多agent学习算法下的均衡策略,而是根据博弈历史进行推理决策,并不断学习对手的策略。提出了基于内省推理方法的多agent环境下agent高效在线学习方法,将基于对手模型的客观观察行为与基于换位思考推理的主观意图推测结合起来。仿真结果证实了算法在电子市场定价中的有效性。
- 韩伟王云吕捷
- 关键词:多AGENT系统电子市场
- 一种基于划分和集成思想的多智能体强化学习
- 针对Q学习状态空间非常大,导致收敛速度非常慢的问题,利用智能体在不同样本上分类性能不同,提出了基于样本的学习误差对样本空间进行划分,充分发掘了样本和智能体的匹配关系.以带障碍物的格子世界作为仿真环境,表明该算法提高了在线...
- 王云韩伟
- 关键词:多智能体系统
- 文献传递
- 一种基于划分和集成思想的多智能体强化学习被引量:1
- 2008年
- 针对Q学习状态空间非常大,导致收敛速度非常慢的问题,利用智能体在不同样本上分类性能不同,提出了基于样本的学习误差对样本空间进行划分,充分发掘了样本和智能体的匹配关系.以带障碍物的格子世界作为仿真环境,表明该算法提高了在线学习性能.
- 王云韩伟
- 关键词:多智能体系统
- 基于多智能体协商的电子市场原料配置模型被引量:5
- 2006年
- 基于市场交互机制建立了多智能体之间的协商模型,每个企业看作自利智能体运行生产规划算法购置原料并安排生产,市场智能体作为中间人通过市场规则对智能体的个体选择进行综合并将综合后的结果反馈给每个智能体,这一机制较好地总结了各个终端智能体的个体信息,从而优化个体行为。给出了电子市场原料配置的定价算法和分配算法。仿真试验结果表明,基于市场机制的多智能体协商方法使得每个智能体的效用都有所改善,从而改善了系统的全局收益。
- 韩伟王云陈优广
- 关键词:多智能体系统协商
- 基于进化算法的多智能体合作学习被引量:1
- 2010年
- 强化学习的收敛速度随状态-动作空间的维数呈指数增长,因此在涉及大的状态空间时,强化学习算法的收敛速度非常慢以至不能满足应用需求。在许多应用环境中,若智能体之间存在合作关系,借助多个智能体进行分布式学习可以部分解决这一问题。利用进化算法,设计了智能体繁殖、消亡等操作,使得子代智能体能够继承父代智能体在状态空间的方向信息,从而更快地找到状态-动作空间的有效更新。仿真实验表明:算法比已有的强化学习方法具有更高的搜索效率和收敛速度。
- 王云王俊韩伟
- 关键词:多智能体系统进化算法
- 对称协调博弈问题的多智能体强化学习被引量:2
- 2008年
- 针对多机器人协调问题,利用协调博弈中智能体策略相似性,提出智能体的高阶信念修正模型和学习方法PEL,使智能体站在对手角度进行换位推理,进而根据信念修正将客观观察行为和主观信念推理结合起来。证明了信念修正模型的推理置信度只在0和1两个值上调整即可协调成功。以多机器人避碰为实验背景进行仿真,表明算法比现有方法能够取得更好的协调性能。
- 王云韩伟
- 关键词:多智能体系统协调博弈