王皓
- 作品数:20 被引量:137H指数:5
- 供职机构:南京大学更多>>
- 发文基金:国家自然科学基金江苏省自然科学基金国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术经济管理理学医药卫生更多>>
- 面向复杂交互场景的新型机器学习技术
- 高阳史颖欢霍静杨琬琪王皓陈兴国胡裕
- 机器学习是模式识别、机器视觉、数据挖掘等方向的支撑技术之一,被广泛应用到安防、医疗、大数据分析等领域。基于样本的独立同分布假设,监督学习技术通过学习已标记数据来训练模型。然而在复杂交互场景下,当处理动态、多源、弱标记等非...
- 关键词:
- 我国P2P网贷平台发展模式研究——以红岭创投为例
- P2P是指Peer-To-Peer,即个人直接向个人贷款的一种借贷形式。P2P网贷的起源最早可以追溯到1983年尤努斯在孟加拉成立的格莱珉银行,而真正意义上的第一家P2P网贷平台Zopa于2005年在英国成立。受传统银行...
- 王皓
- 关键词:信息不对称
- 文献传递
- MARL中Nash平衡与meta平衡比较研究
- 本文探讨meta博弈以及meta平衡在MARL中的应用,通过对比meta平衡与Nash平衡在MARL中的特性和作用,提出一种基于meta平衡理论的两agentMARL算法metaQ,并通过试验验证metaQ算法性能优于N...
- 姚怡星高阳王皓
- 关键词:NASH平衡MARL多AGENT强化学习
- 文献传递
- 平均奖赏强化学习算法研究被引量:40
- 2007年
- 顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法——G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.
- 高阳周如益王皓曹志新
- 关键词:性能势马尔可夫决策过程半马尔可夫决策过程
- 多Agent系统中的强化学习和学习迁移
- 强化学习是一类从与环境的交互中进行学习的机器学习技术,其特点是自学习和在线学习。从上世纪80年代末开始,强化学习理论日益成熟,与监督学习、非监督学习、半监督学习一起成为了机器学习最重要的四个分支。与强化学习的兴起同步,迁...
- 王皓
- 关键词:多AGENT系统
- HUNTBot—第一人称射击游戏中NPC的结构设计被引量:2
- 2008年
- 游戏产业的发展迫切需要使用新的技术开发具有智能行为的NPC,Agent技术因其对人类智能的刻画及模拟不失为一种好的选择。同时,电脑游戏也因为其固有的复杂、实时、动态性而吸引了众多Agent研究者的目光。针对第一人称射击游戏——"虚幻竞技场(Unreal Tournament,UT)"设计了HUNTBot作为游戏中的非玩家角色NPC。这种Agent具有混合式结构,使Agent既能对变化的环境迅速做出反应,又能对目标进行实时规划,并具有社会性和学习能力。因此Agent能够适应动态、复杂、实时的游戏环境,使NPC的智能行为更加接近人类玩家。
- 杨佩王皓罗文杰高阳
- 关键词:第一人称射击游戏AGENT结构多AGENT系统
- 知识逻辑下的企业组织设计与优化研究
- 王皓
- FPS游戏中基于HTN的Anytime规划器的研究被引量:1
- 2008年
- 动态性和实时性电脑游戏世界的两个关键特征。Anytime规划是能够产生满足上述两个特征的行为的规划方法。分层任务网络(Hierarchical Task Network,HTN)是表示分层规划的一种形式,它非常适合于表达电脑游戏中非玩家角色(non-player char-acter,NPC)复杂的目标。以著名的第一人称射击(First-Person Shooter,FPS)游戏虚幻竞技场2004(Unreal Tournament 2004)作为游戏平台,为NPC设计实现了一个基于HTN规划的anytime规划器,并使用遗传算法调整规划目标的优先级。该规划器可以根据环境变化随时中断规划并给出可用的规划结果,同时具有一定的适应性。实验表明它能够使NPC的行为更智能。
- 罗文杰杨佩王皓高阳
- 关键词:第一人称射击游戏非玩家角色
- 元博弈平衡和多Agent强化学习的MetaQ算法被引量:2
- 2006年
- 多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能.
- 王皓高阳
- 关键词:多AGENT系统
- 强化学习中的迁移:方法和进展被引量:27
- 2008年
- 传统机器学习方法认为不同的学习任务彼此无关,但事实上不同的学习任务常常相互关联.迁移学习试图利用任务之间的联系,利用过去的学习经验加速对于新任务的学习.机器学习各分支都已展开了对迁移学习的研究.本文综述了强化学习的迁移技术,依据认知心理学的理论将现有技术分为行为迁移和知识迁移两大类,并介绍、分析了各自的特点,并提出了一些开放性的问题.
- 王皓高阳陈兴国
- 关键词:知识认知心理学泛化