谢丽娟
- 作品数:9 被引量:23H指数:4
- 供职机构:长沙电力学院数学与计算机系更多>>
- 发文基金:国家自然科学基金湖南省教育厅科研基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 基于有限样本的最优费用关联值递归Q学习算法被引量:4
- 2002年
- 一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。
- 殷苌茗陈焕文谢丽娟
- 关键词:Q学习算法人工智能
- 一类值函数激励学习的遗忘算法被引量:20
- 2001年
- 大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题 .将记忆心理学中有关遗忘的基本原理引入值函数的激励学习 ,形成了一类适合于值函数激励学习的遗忘算法 .首先简要介绍了解决马尔可夫决策问题的基本概念 ,比较了离策略和在策略激励学习算法的差别 ,概述了标准的 SARSA(λ)算法 .在分析了人类记忆和遗忘的一些特征后 ,提出了一个智能体遗忘准则 ,进而将 SARSA(λ)算法改进为具有遗忘功能的 Forget-SARSA(λ)算法 。
- 陈焕文谢丽娟谢建平
- 关键词:MARKOV决策过程值函数人工智能
- 部分可观测Markov环境下的激励学习综述
- 2002年
- 对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为基于状态的值函数学习 ;一类为策略空间的直接搜索 .最后分析了这些方法尚存在的问题 ,并指出了未来可能的研究方向 .
- 谢丽娟陈焕文
- 关键词:人工智能智能体
- 激励学习的广义平均算法及其收敛性
- 2002年
- 一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法。文章提出了一种新的算法,这个算法通过牺牲最优性来获取鲁棒性,重点给出了一组逼近算法和它们的收敛结果。利用广义平均算子来替代最优算子max(或min),对激励学习中的两类最重要的算法一动态规划算法和个学习算法一进行了研究,并讨论了它们的收敛性。其目的就是为了提高激励学习算法的鲁棒性。
- 殷苌茗陈焕文谢丽娟
- 关键词:收敛性Q-学习智能体人工智能
- 基于最大期望学习算法的无标识文本分类
- 通过World Wide Web服务、Internet资讯、电子邮件以及数字图书馆,在线文本越来越容易获得.为了利用计算机对这些数量庞大的文本进行分类,以便更有效地使用它们,对文本分类学习的最大期望算法进行研究,并给出一...
- 殷苌茗陈焕文谢丽娟
- 关键词:文本分类人工智能
- 文献传递
- 样本有限关联值递归Q学习算法及其收敛性证明被引量:5
- 2002年
- 一个激励学习 Agent通过学习一个从状态到动作映射的最优策略来解决策问题 .求解最优决策一般有两种途径 :一种是求最大奖赏方法 ,另一种是求最优费用方法 .利用求解最优费用函数的方法给出了一种新的 Q学习算法 .Q学习算法是求解信息不完全 Markov决策问题的一种有效激励学习方法 .Watkins提出了 Q学习的基本算法 ,尽管他证明了在满足一定条件下 Q值学习的迭代公式的收敛性 ,但是在他给出的算法中 ,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响 .因此提出的关联值递归 Q学习算法改进了原来的 Q学习算法 ,并且这种算法有比较好的收敛性质 .从求解最优费用函数的方法出发 ,给出了 Q学习的关联值递归算法 ,这种方法的建立可以使得动态规划 (DP)算法中的许多结论直接应用到 Q学习的研究中来 .
- 殷苌茗陈焕文谢丽娟
- 关键词:Q学习算法收敛性证明MARKOV决策过程人工智能
- 基于每阶段平均费用最优的激励学习算法被引量:3
- 2002年
- 文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优解的存在性、分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立 ,可以使得动态规划 (DP)
- 殷苌茗陈焕文谢丽娟
- 关键词:Q学习智能体激励学习算法人工智能
- 一个因素化SARSA(λ)激励学习算法被引量:9
- 2001年
- 基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 .
- 陈焕文谢建平谢丽娟
- 折扣与无折扣MDPs:一个基于SARSA(λ)算法的实例分析
- 2002年
- 分析了折扣激励学习存在的问题,对MDPs的SARSA(λ)算法进行了折扣的比较实验分析,讨论了平均奖赏常量对无折扣SARSA(()算法的影响。
- 陈焕文谢丽娟
- 关键词:实例分析