您的位置: 专家智库 > >

李瑾

作品数:11 被引量:39H指数:3
供职机构:苏州大学更多>>
发文基金:国家自然科学基金江苏省高校自然科学研究项目江苏省自然科学基金更多>>
相关领域:自动化与计算机技术轻工技术与工程建筑科学语言文字更多>>

文献类型

  • 6篇期刊文章
  • 5篇学位论文

领域

  • 7篇自动化与计算...
  • 1篇经济管理
  • 1篇建筑科学
  • 1篇轻工技术与工...
  • 1篇社会学
  • 1篇语言文字

主题

  • 2篇多目标
  • 2篇强化学习方法
  • 2篇ROBOCU...
  • 1篇调度
  • 1篇多AGENT...
  • 1篇多目标问题
  • 1篇心理思想
  • 1篇心学
  • 1篇学习算法
  • 1篇阳明心学
  • 1篇运动舒适性
  • 1篇运动文胸
  • 1篇智能调度
  • 1篇乳房
  • 1篇平均奖赏
  • 1篇强化学习算法
  • 1篇自适
  • 1篇自适应
  • 1篇王阳明心学
  • 1篇网络

机构

  • 11篇苏州大学
  • 3篇吉林大学
  • 2篇南京大学

作者

  • 11篇李瑾
  • 6篇刘全
  • 3篇杨旭东
  • 3篇傅启明
  • 2篇翁东良
  • 2篇杨凯
  • 1篇李娇
  • 1篇张书奎
  • 1篇荆玲
  • 1篇孙洪坤
  • 1篇崔志明
  • 1篇高龙
  • 1篇伏玉琛
  • 1篇王辉

传媒

  • 2篇苏州大学学报...
  • 1篇计算机研究与...
  • 1篇模式识别与人...
  • 1篇通信学报
  • 1篇电子学报

年份

  • 1篇2019
  • 1篇2017
  • 3篇2013
  • 4篇2012
  • 1篇2008
  • 1篇2003
11 条 记 录,以下是 1-10
排序方式:
一种基于资格迹的并行强化学习算法被引量:1
2012年
强化学习是一种重要的机器学习方法,然而在实际应用中,收敛速度缓慢是其主要不足之一.为了提高强化学习的效率,提出了一种基于资格迹的并行强化学习算法,并给出了算法实现的框架模型和一些可行的优化方法.由于使用资格迹的算法具有内在的并行性,可以使用多个计算结点分摊值函数表和资格迹表的更新工作,从而实现提高整个系统学习效率的目的.实验结果表明该方法与当前两种主要的并行强化学习算法相比具有一定的优势.
杨旭东刘全李瑾
不同厚度运动文胸在不同速度下的运动舒适性研究
跑步等健身运动受到越来越多女性的青睐,但跑步过程中胸部晃动引起的疼痛和不适感成为女性投入到体育运动中的一大阻碍。目前,各大运动文胸生产商根据不同的运动强度推出了不同支撑等级的运动文胸,在高度支撑的运动文胸中也不乏罩杯较厚...
李瑾
关键词:运动文胸运动舒适性
汉语口语测试与教学——从汉语口语测试的调查看口语教学策略
本文以连续两个学期对苏州大学海外教育学院各班级外国学生的期末口语测试的调查问卷作为研究切入点,从语言测试的信度、效度、区分度、实用性以及影响等方面对问卷做了详细的统计和分析。通过对口语测试录音材料的整理,分析归纳了不同国...
李瑾
关键词:汉语口语测试口语教学
文献传递
利用移动内点来修复传感器网络空洞的算法被引量:16
2012年
针对目标区域中存在感知空洞问题,提出了一种空洞修复准则。在此基础上,设计了基于移动节点无需地理信息的修复算法SOI,该算法通过计算空洞边缘可移动的最佳内点,使该边缘节点到达新的位置,实现减少目标区域中空洞面积的目的。分析与仿真实验表明,与VHR算法相比,SOI算法在部署密集的传感网络中需要移动的总距离更少。
杨凯刘全张书奎李瑾翁东良
关键词:传感器网络
基于可持续理论的旧建筑更新设计研究--以乌镇西栅项目为例
现如今随着国家经济不断向前发展,城市中很多原有的旧建筑被接连拆除,随之而来的是一栋接着一栋的高层建筑如雨后春笋般拔地而起,新旧建筑交替之际产生的建筑垃圾给城市带来了越来越严峻的环境污染问题,因此生态文明的建设显得比以往更...
李瑾
关键词:旧建筑
一种最大集合期望损失的多目标Sarsa(λ)算法被引量:3
2013年
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性.
刘全李瑾傅启明崔志明伏玉琛
关键词:多目标机器人足球
基于多Agent强化学习的RoboCup局部策略研究
强化学习是人工智能领域中一种重要的用于解决学习控制问题的方法。但是经典强化学习算法在解决RoboCup局部策略训练问题时,仍然存在算法收敛速度缓慢,无法有效解决训练中存在的环境不确定性、多Agent协作与通信以及多目标特...
李瑾
关键词:多目标问题AGENT协作
一种基于智能调度的可扩展并行强化学习方法被引量:3
2013年
针对强化学习在大状态空间或连续状态空间中存在的"维数灾"问题,提出一种基于智能调度的可扩展并行强化学习方法——IS-SRL,并从理论上进行分析,证明其收敛性.该方法采用分而治之策略对大状态空间进行分块,使得每个分块能够调入内存独立学习.在每个分块学习了一个周期之后交换到外存上,调入下一个分块继续学习.分块之间在换入换出的过程中交换信息,以使整个学习任务收敛到最优解.同时针对各分块之间的学习顺序会显著影响学习效率的问题,提出了一种新颖的智能调度算法,该算法利用强化学习值函数更新顺序的分布特点,基于多种调度策略加权优先级的思想,把学习集中在能产生最大效益的子问题空间,保障了IS-SRL方法的学习效率.在上述调度算法中融入并行调度框架,利用多Agent同时学习,得到了IS-SRL方法的并行版本——IS-SPRL方法.实验结果表明,IS-SPRL方法具有较快的收敛速度和较好的扩展性能.
刘全傅启明杨旭东荆玲李瑾李娇
关键词:并行计算可扩展性智能调度
一种二阶TD Error快速Q(λ)算法被引量:5
2013年
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度.
傅启明刘全孙洪坤高龙李瑾王辉
关键词:ERROR
一种改进的平均奖赏强化学习方法在RoboCup训练中的应用被引量:2
2012年
强化学习在人工智能领域中是一种重要的解决学习控制问题的方法.在强化学习中,平均奖赏类型的强化学习方法适用于解决具有循环特性或者不具有终结状态的问题,然而平均奖赏强化学习存在收敛速度慢、对参数和环境敏感等问题.针对平均奖赏强化学习收敛速度缓慢这一问题,提出了一种改进的平均奖赏强化学习方法.同时,为了处理大状态空间、提高泛化能力,算法采用神经网络作为近似函数.算法在RoboCup中实验的训练表明该算法具有较快的收敛速度和较强的泛化能力.
李瑾刘全杨旭东杨凯翁东良
关键词:平均奖赏ROBOCUP
共2页<12>
聚类工具0