您的位置: 专家智库 > >

赵学艳

作品数:4 被引量:7H指数:2
供职机构:华南理工大学自动化科学与工程学院更多>>
发文基金:国家自然科学基金广东省自然科学基金广州市科技计划项目更多>>
相关领域:自动化与计算机技术理学更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 3篇自动化与计算...
  • 2篇理学

主题

  • 1篇调制
  • 1篇学习算法
  • 1篇速率
  • 1篇随机微分
  • 1篇随机微分方程
  • 1篇网络
  • 1篇网络结构
  • 1篇网络算法
  • 1篇微分
  • 1篇微分方程
  • 1篇马尔可夫
  • 1篇马尔可夫调制
  • 1篇马尔可夫链
  • 1篇局部LIPS...
  • 1篇非零
  • 1篇Q学习
  • 1篇Q学习算法
  • 1篇IT
  • 1篇ITO
  • 1篇存在性

机构

  • 4篇华南理工大学
  • 1篇广东交通职业...

作者

  • 4篇赵学艳
  • 2篇邓飞其
  • 1篇杨启贵
  • 1篇旷世芳
  • 1篇郭新

传媒

  • 2篇南京信息工程...
  • 1篇系统科学与数...
  • 1篇华南理工大学...

年份

  • 2篇2021
  • 1篇2016
  • 1篇2012
4 条 记 录,以下是 1-4
排序方式:
基于Q学习算法的随机离散时间系统的随机线性二次最优追踪控制被引量:3
2021年
针对随机线性离散时间系统,利用Q学习算法求解无限时域的随机线性二次最优追踪控制(SLQT)问题.首先,假设通过命令生成器生成追踪所需的参考信号,并建立一个由原随机系统和参考轨迹系统组成的增广系统,把最优追踪问题转化为最优调节问题的形式.其次,为了在线求解随机系统的最优追踪问题,将随机系统转为确定性系统,并根据增广系统定义随机线性二次最优追踪控制的Q函数,在无需知道系统模型参数的情况下在线求解增广随机代数方程(GSAE).再次,证明了Q学习算法和增广随机代数方程的等价性,给出了Q学习算法实现步骤.最后,给出一个仿真实例说明Q学习算法的有效性.
张正义赵学艳
关键词:Q学习算法
基于权重值的竞争深度双Q网络算法被引量:3
2021年
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升.
汪晨曦赵学艳郭新
基于局部Lipschitz条件的非线性It随机微分方程的基本理论(英文)被引量:1
2016年
主要目的是在局部Lipschitz条件下建立非线性Ito随机微分方程的基本理论,包括解的存在性和非零性.过去文献中的局部Lipschitz条件被减弱为广义局部Lipschitz条件,其系数可以是局部、变系数、非线性的,在时间维上真正允许系数的时变性,在空间维上真正允许系数的非线性性.
赵学艳邓飞其杨启贵
关键词:局部LIPSCHITZ条件存在性
一般速率下马尔可夫调制随机系统的稳定性
2012年
一些稳定的随机系统是非指数稳定的,可能出现方程解收敛的速率较指数速率低的情况,如多项式或对数.为了更精确地定量分析系统的稳定性,文中将指数稳定概念推广到更一般稳定的衰减函数,研究了一类马尔可夫调制随机系统在一般衰减速率下的稳定性.利用It公式、Borel-Cantelli引理和鞅指数不等式等随机分析技巧,先建立了解析解p阶矩(t)稳定和几乎必然(t)稳定的定理,然后证明了在相同的条件下,对足够小的步长Δ,Euler Maruyama方法能保持相同的稳定性.
邓飞其旷世芳赵学艳
关键词:马尔可夫链
共1页<1>
聚类工具0