公共文化服务平台

2024年7月21日星期日

|

欢迎来到维普•公共文化服务平台

登录 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

陈桂兴: 作品数：3 被引量：8H指数：1; 供职机构：苏州大学计算机科学与技术学院更多>>; 发文基金：江苏省高校自然科学研究项目江苏省自然科学基金国家自然科学基金更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

刘全苏州大学计算机科学与技术学院
傅启明苏州大学计算机科学与技术学院
孙洪坤苏州大学计算机科学与技术学院
于俊苏州大学计算机科学与技术学院
陈仕超苏州大学计算机科学与技术学院

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

2篇期刊文章
1篇学位论文

领域

3篇自动化与计算...

主题

2篇高斯
2篇高斯过程
2篇贝叶斯
1篇行动者
1篇评论家
1篇人工智能
1篇贝叶斯推理
1篇Q学习
1篇DY

机构

3篇苏州大学
2篇吉林大学

作者

3篇陈桂兴
2篇刘全
1篇凌兴宏
1篇于俊
1篇孙洪坤
1篇伏玉琛
1篇陈仕超
1篇傅启明

传媒

1篇通信学报
1篇计算机应用研...

年份

1篇2016
1篇2014
1篇2013

共 3 条记录，以下是 1-3

全选清除导出

排序方式：

一种基于高斯过程的行动者评论家算法被引量：1: 2016年; 强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在critic中利用高斯过程对线性带参值函数建模,结合生成模型,根据贝叶斯推理求解值函数的后验分布。将该算法应用于平衡杆实验中,实验结果表明,算法收敛速度较快,可以有效解决在大规模或连续空间中探索和利用的平衡问题,具有较好的性能。; 陈仕超凌兴宏刘全伏玉琛陈桂兴; 关键词：高斯过程贝叶斯推理

基于优先级扫描Dyna结构的贝叶斯Q学习方法被引量：6: 2013年; 贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。; 于俊刘全傅启明孙洪坤陈桂兴

强化学习中值函数逼近方法的研究: 强化学习是一类无需先验知识的机器学习方法,以Agent与环境不断的交互为主要特征,以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续状态空间,Agent所能执行的动作可能为离散的或连续...; 陈桂兴; 关键词：人工智能高斯过程; 文献传递

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有 @ 渝北区图书馆 2016－2018 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张