周倩 作品数:6 被引量:644 H指数:5 供职机构: 苏州大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 苏州市科技计划项目(应用基础研究计划) 江苏省高校自然科学研究项目 更多>> 相关领域: 自动化与计算机技术 更多>>
深度强化学习综述 被引量:456 2018年 深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破.该文首先阐述了三类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势. 刘全 翟建伟 翟建伟 钟珊 章宗长 章鹏 钟珊关键词:人工智能 基于多重门限机制的异步深度强化学习 被引量:1 2019年 近年来,深度强化学习已经成为人工智能领域一个新的研究热点.深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题.虽然异步深度强化学习通过利用多线程技术大幅度减少了深度强化学习模型所需的训练时间,但是,基于循环神经网络的异步深度强化学习算法依然需要大量训练时间,原因在于具有记忆能力的循环神经网络无法利用并行化计算加速模型训练过程.为了加速异步深度强化学习模型的训练过程,并且使得网络模型具有记忆能力,该文提出了一种基于多重门限机制的异步优势行动者-评论家算法.该模型主要有三个特点:一是通过使用多重门限机制使前馈神经网络具有记忆能力,使Agent能够通过记忆不同时间步的状态信息做出更优的决策;二是通过利用并行计算进一步加速Agent的训练过程,减少模型所需的训练时间;三是通过采用一种新的跳跃连接方式实现数据向更深的网络层传递,增强模型识别状态特征的能力,从而提升深度强化学习算法的稳定性和学习效果.该文通过Atari 2600游戏平台上的部分战略型游戏以及稀疏奖赏环境型游戏来评估新模型的性能.实验结果表明,与传统的异步深度强化学习算法相比,新模型能够以较少的时间代价来获得更优的学习效果. 徐进 刘全 章宗长 章宗长 周倩关键词:循环神经网络 一种自适应的多臂赌博机算法 被引量:8 2019年 多臂赌博机问题是强化学习中研究探索和利用两者平衡的经典问题,其中,随机多臂赌博机问题是最经典的一类多臂赌博机问题,是众多新型多臂赌博机问题的基础.针对现有多臂赌博机算法未能充分使用环境反馈信息以及泛化能力较弱的问题,提出一种自适应的多臂赌博机算法.该算法利用当前估计值最小的动作被选择的次数来调整探索和利用的概率(chosen number of arm with minimal estimation, CNAME),有效缓解了探索和利用不平衡的问题.同时,该算法不依赖于上下文信息,在不同场景的多臂赌博机问题中有更好的泛化能力.通过理论分析给出了该算法的悔值(regret)上界,并通过不同场景的实验结果表明:CNAME算法可以高效地获得较高的奖赏和较低的悔值,并且具有更好的泛化能力. 章晓芳 周倩 周倩 梁斌关键词:自适应 上下文相关 一种基于视觉注意力机制的深度循环Q网络模型 被引量:20 2017年 由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平.然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降.这说明深度Q网络并不擅长解决战略性深度强化学习任务.针对此问题,文中使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络模型,提出了一种较为完善的深度强化学习模型.新模型的关键思想有两点:一是使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息.这使得Agent能够及时使用有延迟的反馈奖赏来正确地指导下一步的动作选择;二是通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得Agent能够更加高效地学习近似最优策略.该文通过选取一些经典的Atari 2600战略性游戏作为实验对象来评估新模型的有效性.实验结果表明,与传统的深度强化学习模型相比,新模型在一些战略性任务上具有很好的性能表现和较高的稳定性. 刘全 翟建伟 钟珊 章宗长 周倩 章鹏关键词:循环神经网络 人工智能 一种用于基于方面情感分析的深度分层网络模型 被引量:46 2018年 近年来,基于方面情感分析已成为自然语言处理领域的研究热点之一.结合注意力机制的深度网络模型在基于方面情感分析任务中取得了令人瞩目的成功,针对以独立句子作为网络模型输入的方法无法获取句子间相互关系,以及仅使用词语层注意力机制难以充分获取同一评论中句子间的相互联系等问题,提出一种结合区域卷积神经网络和分层长短期记忆网络(Regional Convolutional Neural Network-Hierarchical Long Short-Term Memory,RCNN-HLSTM)的深度分层网络模型用在基于方面情感分析任务中.该模型通过区域CNN既可以保留不同句子在评论中的时序关系也可以大大降低仅使用LSTM网络的时间代价.此外,该模型利用一个分层LSTM网络来获取待分类句子内部词语之间的相互联系,以及待分类句子和评论中其他句子之间的情感特征信息.通过词语层和句子层注意力机制能有效获取特定方面在句子中的局部特征和整个评论中的长距离依赖关系,弥补了仅使用词语层注意力机制的不足.最后在多种语言的不同领域数据集上进行实验,取得了比传统的深度网络模型、结合注意力机制的深度网络模型以及考虑句子间关系的双向分层LSTM网络模型更好的分类效果. 刘全 梁斌 梁斌 徐进关键词:循环神经网络 卷积神经网络 基于多注意力卷积神经网络的特定目标情感分析 被引量:135 2017年 特定目标情感分析作为情感分析一个重要的子任务,近年来得到越来越多研究人员的关注.针对在特定目标情感分析中,将注意力机制和LSTM等序列性输入网络相结合的网络模型训练时间长、且无法对文本进行平行化输入等问题,提出一种基于多注意力卷积神经网络(multi-attention convolution neural networks,MATT-CNN)的特定目标情感分析方法.相比基于注意力机制的LSTM网络,该方法可以接收平行化输入的文本信息,大大降低了网络模型的训练时间.同时,该方法通过结合多种注意力机制有效弥补了仅仅依赖内容层面注意力机制的不足,使模型在不需要例如依存句法分析等外部知识的情况下,获取更深层次的情感特征信息,有效识别不同目标的情感极性.最后在SemEval2014数据集和汽车领域数据集(automotive-domain data,ADD)进行实验,取得了比普通卷积神经网络、基于单注意力机制的卷积神经网络和基于注意力机制的LSTM网络更好的效果. 梁斌 刘全 徐进 周倩 章鹏关键词:卷积神经网络 自然语言处理