李赫
- 作品数:3 被引量:1H指数:1
- 供职机构:北京交通大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于偏度和稀疏度的A3C稳定性评估研究
- 强化学习在信息论、机器人、自动控制与无人驾驶等领域已经取得了非常出色的应用成果。通过对强化学习的不断深入研究,部分强化学习算法被证明具备一定解决复杂问题的能力。而强化学习算法往往面对复杂多变的应用场景,算法的稳定性直接影...
- 李赫
- 强化学习离线策略评估研究综述被引量:1
- 2022年
- 在强化学习应用中,为避免意外风险,需要在强化学习实际部署前进行离线策略评估(Off-Policy Evaluation,OPE),这在机器人、自动驾驶等领域产生了巨大的应用前景.离线策略评估是从行为策略收集到的轨迹数据中,不需要通过实际的强化学习而估计目标策略的状态价值,通常情况下学习目标是使所估计的目标策略状态价值与目标策略真实执行的状态价值均方误差尽可能小.行为策略与目标策略间的差异性,以及新应用中出现的行为策略奖励稀疏性,不断给离线策略评估带来了挑战.本文系统性地梳理了近二十年离线策略评估的主要方法:纯模型法、重要性采样法、混合模型法和PU学习法(Positive Unlabeled,PU),主要内容包括:(1)描述了离线策略评估的相关理论背景知识;(2)分别阐述了各类方法的机理、方法中模型的细节差异;(3)详细对各类方法及模型进行了机理对比,并通过实验进行了主流离线策略评估模型的程序复现与性能对比.最后展望了离线策略评估的技术挑战与可能发展方向.
- 王硕汝牛温佳童恩栋陈彤李赫田蕴哲刘吉强韩臻李浥东
- 关键词:人工智能重要性采样
- 个人数据空间管理系统关键字查询的研究与实现
- 随着计算机技术的发展,个人数据逐步呈现出海量、复杂和异构的特点,传统的数据管理技术己不能满足这种新形势下数据管理的需求。数据空间作为一种新的数据管理技术,对数据采用逐步集成的方式,并且不依赖于严格的数据模式,因此能够满足...
- 李赫
- 关键词:关键字查询