国家自然科学基金(61103045)
- 作品数:2 被引量:3H指数:1
- 相关作者:傅启明刘全李瑾杨旭东荆玲更多>>
- 相关机构:苏州大学吉林大学南京大学更多>>
- 发文基金:国家自然科学基金江苏省高校自然科学研究项目江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- A parallel scheduling algorithm for reinforcement learning in large state space
- 2012年
- 在加强学习的区域的主要挑战正在可伸缩直到更大、更复杂的问题。瞄准加强学习的可伸缩的问题,学习方法的可伸缩的加强, DCS-SRL,根据 divide-and-conquer 策略,和它的集中被建议被证明。在这个方法,在大州的空间或连续州的空间的学习问题被分解成多重更小的 subproblems。给一个特定的学习算法,每 subproblem 能与有限可得到的资源独立地被解决。最后,部件答案能被重新结合获得需要的结果。探讨在调度程序优先考虑 subproblems 的问题,安排算法的加权的优先级被建议。这个安排算法保证那计算集中于被期望最大地高效的问题空间的区域。帮助学习过程,一个新平行方法,叫的 DCS-SPRL,从把 DCS-SRL 与平行安排体系结构相结合被导出。在 DCS-SPRL 方法, subproblems 将在有能力在平行工作的处理器之中被散布。试验性的结果证明基于 DCS-SPRL 学习有快集中速度和好可伸缩性。
- Quan LIUXudong YANGLing JINGJin LIJiao LI
- 关键词:调度算法可扩展性
- 一种基于智能调度的可扩展并行强化学习方法被引量:3
- 2013年
- 针对强化学习在大状态空间或连续状态空间中存在的"维数灾"问题,提出一种基于智能调度的可扩展并行强化学习方法——IS-SRL,并从理论上进行分析,证明其收敛性.该方法采用分而治之策略对大状态空间进行分块,使得每个分块能够调入内存独立学习.在每个分块学习了一个周期之后交换到外存上,调入下一个分块继续学习.分块之间在换入换出的过程中交换信息,以使整个学习任务收敛到最优解.同时针对各分块之间的学习顺序会显著影响学习效率的问题,提出了一种新颖的智能调度算法,该算法利用强化学习值函数更新顺序的分布特点,基于多种调度策略加权优先级的思想,把学习集中在能产生最大效益的子问题空间,保障了IS-SRL方法的学习效率.在上述调度算法中融入并行调度框架,利用多Agent同时学习,得到了IS-SRL方法的并行版本——IS-SPRL方法.实验结果表明,IS-SPRL方法具有较快的收敛速度和较好的扩展性能.
- 刘全傅启明杨旭东荆玲李瑾李娇
- 关键词:并行计算可扩展性智能调度