您的位置: 专家智库 > >

刘雷

作品数:12 被引量:20H指数:3
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家高技术研究发展计划国家重点基础研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇期刊文章
  • 4篇专利
  • 1篇科技成果

领域

  • 10篇自动化与计算...

主题

  • 4篇GPU
  • 3篇多核
  • 2篇调度
  • 2篇调度方法
  • 2篇队列
  • 2篇多核系统
  • 2篇任务调度
  • 2篇任务调度方法
  • 2篇任务队列
  • 2篇数据处理
  • 2篇数据竞争
  • 2篇网络
  • 2篇线程
  • 2篇内存
  • 2篇缓存
  • 2篇哈希
  • 2篇哈希表
  • 2篇核系统
  • 2篇编程
  • 1篇代码

机构

  • 12篇中国科学院
  • 4篇华为技术有限...
  • 4篇中国科学院大...
  • 3篇吉林大学
  • 1篇长春理工大学

作者

  • 12篇刘雷
  • 4篇赵鹏
  • 3篇刘磊
  • 3篇陈莉
  • 3篇冯晓兵
  • 2篇李晶
  • 2篇李恒杰
  • 2篇申春
  • 1篇刘淘英
  • 1篇李华伟
  • 1篇韩银和
  • 1篇张文力
  • 1篇包云岗
  • 1篇张兴亮
  • 1篇杨亚军
  • 1篇孙毓忠
  • 1篇许建卫
  • 1篇马捷
  • 1篇章隆兵
  • 1篇吴承勇

传媒

  • 2篇软件学报
  • 2篇吉林大学学报...
  • 1篇计算机工程
  • 1篇高技术通讯
  • 1篇吉林大学学报...

年份

  • 1篇2020
  • 1篇2019
  • 1篇2018
  • 1篇2017
  • 2篇2016
  • 3篇2015
  • 1篇2014
  • 1篇2013
  • 1篇2008
12 条 记 录,以下是 1-10
排序方式:
一种基于GPU的二维离散多分辨率小波变换加速方法被引量:3
2015年
针对传统CPU平台下小波变换算法难满足当前高分辨率、大数据规模下的实时性要求,提出一种基于GPU的并行小波变换算法,并通过改善Local Memory访存数据的局部性和增加Global Memory访存带宽的优化技术,利用多Kernel并行提高多种分辨率下小波变换的性能.实验结果表明,与CPU串并行版本相比,GPU并行优化算法在高分辨率变换情况下,加速比最高可达30~60倍,可满足对变换实时性的要求.
刘磊张子佳刘雷张睿
关键词:小波变换多分辨率GPU加速
访问哈希表的装置和方法
本发明提供一种访问哈希表的装置和方法,所述装置包括:获取模块,用于获取访问请求,所述访问请求包括关键字;第一确定模块,用于根据所述获取模块获取的所述关键字,确定目标哈希地址;第二确定模块,用于根据所述第一确定模块确定的所...
赵鹏刘雷曹玮
一种任务调度方法及装置
本发明实施例公开了一种任务调度方法及装置,涉及计算机技术领域,不仅可以避免多个线程并行执行任务时,同时访问一个数据块而引发的数据竞争,还可以避免引入锁带来的额外性能开销,减少并发错误的检测和调试难度。具体方案为:根据待执...
赵鹏刘雷曹玮
特定领域语言MISPC及其编译框架实现技术被引量:2
2016年
基于C语言扩展定义一种新的特定领域编程语言MISPC,并描述其应用于多媒体和无线网络领域主流场景的特征,利用Backus-Naur范式对其数据类型等进行描述.针对该语言特点,提出一个面向异构平台的编译框架,以生成较高性能的目标代码.结合领域中一个经典算法进行验证,实验结果表明,对比不同输入规模、不同版本的代码实现,显著提高了领域开发的效率,并可获得最高5.59倍的执行加速比.通过定义相应高层语言并构建编译框架,提供领域编程框架的系统解决方法和技术,有效降低了领域编程和调试的难度,提升了领域开发效率及程序性能.
刘磊李振国高艳华丁岩申春刘雷
关键词:多媒体无线网络GPUSIMD
支持算法组件自动替换的编程范式及编译框架被引量:1
2013年
针对算法组件的自动替换蕴含的算法组件的兼容性判定问题,提出了一个算法组件的约束模型,从而将算法组件的兼容性判定转化为约束模型的兼容性判定。为解决转化后的兼容性判定,采用了分治思想,即只需判定原子约束强度,约束模型间的兼容性可由原子约束强度结合约束强度推导规则与放松的组件接口兼容性判定规则自动导出。为使算法自动替换更具实用性,提出了支持算法自动替换的编程范式,使得自动替换前期涉及的手工工作在编程所涉及的不同角色之间得到合理分配。设计了编译框架原型,或支持算法与编译优化选项的自动选择。实验结果显示,该系统在9个测试用例上获得的平均加速比为2.29。
李恒杰何文婷陈莉刘雷吴承勇
关键词:编程范式
Bellman-Ford算法性能可移植的GPU并行优化被引量:7
2015年
提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AMD的多款GPU设备上都取得了很好的效果,经本文算法优化后的程序性能较原始GPU并行版本提升3~6倍。
刘磊王燕燕申春李玉祥刘雷
超并行(HPP)体系结构的若干关键技术研究
孙凝晖章隆兵李晓维陈明宇马捷陈莉孙毓忠刘淘英李华伟胡瑜韩银和高翔黄琨张文力谭光明包云岗许建卫袁清波刘雷张兴亮李恒杰商磊臧洪永李亚琼宋莹杨亚军李如豹汪浩
本课题的主要目标是为超龙计划的基础研究构建一个系列的研究平台,开展先期部分基础研究,为后续的基础研究和系统设计和评估奠定基础。其中,涉及到建立平台的包括系统级模拟和仿真平台,多核CPU模拟器,操作系统原型,UPC并行编程...
关键词:
关键词:体系结构多核
基于进程投机并行的运行时系统设计与优化
2014年
投机并行化是解决遗留串行代码并行化的重要技术,但以往投机并行化运行时系统面临着诸多的性能问题,如任务分配不均衡、通信频繁、冲突代价高,以及进程启动,结柬频繁而导致开销过高等。为此,提出一种基于进程实现的投机并行化运行时系统。采用隐式单程序多数据的并行任务划分和执行模式。通过实现重甩进程的投机任务调度策略和委托正确性检查技术,降低投机进程启动/结束和通信的开销,提高投机进程的利用率,同时利用守护进程与投机进程协同执行的方式,确保在投机进程出现异常情况时程序也能正确执行。实验结果表明,该基于进程实现的投机运行时系统比同类型系统的性能提高231%。
刘雷李晶陈莉冯晓兵
面向稀疏卷积神经网络的GPU性能优化方法被引量:3
2020年
近些年来,深度卷积神经网络在多项任务中展现了惊人的能力,并已经被用在物体检测、自动驾驶和机器翻译等众多应用中.但这些模型往往参数规模庞大,并带来了沉重的计算负担.神经网络的模型剪枝技术能够识别并删除模型中对精度影响较小的参数,从而降低模型的参数数目和理论计算量,给模型的高效执行提供了机会.然而,剪枝后的稀疏模型却难以在GPU上实现高效执行,其性能甚至差于剪枝前的稠密模型,导致模型剪枝难以带来真正的执行性能收益.提出一种稀疏感知的代码生成方法,能够生成高效的稀疏卷积GPU程序.首先为卷积算子设计了算子模板,并结合GPU的特点对模板代码进行了多种优化.算子模板中的源代码经过编译和分析被转换为算子中间表示模板,设计了一种稀疏代码生成方法,能够结合剪枝后的稀疏参数,基于中间表示模板生成对应的稀疏卷积代码.同时,利用神经网络执行过程中的数据访问特点对数据的访问和放置进行了优化,有效提升了访存吞吐量.最后,稀疏参数的位置信息被隐式编码在生成的代码中,不需要额外的索引结构,降低了访存需求.在实验中证明了:相对于GPU上已有的稀疏神经网络执行方法,提出的稀疏感知的代码生成方法能够有效提升稀疏卷积神经网络的性能.
董晓刘雷李晶冯晓兵
关键词:神经网络GPU卷积代码生成
一种任务调度方法及装置
本发明实施例公开了一种任务调度方法及装置,涉及计算机技术领域,不仅可以避免多个线程并行执行任务时,同时访问一个数据块而引发的数据竞争,还可以避免引入锁带来的额外性能开销,减少并发错误的检测和调试难度。具体方案为:根据待执...
赵鹏刘雷曹玮
文献传递
共2页<12>
聚类工具0