国家重点基础研究发展计划(2011CB302500)
- 作品数:5 被引量:16H指数:2
- 相关作者:刘磊刘雷孙凝晖范东睿王燕燕更多>>
- 相关机构:中国科学院吉林大学中国科学院研究生院更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- H.264去块滤波算法在众核结构上的并行优化被引量:2
- 2011年
- 在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升.
- 范灵俊颜成钢宋风龙马宜科范东睿
- 关键词:H.264去块滤波
- PartitionSim:一个面向众核结构的并行模拟器被引量:2
- 2011年
- 该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程严格同步,维持时序精确.当模拟非交互部分时,主机线程通过异步运行,提高模拟速度,并且产生较小的时序损失.文中所述工作在一个16核的SMP机器上用PartitionSim模拟了千核规模的Godson-T众核结构.实验结果显示,PartitionSim展示出良好的加速比,达到最高25MIPS的模拟速度,时序损失平均值为0.92%.
- 焦帅徐卫志唐士斌范东睿孙凝晖
- 一种基于GPU的二维离散多分辨率小波变换加速方法被引量:3
- 2015年
- 针对传统CPU平台下小波变换算法难满足当前高分辨率、大数据规模下的实时性要求,提出一种基于GPU的并行小波变换算法,并通过改善Local Memory访存数据的局部性和增加Global Memory访存带宽的优化技术,利用多Kernel并行提高多种分辨率下小波变换的性能.实验结果表明,与CPU串并行版本相比,GPU并行优化算法在高分辨率变换情况下,加速比最高可达30~60倍,可满足对变换实时性的要求.
- 刘磊张子佳刘雷张睿
- 关键词:小波变换多分辨率GPU加速
- 众核处理器高效片上访存机制研究
- 日益加剧的Memory Wall问题成为限制处理器性能进一步提高的主要因素之一,片上可配置SRAM可以更灵活地发挥和利用程序访存的局部性,从而引入众核处理器的设计当中。为充分发挥这种优势,针对片上可配置SRAM的访存队列...
- 范灵俊安述倩李杨张浩王达范东睿
- 关键词:矩阵乘
- 文献传递
- Bellman-Ford算法性能可移植的GPU并行优化被引量:7
- 2015年
- 提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AMD的多款GPU设备上都取得了很好的效果,经本文算法优化后的程序性能较原始GPU并行版本提升3~6倍。
- 刘磊王燕燕申春李玉祥刘雷
- 体系结构内可编程数据平面方法被引量:2
- 2017年
- 随着互联网与云计算的发展,越来越多的应用被从本地迁移到云端,这些应用最终被运行在共享的数据中心.受到数据中心应用复杂并且需求多变特征的影响,传统体系结构中的部分硬件部件(如共享末级缓存、内存控制器、I/O控制器等)固定功能的设计不能很好地满足这些混合多应用的场景需求.为满足这类应用场景的需求,计算机体系结构需要提供一种可编程硬件机制,使得硬件功能能够根据应用需求的变化进行调整.提出了一种可编程数据平面方法:通过在现有硬件部件中增加可编程处理器,使用执行固件代码的方式对硬件的请求进行处理,并通过更新数据平面处理器固件的方式实现硬件功能的扩展.该方法在FPGA原型系统中进行验证,其结果表明,该方法并没有给系统性能带来严重的影响,只使用有限的资源即可为硬件增加更为灵活的可编程能力,使其能够适应应用需求复杂多变的场景.
- 马久跃余子濠包云岗孙凝晖
- 关键词:处理器数据中心服务器服务质量