国家杰出青年科学基金(60925009) 作品数:16 被引量:69 H指数:5 相关作者: 范东睿 宋风龙 刘志勇 孙凝晖 范灵俊 更多>> 相关机构: 中国科学院 中国科学院大学 中国科学院研究生院 更多>> 发文基金: 国家杰出青年科学基金 国家重点基础研究发展计划 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
H.264去块滤波算法在众核结构上的并行优化 被引量:2 2011年 在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升. 范灵俊 颜成钢 宋风龙 马宜科 范东睿关键词:H.264 去块滤波 PartitionSim:一个面向众核结构的并行模拟器 被引量:2 2011年 该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程严格同步,维持时序精确.当模拟非交互部分时,主机线程通过异步运行,提高模拟速度,并且产生较小的时序损失.文中所述工作在一个16核的SMP机器上用PartitionSim模拟了千核规模的Godson-T众核结构.实验结果显示,PartitionSim展示出良好的加速比,达到最高25MIPS的模拟速度,时序损失平均值为0.92%. 焦帅 徐卫志 唐士斌 范东睿 孙凝晖LU分解在众核结构仿真器上的指令级调度研究 被引量:5 2011年 随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。 余磊 刘志勇 宋风龙 叶笑春关键词:计算机体系结构 加速比 指令级并行 LU分解 全局图像特征分析与实时层次化消失点检测 被引量:1 2013年 为了使道路场景的消失点检测能够适应不同的道路条件,提出基于全局图像特征的层次化消失点检测方法。通过全局图像特征提取全局道路特征,将道路分为4类并粗粒度定位道路区域。根据分类选择提取道路标识或边缘特征进行尺度变换的线段检测或区域分割并投票消失点集,再选择使用逆透视仿射变换或色彩纹理信息验证获得有效消失点。通过图像预处理移除道路车辆及阴影干扰,进一步提高检测精度。实验证明道路特征分类有效,在光照阴影、色彩纹理及遮挡等条件各异的场景中,层次化消失点检测方法均获得实时鲁棒的检测结果,比现有在复杂场景平均误差较小的基于本征直线方向与色彩纹理的检测方法精度与效率分别提高37.5%和20%。 孙愿 卢鸿波 张志敏众核处理器高效片上访存机制研究 日益加剧的Memory Wall问题成为限制处理器性能进一步提高的主要因素之一,片上可配置SRAM可以更灵活地发挥和利用程序访存的局部性,从而引入众核处理器的设计当中。为充分发挥这种优势,针对片上可配置SRAM的访存队列... 范灵俊 安述倩 李杨 张浩 王达 范东睿关键词:矩阵乘 文献传递 一个针对并行模拟引擎的性能评测实例 2013年 SimK是由中科院计算所体系结构国家重点实验室开发的一个并行离散时间模拟引擎。基于已经发布的SimK1.0版本,对任务划分及同步推进阻塞控制进行了功能扩展,开发了SimK的1.1版本。同时由于缺乏一个专门对SimK模拟性能评测的Benchmark以及全面的评测结果,首先讨论了并行模拟引擎Benchmark的设计准则,之后介绍了开发的Benchmark-PassBall,并且使用它对SimK的强弱扩展性、组件负载不均衡情况下的强扩展性进行了评测,同时对比了组件负载不均衡和均衡情况下的加速比,探讨了模拟计算量的变化对模拟加速比的影响,并讨论了Benchmark的适用性。通过实验讨论得出:a)PassBall可以作为并行模拟引擎SimK性能评测的Benchmark,亦可用于其他并行模拟引擎性能的评测;b)SimK具有良好的强弱扩展性;c)负载平衡和模拟计算量都会对并行模拟加速比产生影响。 吴志敏 吕慧伟 陈明宇关键词:扩展性 BENCHMARK 一种带有无效缓存路访问过滤机制的低功耗高速缓存 2012年 功耗是当今处理器设计领域的重要问题之一.随着多核处理器的普及,片上缓存占有了越来越多的芯片面积和功耗.提出一种带有无效缓存路访问过滤机制的低功耗高速缓存结构来降低CPU的动态功耗,具体为,通过无效缓存块的预先检查(Pre-Invalid Way Checking,PIWC)消除对无效缓存路的访问,及通过不匹配缓存路的预先检测(Pre-Mismatch Way Detecting,PMWD)消除对tag低位不匹配缓存路的访问.对实际程序的测试表明,65.2%-88.9%缓存路的无效访问可以通过以上方法被消除,约60.9%-85.6%由缓存访问带来的动态能耗从而被降低.同时,跟tag-data顺序访问方法相比,对于大多数程序,我们的方法可以获得5.1%-13.8%的节能效果提升. 范灵俊 唐士斌 张轮凯 郑亚松 张浩关键词:动态功耗 众核处理器片上同步机制和评估方法研究 被引量:11 2010年 同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间. 徐卫志 宋风龙 刘志勇 范东睿 余磊 张帅关键词:硬件支持 微程序 采用旋转匹配的二进制局部描述子 被引量:11 2013年 针对二进制描述子主方向计算误差影响图像匹配正确性的问题,提出了一种旋转不变的二进制描述子构造和匹配方法。在以特征点为中心的同心圆周上等间隔选取采样点,按照旋转不变的模式选取采样点对进行灰度值比较,将比较结果连接成二进制串,作为区域的描述子。匹配时比较描述子在所有旋转模式中的汉明距离,取最小值作为描述子的距离,实现不依赖于主方向的旋转不变性。配合多尺度特征检测方法,将采样模式进行缩放,并对图像进行亚像素插值,实现尺度不变性。描述子匹配的实验结果表明,本文方法在旋转、尺度和光照变换下的匹配效果比当前依赖主方向的二进制描述子方法具有更高的鲁棒性。 卢鸿波 孙愿 张志敏关键词:图像匹配 基于GPU的高性能稀疏矩阵向量乘及CG求解器优化 被引量:7 2013年 以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。 王迎瑞 任江勇 田荣关键词:GPU