您的位置: 专家智库 > >

国家杰出青年科学基金(60925009)

作品数:16 被引量:69H指数:5
相关作者:范东睿宋风龙刘志勇孙凝晖范灵俊更多>>
相关机构:中国科学院中国科学院大学中国科学院研究生院更多>>
发文基金:国家杰出青年科学基金国家重点基础研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 16篇期刊文章
  • 1篇会议论文

领域

  • 17篇自动化与计算...

主题

  • 5篇核结构
  • 4篇多核
  • 4篇处理器
  • 3篇缓存
  • 2篇动态功耗
  • 2篇组相联
  • 2篇无效
  • 2篇矩阵
  • 2篇功耗
  • 2篇共享
  • 2篇DSO
  • 2篇GO
  • 2篇MPI
  • 2篇N-
  • 1篇队列
  • 1篇多核并行
  • 1篇多核机群
  • 1篇多核结构
  • 1篇多核系统
  • 1篇性能评测

机构

  • 17篇中国科学院
  • 7篇中国科学院研...
  • 7篇中国科学院大...
  • 2篇首都师范大学
  • 1篇韦恩州立大学
  • 1篇国网信息通信...
  • 1篇英特尔公司
  • 1篇美普思科技有...

作者

  • 8篇范东睿
  • 5篇宋风龙
  • 4篇范灵俊
  • 3篇孙凝晖
  • 3篇刘志勇
  • 2篇徐卫志
  • 2篇徐远超
  • 2篇孙愿
  • 2篇张帅
  • 2篇张志敏
  • 2篇余磊
  • 2篇唐士斌
  • 2篇张轮凯
  • 2篇陈明宇
  • 2篇吕慧伟
  • 2篇张浩
  • 2篇叶笑春
  • 2篇郑亚松
  • 2篇王达
  • 2篇卢鸿波

传媒

  • 4篇计算机研究与...
  • 4篇计算机学报
  • 2篇小型微型计算...
  • 2篇计算机科学
  • 2篇中国图象图形...
  • 1篇计算机应用与...
  • 1篇系统仿真学报

年份

  • 1篇2014
  • 9篇2013
  • 2篇2012
  • 4篇2011
  • 1篇2010
16 条 记 录,以下是 1-10
排序方式:
H.264去块滤波算法在众核结构上的并行优化被引量:2
2011年
在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升.
范灵俊颜成钢宋风龙马宜科范东睿
关键词:H.264去块滤波
PartitionSim:一个面向众核结构的并行模拟器被引量:2
2011年
该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程严格同步,维持时序精确.当模拟非交互部分时,主机线程通过异步运行,提高模拟速度,并且产生较小的时序损失.文中所述工作在一个16核的SMP机器上用PartitionSim模拟了千核规模的Godson-T众核结构.实验结果显示,PartitionSim展示出良好的加速比,达到最高25MIPS的模拟速度,时序损失平均值为0.92%.
焦帅徐卫志唐士斌范东睿孙凝晖
LU分解在众核结构仿真器上的指令级调度研究被引量:5
2011年
随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。
余磊刘志勇宋风龙叶笑春
关键词:计算机体系结构加速比指令级并行LU分解
全局图像特征分析与实时层次化消失点检测被引量:1
2013年
为了使道路场景的消失点检测能够适应不同的道路条件,提出基于全局图像特征的层次化消失点检测方法。通过全局图像特征提取全局道路特征,将道路分为4类并粗粒度定位道路区域。根据分类选择提取道路标识或边缘特征进行尺度变换的线段检测或区域分割并投票消失点集,再选择使用逆透视仿射变换或色彩纹理信息验证获得有效消失点。通过图像预处理移除道路车辆及阴影干扰,进一步提高检测精度。实验证明道路特征分类有效,在光照阴影、色彩纹理及遮挡等条件各异的场景中,层次化消失点检测方法均获得实时鲁棒的检测结果,比现有在复杂场景平均误差较小的基于本征直线方向与色彩纹理的检测方法精度与效率分别提高37.5%和20%。
孙愿卢鸿波张志敏
众核处理器高效片上访存机制研究
日益加剧的Memory Wall问题成为限制处理器性能进一步提高的主要因素之一,片上可配置SRAM可以更灵活地发挥和利用程序访存的局部性,从而引入众核处理器的设计当中。为充分发挥这种优势,针对片上可配置SRAM的访存队列...
范灵俊安述倩李杨张浩王达范东睿
关键词:矩阵乘
文献传递
一个针对并行模拟引擎的性能评测实例
2013年
SimK是由中科院计算所体系结构国家重点实验室开发的一个并行离散时间模拟引擎。基于已经发布的SimK1.0版本,对任务划分及同步推进阻塞控制进行了功能扩展,开发了SimK的1.1版本。同时由于缺乏一个专门对SimK模拟性能评测的Benchmark以及全面的评测结果,首先讨论了并行模拟引擎Benchmark的设计准则,之后介绍了开发的Benchmark-PassBall,并且使用它对SimK的强弱扩展性、组件负载不均衡情况下的强扩展性进行了评测,同时对比了组件负载不均衡和均衡情况下的加速比,探讨了模拟计算量的变化对模拟加速比的影响,并讨论了Benchmark的适用性。通过实验讨论得出:a)PassBall可以作为并行模拟引擎SimK性能评测的Benchmark,亦可用于其他并行模拟引擎性能的评测;b)SimK具有良好的强弱扩展性;c)负载平衡和模拟计算量都会对并行模拟加速比产生影响。
吴志敏吕慧伟陈明宇
关键词:扩展性BENCHMARK
一种带有无效缓存路访问过滤机制的低功耗高速缓存
2012年
功耗是当今处理器设计领域的重要问题之一.随着多核处理器的普及,片上缓存占有了越来越多的芯片面积和功耗.提出一种带有无效缓存路访问过滤机制的低功耗高速缓存结构来降低CPU的动态功耗,具体为,通过无效缓存块的预先检查(Pre-Invalid Way Checking,PIWC)消除对无效缓存路的访问,及通过不匹配缓存路的预先检测(Pre-Mismatch Way Detecting,PMWD)消除对tag低位不匹配缓存路的访问.对实际程序的测试表明,65.2%-88.9%缓存路的无效访问可以通过以上方法被消除,约60.9%-85.6%由缓存访问带来的动态能耗从而被降低.同时,跟tag-data顺序访问方法相比,对于大多数程序,我们的方法可以获得5.1%-13.8%的节能效果提升.
范灵俊唐士斌张轮凯郑亚松张浩
关键词:动态功耗
众核处理器片上同步机制和评估方法研究被引量:11
2010年
同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间.
徐卫志宋风龙刘志勇范东睿余磊张帅
关键词:硬件支持微程序
采用旋转匹配的二进制局部描述子被引量:11
2013年
针对二进制描述子主方向计算误差影响图像匹配正确性的问题,提出了一种旋转不变的二进制描述子构造和匹配方法。在以特征点为中心的同心圆周上等间隔选取采样点,按照旋转不变的模式选取采样点对进行灰度值比较,将比较结果连接成二进制串,作为区域的描述子。匹配时比较描述子在所有旋转模式中的汉明距离,取最小值作为描述子的距离,实现不依赖于主方向的旋转不变性。配合多尺度特征检测方法,将采样模式进行缩放,并对图像进行亚像素插值,实现尺度不变性。描述子匹配的实验结果表明,本文方法在旋转、尺度和光照变换下的匹配效果比当前依赖主方向的二进制描述子方法具有更高的鲁棒性。
卢鸿波孙愿张志敏
关键词:图像匹配
基于GPU的高性能稀疏矩阵向量乘及CG求解器优化被引量:7
2013年
以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。
王迎瑞任江勇田荣
关键词:GPU
共2页<12>
聚类工具0