创新研究群体科学基金(60921002) 作品数:17 被引量:79 H指数:5 相关作者: 范东睿 霍玮 冯晓兵 宋风龙 李丰 更多>> 相关机构: 中国科学院 中国科学院研究生院 中国科学院大学 更多>> 发文基金: 创新研究群体科学基金 国家重点基础研究发展计划 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
H.264去块滤波算法在众核结构上的并行优化 被引量:2 2011年 在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升. 范灵俊 颜成钢 宋风龙 马宜科 范东睿关键词:H.264 去块滤波 PartitionSim:一个面向众核结构的并行模拟器 被引量:2 2011年 该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程严格同步,维持时序精确.当模拟非交互部分时,主机线程通过异步运行,提高模拟速度,并且产生较小的时序损失.文中所述工作在一个16核的SMP机器上用PartitionSim模拟了千核规模的Godson-T众核结构.实验结果显示,PartitionSim展示出良好的加速比,达到最高25MIPS的模拟速度,时序损失平均值为0.92%. 焦帅 徐卫志 唐士斌 范东睿 孙凝晖全局图像特征分析与实时层次化消失点检测 被引量:1 2013年 为了使道路场景的消失点检测能够适应不同的道路条件,提出基于全局图像特征的层次化消失点检测方法。通过全局图像特征提取全局道路特征,将道路分为4类并粗粒度定位道路区域。根据分类选择提取道路标识或边缘特征进行尺度变换的线段检测或区域分割并投票消失点集,再选择使用逆透视仿射变换或色彩纹理信息验证获得有效消失点。通过图像预处理移除道路车辆及阴影干扰,进一步提高检测精度。实验证明道路特征分类有效,在光照阴影、色彩纹理及遮挡等条件各异的场景中,层次化消失点检测方法均获得实时鲁棒的检测结果,比现有在复杂场景平均误差较小的基于本征直线方向与色彩纹理的检测方法精度与效率分别提高37.5%和20%。 孙愿 卢鸿波 张志敏一个针对并行模拟引擎的性能评测实例 2013年 SimK是由中科院计算所体系结构国家重点实验室开发的一个并行离散时间模拟引擎。基于已经发布的SimK1.0版本,对任务划分及同步推进阻塞控制进行了功能扩展,开发了SimK的1.1版本。同时由于缺乏一个专门对SimK模拟性能评测的Benchmark以及全面的评测结果,首先讨论了并行模拟引擎Benchmark的设计准则,之后介绍了开发的Benchmark-PassBall,并且使用它对SimK的强弱扩展性、组件负载不均衡情况下的强扩展性进行了评测,同时对比了组件负载不均衡和均衡情况下的加速比,探讨了模拟计算量的变化对模拟加速比的影响,并讨论了Benchmark的适用性。通过实验讨论得出:a)PassBall可以作为并行模拟引擎SimK性能评测的Benchmark,亦可用于其他并行模拟引擎性能的评测;b)SimK具有良好的强弱扩展性;c)负载平衡和模拟计算量都会对并行模拟加速比产生影响。 吴志敏 吕慧伟 陈明宇关键词:扩展性 BENCHMARK 一种带有无效缓存路访问过滤机制的低功耗高速缓存 2012年 功耗是当今处理器设计领域的重要问题之一.随着多核处理器的普及,片上缓存占有了越来越多的芯片面积和功耗.提出一种带有无效缓存路访问过滤机制的低功耗高速缓存结构来降低CPU的动态功耗,具体为,通过无效缓存块的预先检查(Pre-Invalid Way Checking,PIWC)消除对无效缓存路的访问,及通过不匹配缓存路的预先检测(Pre-Mismatch Way Detecting,PMWD)消除对tag低位不匹配缓存路的访问.对实际程序的测试表明,65.2%-88.9%缓存路的无效访问可以通过以上方法被消除,约60.9%-85.6%由缓存访问带来的动态能耗从而被降低.同时,跟tag-data顺序访问方法相比,对于大多数程序,我们的方法可以获得5.1%-13.8%的节能效果提升. 范灵俊 唐士斌 张轮凯 郑亚松 张浩关键词:动态功耗 多核结构片上网络性能-能耗分析及优化方法 被引量:12 2013年 文中探讨了片上网络在执行真实并行程序时的能耗和性能关系,并提出了一种能耗/性能优化方法.首先,文中提出了一种精确的性能-能耗模型,在性能和能耗模型中同时划分出与频率相关和与频率无关的因素,并分析其对性能和能耗的影响;其次,在性能-能耗模型中建立并行开销、片外访存开销与片上网络规模(节点数)、频率之间的关系,同时引入了并行度、通信模型等与应用相关的因素,使该模型能够同时表达软硬件特性;第三,文中提出了一种基于该性能-能耗模型的性能-能耗优化方法,通过采集程序的通信模型、访存消息数量等数据选择适当的频率和网络节点数来获得片上网络能耗最低值或处理器性能最大值.最后,文中采用8个PARSEC并行程序验证前述模型的准确性并评价性能-能耗优化方法,结果显示文中性能-能耗模型相比传统模型更加精确吻合实验测量结果,性能-能耗优化方法也有效适用于不同种类的并行程序. 张帅 宋风龙 王栋 刘志勇 范东睿关键词:多核 片上网络 能耗优化 支持多核并行程序确定性重放的高效访存冲突记录方法 被引量:5 2012年 多核系统中并行程序执行过程的不确定性给程序调试带来了很大的困难.准确记录初始执行中冲突访存的次序是并行程序确定性重放的基础.提出了通过建立精确happens-before关系记录访存冲突的方法.此方法利用简洁高效的地址冲突检测机制确定冲突访存操作在执行中所处happens-before序关系的位置,可以抑制部分记录信息的产生,从而有效减少记录信息.与其他方式方法相比,可以进一步压缩17%的记录条数.采用逻辑向量时钟描述冲突访存操作间的happens-before关系,与采用标量时钟相比,可以避免happens-before关系的误识,降低重放执行时并行度的损失. 刘磊 黄河 唐志敏关键词:多核 众核处理器片上同步机制和评估方法研究 被引量:11 2010年 同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间. 徐卫志 宋风龙 刘志勇 范东睿 余磊 张帅关键词:硬件支持 微程序 一种提高时序安全属性静态检测实用性的方法 被引量:2 2012年 程序时序安全属性可以用有限状态自动机(FSM)来描述,对该属性的静态检测是当前研究的热点之一.该文提出了FSM切片技术,以需求驱动的模式抽取出关于时序安全属性等价的程序切片.该切片使检测规模减小、程序结构简化,因而减小了检测中组合爆炸情形出现的机会,最终使时序安全属性的静态检测在准确性和可伸缩性上都得到了提高.实验表明,FSM切片可以使Saturn的可伸缩性平均提高到原来的6.34倍,使Fastcheck的准确性平均提高到原来的1.20倍. 霍玮 李丰 丁兆伟 桑春雷 张兆庆 冯晓兵关键词:有限状态自动机 切片技术 采用旋转匹配的二进制局部描述子 被引量:11 2013年 针对二进制描述子主方向计算误差影响图像匹配正确性的问题,提出了一种旋转不变的二进制描述子构造和匹配方法。在以特征点为中心的同心圆周上等间隔选取采样点,按照旋转不变的模式选取采样点对进行灰度值比较,将比较结果连接成二进制串,作为区域的描述子。匹配时比较描述子在所有旋转模式中的汉明距离,取最小值作为描述子的距离,实现不依赖于主方向的旋转不变性。配合多尺度特征检测方法,将采样模式进行缩放,并对图像进行亚像素插值,实现尺度不变性。描述子匹配的实验结果表明,本文方法在旋转、尺度和光照变换下的匹配效果比当前依赖主方向的二进制描述子方法具有更高的鲁棒性。 卢鸿波 孙愿 张志敏关键词:图像匹配