公共文化服务平台

一种基于RAM的降低异构多核切换开销的方法: 同一程序的不同执行阶段或者不同程序运行时行为特征不同.异构多核处理器包含多种类型处理器核,可以根据程序运行时的行为特征切换到性能、功耗合适的核.异构多核相对于同构多核处理器能够更好地满足性能和功耗要求,但是不同核间切换时...; 刘奇郝守青沈海华章隆兵; 关键词：寄存器重命名; 文献传递

支持短向量的32位快速加法器设计: 2010年; 研究和设计了一种面向多媒体应用的32位短向量快速加法器,该加法器以SK型并行前缀加法器为基础,通过有效控制进位链,实现了同时执行4个基于字节的加法,或者2个基于半字的加法,或者1个基于字的加法,或者1个基于单精度浮点数的比较运算.综合结果表明,此设计方法同传统的设计方法相比,电路面积接近,时序提高了10%,总体性能较优.; 刘学政张盛兵黄小平; 关键词：加法器进位链

众核处理器片上同步机制和评估方法研究被引量：11: 2010年; 同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间.; 徐卫志宋风龙刘志勇范东睿余磊张帅; 关键词：硬件支持微程序

Design and analysis of a UWB low-noise amplifier in the 0.18μm CMOS process: 2009年; An ultra-wideband （3.1-10.6 GHz） low-noise amplifier using the 0.18μm CMOS process is presented. It employs a wideband filter for impedance matching. The current-reused technique is adopted to lower the power consumption. The noise contributions of the second-order and third-order Chebyshev fliers for input matching are analyzed and compared in detail. The measured power gain is 12.4-14.5 dB within the bandwidth. NF ranged from 4.2 to 5.4 dB in 3.1-10.6 GHz. Good input matching is achieved over the entire bandwidth. The test chip consumes 9 mW （without output buffer for measurement） with a 1.8 V power supply and occupies 0.88 mm^2.; 杨袆高茁杨丽琼黄令仪胡伟武; 关键词：ULTRA-WIDEBAND CMOS

提高堆数据局部性的动态池分配技术被引量：4: 2011年; 动态内存分配在现代程序中被广泛使用.通用的内存分配器通常关注于降低运行时开销和内存利用率,而在发掘所分配对象之间的特性方面有所欠缺.文中展示了一个低开销的动态优化技术"动态池分配".它在运行时构造存储形状图,从中发掘动态分配对象之间的亲缘性,把具有亲缘性的对象聚集到一段内存区域(称为内存池)里,改善了它们的数据布局.作者在实际机器上实现了动态池分配原型系统,并在GCC--O3编译的一些大量使用堆数据的SPEC 2000和2006程序上进行了测试.原型系统在两台实际机器上获得了13.1%和11.8%的平均加速比,对一些程序的加速高达82.2%.此外,作者还研究了CPU的高速缓存大小对池分配效果的影响.; 王振江武成岗张兆庆; 关键词：动态优化

龙芯处理器上的TLB性能优化技术: TLB(translation look-aside buffer)是分页式虚拟存储系统用于加速虚实地址转换的必不可少的性能优化部件.TLB处于访存的关键路径上,对系统性能有着至关重要的影响.同时TLB失效开销大,是龙芯...; 张晓辉程归鹏从明; 关键词：龙芯处理器 TLB; 文献传递

H.264去块滤波算法在众核结构上的并行优化被引量：2: 2011年; 在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升.; 范灵俊颜成钢宋风龙马宜科范东睿; 关键词：H.264 去块滤波

PartitionSim:一个面向众核结构的并行模拟器被引量：2: 2011年; 该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程严格同步,维持时序精确.当模拟非交互部分时,主机线程通过异步运行,提高模拟速度,并且产生较小的时序损失.文中所述工作在一个16核的SMP机器上用PartitionSim模拟了千核规模的Godson-T众核结构.实验结果显示,PartitionSim展示出良好的加速比,达到最高25MIPS的模拟速度,时序损失平均值为0.92%.; 焦帅徐卫志唐士斌范东睿孙凝晖

一种基于反馈信息的地址寄存器提升方法: 2009年; 在MIPS,ALPHA,SPARC和PowerPC等体系结构中,对全局变量和静态变量的访问一般采用间接寻址的方式.由于变量地址和变量值不在同一数据段,使得数据访问的局部性不好.这样,每次访问变量地址会导致大量冗余的数据cache不命中访存操作.此外,这种寻址方式会产生两条连续的有数据依赖的操作,降低了程序的指令级并行性.提出了基于反馈信息的地址寄存器提升算法(address register promotion based on feedbacks,ARPF).该算法减少了对全局变量地址和静态变量地址的冗余访问,提高了程序的ILP(instruction level parallelism),同时避免了由于寄存器压力增加导致性能下降.在龙芯编译器①上实现了该算法.实验表明ARPF对SPEC CPU2000INT所有测试用例有1%～6%的性能提升.; 张超吕方王蕾冯晓兵; 关键词：指令级并行

LU分解在众核结构仿真器上的指令级调度研究被引量：5: 2011年; 随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。; 余磊刘志勇宋风龙叶笑春; 关键词：计算机体系结构加速比指令级并行 LU分解

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60736012)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(60736012)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈