“核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项(2009ZX01036-001-002)
- 作品数:25 被引量:89H指数:7
- 相关作者:安虹张云泉冯晓兵霍玮张兆庆更多>>
- 相关机构:中国科学院中国科学院研究生院中国科学院软件研究所更多>>
- 发文基金:国家科技重大专项国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术天文地球自然科学总论理学更多>>
- 一个支持访存带宽敏感调度的跨执行优化方法被引量:1
- 2014年
- 片外访存带宽是共享存储多核系统的主要性能瓶颈.访存带宽敏感的任务调度可以有效缓解并发程序间的访存竞争,提高系统吞吐率.然而调度策略的实施需要关于程序执行的先验知识,给系统用户增加了额外负担;另一方面,并发程序间的带宽竞争使得运行时收集的程序带宽需求信息不精确,影响了调度效果.在该文中,作者提出了一个低开销、对用户透明的跨执行优化方法解决上述问题.它在运行时识别程序的阶段性(phase)行为,并估算每个phase的独占执行性能;上述信息被存储到数据库中,在程序未来的执行中指导调度,并且信息精度随着程序的多次执行持续增加.上述过程使得带宽敏感调度策略的进行不再需要任何用户信息制导,并且优化了调度效果.作者在基于Intel Xeon处理器的8核系统上实现并评估了该系统,测试结果表明:相对于Linux操作系统(OS)默认的调度策略,该文的方法能平均提高系统吞吐率3.7%,对于某些特定程序组达8.5%.
- 徐地武成岗冯晓兵
- 关键词:进程调度总线竞争
- 天体大规模数值模拟软件性能优化
- 2010年
- 在百万亿次超级计算机深腾7000上进行了基于Aztec库和PETSc库的天体大规模数值模拟程序对比测试,并对性能测试结果进行了分析.实验结果表明,当8核/节点时,PETSc程序运行时间是Aztec程序的23.34%~41.10%,平均为29.31%;当4核/节点时,PETSc程序运行时间是Aztec程序的19.72%~31.34%,平均为24.97%.在测试过程中,还观察到同样的问题规模和处理器核数,每节点采用4个处理器核比采用8个处理器核时的运行时间,在基于Aztec库的情况下平均下降29%,在基于PETSc软件包的情况下平均下降36%.此外,还给出了对PETSc程序进一步对角线存储优化的结果.实验结果体现了深腾7000提供的有效支持,对软件下一步的优化研究有指导意义.
- 孙相征张云泉王婷杨超李力刚
- 关键词:可扩展性
- 异构平台上基于OpenCL的FFT实现与优化被引量:9
- 2011年
- 快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程环境。首先,在异构平台Cell和GPU上使用OpenCL实现了基于2的幂一维FFT,并对其进行了测试和分析,在Cell平台上当数据规模适中时它能够达到SDK性能的65%,当数据规模继续增大时,相对性能有所降低。此外,针对Nvidia Fermi平台,手工调优了小因子的FFT,使其性能接近于CUFFT的140%。
- 李焱张云泉王可赵美超
- 关键词:FFTOPENCLCUDAGPU快速傅立叶变换
- 龙芯3A上三个自适应FFT包的对比与分析
- 2012年
- FFT算法在计算机科学中具有广泛的应用,自适应FFT软件包以其良好的可移植性而备受研究人员和用户的青睐,龙芯3A是中科院计算所自主研发的四核CPU,采用RISC架构,兼容MIPS指令。主要对FFTW,UHFFT,SPIRAL这3类FFT自适应软件包进行研究。首先从搜索框架和代码产生器两方面总结了FFTW和UHFFT的异同,接着阐述了SPIRAL自动产生优化代码的三层架构实现原理,之后在国产CPU龙芯3A上对这3个软件包进行了性能测试,并结合龙芯的体系结构特点对结果作了分析对比。在最后总结了目前自适应FFT软件包的一般方法,为下一步开发自适应FFT软件包提供了思路。
- 赵美超张云泉刘益群李焱颜深根
- 关键词:SPIRALLOONGSONFFT
- 组网雷达估测降水系统并行化方案的设计与实现被引量:5
- 2012年
- 国家气象局天气组网雷达定量估测降水系统不仅拥有较大的计算量,而且具有较大的数据吞吐量,同时对实时性要求较高。如果缩短其执行时间,无疑将会带来巨大的收益。鉴于这些特点,使用VTune Amplifer XE对串行程序进行了热点分析和并行性分析,得出程序中有较多线程级并行性,从而制定了相应的并行化方案;然后使用Win32多线程和OpenMP两种技术对该程序在Intel四核处理器平台上进行了并行化。程序主要由单站处理和组网处理两部分组成。由于计算资源的限制,并行后的单站处理程序只有大约10%的性能提升,而组网处理程序则可以达到近似线性的性能提升。通过调整计算负载,并行化版本的加速比可以达到5.5。最后,可以得出该并行化方法适用于计算密集且数据吞吐量较大的一类应用。
- 吴石磊安虹李小强周伟刘谷魏学超
- 关键词:并行性分析OPENMP
- 流处理器的相变存储器主存性能优化被引量:2
- 2011年
- 将相变存储器(PCRAM)作为流处理器Imagine的主存储器,对其性能进行优化。建立(PCRAM)性能分析模型,针对PCRAM可写次数有限的缺陷,采用避免冗余位写技术,使PCRAM的生命周期延长3.4倍。利用PCRAM的非易失性,避免不必要的缓存行写回。分析访存调度算法对PCRAM性能的影响,结果表明,row/open调度算法性能较优,适合PCRAM使用。
- 郝秀蕊安虹李小强汤旭龙
- 关键词:相变存储器非易失性流处理器
- 分片式处理器上的谓词执行技术优化被引量:1
- 2012年
- 谓词执行能使分片式处理器充分利用众多的执行单元,开发指令级并行性.但因此形成的超块也使得分支误预测代价增大,所以提高分支预测器的性能至关重要.本文提出一种基于剖析信息决策的谓词执行技术,该技术利用剖析信息对谓词执行前后的执行周期进行估算,从而对分支的谓词执行进行决策.该技术使分支预测器的命中率提高了0.68%~3.50%,使系统性能提高了1.67%~8.33%.同时,利用select指令表示谓词化指令也消除了重命名阶段寄存器多定义问题.
- 邓春华安虹路璐王耀彬
- 关键词:谓词执行分支预测器
- Pview:一种基于PMU的支持并行程序性能分析的新方法被引量:4
- 2011年
- 近年来,随着并行编程的普及,性能监测和剖析已经成为计算机系统领域最重要的研究课题之一。PMU(Performance Monitoring Unit),即现代处理器里集成的微体系事件性能计数器,为性能监测提供了底层支持,使得在以极小的额外开销和极少的对目标程序的干扰的情况下对程序进行性能监测成为可能。Pview(Performance View)是一种在系统级支持对并行程序尤其是多线程程序进行性能监测与分析的工具,它同时支持全系统和针对特定进程(线程组)的性能事件直接计数或者抽样的分析方法。Pview在Linux操作系统平台上通过扩展内核2.6.30,实现了一个新的系统调用Pview来提供性能监测服务;同时与以模块方式实现的数据收集引擎协作,可以实现抽样并将大规模样本数据传输到用户空间供进一步分析。
- 闫洁徐恒阳安虹刘玉王耀彬
- 关键词:性能监测
- 一种提高时序安全属性静态检测实用性的方法被引量:2
- 2012年
- 程序时序安全属性可以用有限状态自动机(FSM)来描述,对该属性的静态检测是当前研究的热点之一.该文提出了FSM切片技术,以需求驱动的模式抽取出关于时序安全属性等价的程序切片.该切片使检测规模减小、程序结构简化,因而减小了检测中组合爆炸情形出现的机会,最终使时序安全属性的静态检测在准确性和可伸缩性上都得到了提高.实验表明,FSM切片可以使Saturn的可伸缩性平均提高到原来的6.34倍,使Fastcheck的准确性平均提高到原来的1.20倍.
- 霍玮李丰丁兆伟桑春雷张兆庆冯晓兵
- 关键词:有限状态自动机切片技术
- 行星流体动力学数值模拟程序的千核性能优化
- 2010年
- 基于百万亿次超级计算机深腾7000,对行星流体动力学数值模拟程序的性能优化进行了研究。首先,进行了从原基于Aztec库到PETSc库改进后的程序的8-2048核强可扩展性测试。测试结果表明,在每节点8核或4核时,PETSc程序运行时间平均是Aztec程序29.31%或24.97%。其次,针对该程序压力方程的系数矩阵特点,设计实现了CVRSD存储格式的SpMV优化,下一步将移植到基于PETSc库的行星流体动力学程序中。
- 张云泉王婷孙相征杨超李力刚
- 关键词:可扩展性