张云泉
- 作品数:174 被引量:400H指数:11
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术理学经济管理天文地球更多>>
- 基于OpenCL的图像重映射算法优化研究被引量:3
- 2013年
- 图像重映射(Remap)算法是典型的图像变化算法。在图像放缩、扭曲、旋转等领域有着广泛的应用。随着图片规模和分辨率的不断提高,对图形映射算法的性能提出了越来越高的要求。本文在充分考虑不同GPU平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下图像映射(Remap)算法在不NGPU平台上的高效实现方式。并从片外内存访存优化,向量化计算,减少动态指令等多个优化角度考察了不同优化方法在不同GPU平台上对性能的影响,提出了在不同GPU平台间实现性能移植的可能性。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMDHD5850GPU上相对于CPU版本取得114.3--491.5倍的加速比,相对于CUDA版本(现有GPU算法的实现)得到1.01~1.86的加速比,在NIVIDIAC2050GPU上相对CPU版苓取得100.7~369.8倍的加速比,相对于CUDA版本得到0.95~1.58的加速比。有效验证了本文提出的优化方法的有效性和胜能可移植性。
- 吴再龙张云泉龙国平徐建良贾海鹏
- 关键词:OPENCL跨平台
- HPCC在IBM刀片机群上的诊断测试与结果分析
- 2009年
- 在IBMJS21 Blade Center上进行2次HPCC测试,介绍HPCC的结果分析方法,并采用分层模型AHPCC对HPCC的测试结果进行分析。其目的是通过在高性能机群上执行HPCC测试说明HPCC测试对机群系统的评价和诊断能力。实验发现,在之前的HPL测试结果一直不理想并且无法更进一步发现和解决问题的情况下,采用HPCC测试能够较好地评价系统和诊断系统问题。通过分层模型的评价,能够得到更多关于目标系统的性能参数和发现可能的性能瓶颈,为系统设计及构建积累有价值的经验。
- 王宣强王向前张云泉
- 2016年中国高性能计算机发展现状分析与展望被引量:4
- 2016年
- 本文根据2016年11月发布的中国高性能计算机TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。我们发现,由于神威太湖之光超级计算机的发布,中国TOP100的平均Linpack性能继续保持比国际TOP500平均Linpack性能高的局面,且TOP100的入门性能门槛仍然超过TOP500。随着联想对IBM X86服务器并购的完成,中国TOP100上的超级计算系统已经几乎全部都是国产超算系统,曙光、联想和浪潮三强争霸的局面已经形成。在此基础上,本文根据十五届排行榜积累的性能数据和能够得到的其他公开历史数据,对未来几年中国大陆高性能计算机的发展趋势进行了分析预测。我们去年的预测累计Linpack性能将在2016年间达到100Petaflops和峰值100Petaflops的机器将在2016年出现都成功实现,预测准确。根据新的数据,我们认为:累计Linpack性能将在2017年到2018年间达到1000Petaflops,峰值Exaflops的机器将在2018年到2019年间出现。
- 张云泉
- 关键词:高性能计算机TOP100排行榜
- SpMV的自动性能优化实现技术及其应用研究被引量:15
- 2009年
- 在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大小选择算法,将稀疏矩阵分成小的稠密分块,重用保存在寄存器中向量x元素,可以提高该计算内核的性能.剖析和总结了OSKI软件包所采用的若干关键优化技术,并进行了实际应用性能测试.测试表明,在实际应用这些优化技术的过程中,应用程序对SpMV的调用次数要达到上百次的量级,才能抵消由于应用这些性能优化技术所带来的额外时间开销,取得性能加速效果.在Pentium4和AMD Athlon平台上,测试了10个矩阵,其平均加速比分别达到了1.69和1.48.
- 袁娥张云泉刘芳芳孙相征
- 关键词:稀疏矩阵向量乘启发式算法
- 2023年中国高性能计算机发展现状分析与展望
- 2023年
- 【目的】本文根据2023年11月发布的中国高性能计算机TOP 100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。【结果】中国TOP 100的入门性能门槛仍然超过TOP 500。中国TOP 100上的超级计算系统冠军再次更新,其Linpack性能达487 PFlops。联想为系统数量冠军,联想、曙光和浪潮三强争霸的局面逐步演化为联想和浪潮的竞争。算力服务这一应用领域的占比继续增长,充分反映当前算力经济发展趋势。【结论】本文根据二十二届排行榜的性能数据,详细阐述了算力经济发展现状,并对未来中国内地高性能计算机的发展趋势进行了分析预测。
- 张云泉袁良袁国兴李希代
- 关键词:高性能计算机TOP100排行榜
- P-QuantWiz:一种基于质谱的并行非标记定量软件被引量:1
- 2009年
- 本文设计并实现了基于质谱的非标记定量软件QuantWiz,通过改变肽段定量的顺序,提高了定量软件的时间局部性和质谱数据缓存的命中次数。分析了QuantWiz的多种数据并行策略,设计并实现了按保留时间划分的并行定量软件P-QuantWiz。通过实验验证P-QuantWiz具有良好的并行效率,当进程数为32时,并行效率为63%。
- 胡泽林张云泉王靖张先轶
- 关键词:质谱色谱峰并行化
- 面向多核集群的MPI任务并行扩展
- 则应用的任务并行化是高性能计算领域研究的热点.本文面向多核集群架构,对最流行的并行编程模型MPI进行扩展,使其有效支持非规则任务并行.主要研究内容及创新包括:在共享内存上对MPI单边通信进行优化,消除了额外内存拷贝开销;...
- 李士刚张云泉贾海鹏袁良
- 2021年中国高性能计算机发展现状分析被引量:5
- 2021年
- 根据2021年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域和部署机构等方面进行了讨论分析,同时对未来发展进行了展望。
- 袁国兴张云泉袁良
- 关键词:高性能计算机排行榜测评技术
- 有限元单元计算子程序的OpenMP并行化被引量:11
- 2008年
- Intel和AMD双核乃至4核处理器的推出,使得并行计算已经普及到PC机。为了充分利用多核,需要对原有程序进行多线程改造,使其充分利用多核处理带来的性能提升。该文利用共享存储编程的工业标准OpenMP对有限元方法涉及的单元计算子程序进行了并行化实现。在机群的一个双CPU的SMP节点上的测试表明,共享并行化使得该单元子程序的性能提高了一倍。
- 宋刚蒋孟奇张云泉李玉成
- 关键词:并行编程多线程多核有限元
- 数值软件自适应性能优化搜索过程评价技术研究被引量:2
- 2010年
- 随着计算机硬件的快速变化,如何充分利用计算机资源,使软件性能尽可能逼近处理器峰值是人们关心的问题.针对特定硬件平台手工优化程序,或者依赖编译器优化技术,存在人工介入,难与硬件更新同步等问题.而采用自适应性能优化技术实现的高性能数学软件包(SANS)如FFTW,ATLAS,PHiPAC,OSKI等,可有效解决前两种方法存在的问题,降低开发成本,提高软件可移植性.针对自适应性能优化技术中,优化参数搜索过程十分耗时的问题,提出对优化搜索过程的评价指标Pt,并给出用此指标控制优化搜索过程的方法.实验表明运用该指标可以在较短的时间内得到一个合理的性能值.
- 孙相征张云泉王宣强王磊
- 关键词:自适应ATLAS