国家自然科学基金(60303020)
- 作品数:21 被引量:135H指数:8
- 相关作者:张云泉李玉成袁伟刘胜飞蒋孟奇更多>>
- 相关机构:中国科学院软件研究所中国科学院研究生院中国科学院数学与系统科学研究院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术理学化学工程一般工业技术更多>>
- 国产万亿次机群系统NPB性能测试分析被引量:15
- 2005年
- 对3个国产万亿次机群系统进行了NPB性能测试分析,重点研究大规模并行处理时(处理器数目达到上千个)的性能特点和趋势.分析了不同的处理器、互连网络等系统配置对NPB性能的影响,发现NPB的8个程序在3个万亿次机器上的性能特点和表现并不一致,表明国产高性能机群在设计上正在逐渐走出同质化的趋势,向多样化发展.进一步分析表明,目前NPB程序的可扩展性可以达到几百个处理器,但尚不能达到上千个处理器,NPB程序能发挥出的系统峰值的百分比仍然徘徊在10%左右,机群系统的并行可扩展性和应用程序对机器运算潜能的利用还需要进一步提高.对于处理器数目达到上千个的万亿次机群系统来说,对集合通信和细粒度通信能力的支持亟需提高.
- 袁伟张云泉孙家昶李玉成
- 关键词:性能评测NPB
- 基于机群架构的并行数据库中间件系统改进研究被引量:1
- 2007年
- 基于机群架构的高性能计算机已经被应用到很多领域,如大气预测、油藏模拟、CFD仿真模拟和Web服务等.随着数据量的爆炸式增长,传统的集中式的数据库系统已经难以满足各种应用的需求,基于机群式架构的并行数据库系统为增强海量数据的存储以及处理能力提供了一种途径.对以前实现的一个基于机群架构的并行数据库中间件系统ParaMidSQL进行了改进.通过对并行选择、并行排序、并行连接等关键操作的测试,给出对并行数据库中间件系统改进后的性能分析.
- 陈虎张云泉柳锴李玉成
- 关键词:并行数据库中间件MPI
- RAM(h)模型下SpMV存储访问复杂度的分析
- 2009年
- 稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h)分析SpMV两种实现形式的存储访问复杂度,同时在奔腾四平台上,测试了7个稀疏矩阵的SpMV性能,并统计了这两种算法中L1,L2,和TLB的缺失率,实验结果与模型分析的数据一致。
- 袁娥张云泉孙相征
- 关键词:稀疏矩阵向量乘
- Parallel Reservoir Integrated Simulation Platform For One Million Grid Blocks Case
- <正>This article first provides a brief introduction to the numerical reservoir simulation and a parallel numer...
- Pan Feng
- 文献传递
- 基于MPI和MySQL的并行数据库系统搭建
- 1引言并行数据库系统(Parallel Database System)以高性能、高可用和高扩充为目标,充分利用多处理器平台的工作能力,多个处理机协同处理,以达到更快的数据库响应速度和分析能力。
- 王璟张云泉李玉成
- 关键词:MYSQLMPISORTJOIN
- 文献传递
- 基于机群架构的并行数据库实现技术研究被引量:7
- 2008年
- 在总结了现有并行数据库实现模型的基础上,基于"半重写变换"模型[1]实现了一个并行数据库系统的原型。通过对数据划分/重划分、并行选择、并行排序、并行连接等关键操作的实验分析,指出了"半重写变换"模型存在的缺陷,并提出了一种混合式的改进模型。从理论上说,在机群架构下实现并行数据库系统,这种混合模型较单一模型更有优势。
- 柳锴唐雨新张云泉李玉成
- 关键词:并行数据库SMP机群数据划分
- 基于OpenCL的图像模糊化算法优化研究被引量:6
- 2012年
- 现代GPU一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(CUDA、OpenCL)都定义了特定程序设计接口(CUDA的纹理内存,OpenCL的图像对象)以便图像应用能利用相关硬件支持。以典型图像模糊化处理算法在AMD平台GPU的优化为例,探讨了OpenCL的图像对象在图像算法优化上的适用范围,尤其是分析了其相对于更通用的基于全局内存加片上局部存储进行性能优化的方法的优劣。实验结果表明,图像对象只有在图像为四通道且计算过程中需要缓存的数据量较小时才能带来较好的性能改善,其余情况采用全局内存加局部存储都能获得较好性能。优化后的算法性能相对于精心实现的CPU版加速比为200~1000;相对于NVIDIA NPP库相应函数的性能加速比为1.3~5。
- 张樱张云泉龙国平
- 关键词:AMDGPUBLUROPENCL图像对象
- GOTOBLAS一般矩阵乘法高效实现机制的研究被引量:9
- 2008年
- 对GOTOBLAS库(GOTO)的实现机制,尤其是其中的一般矩阵乘法部分的实现进行了分析。结合近年来的一些研究成果,讨论了如何高效地实现矩阵相乘操作,把存储层次对程序性能的影响提高到计算模型的高度。对比实验表明,GOTO库的性能远远高于没有考虑存储层次的一般BLAS库。证明了GOTO库性能上的优越性和将存储层次引入计算模型的必要性。
- 蒋孟奇张云泉宋刚李玉成
- 关键词:分块算法
- 基于机群架构的并行数据库中间件系统改进研究
- 基于机群架构的高性能计算机已经被应用到很多领域,如大气预测、油藏模拟、CFD仿真模拟和Web服务等.随着数据量的爆炸式增长,传统的集中式的数据库系统已经难以满足各种应用的需求,基于机群式架构的并行数据库系统为增强海量数据...
- 陈虎张云泉柳锴李玉成
- 关键词:并行数据库中间件MPI
- 文献传递
- 面向高性能数值计算的并行计算模型DRAM(h)被引量:18
- 2003年
- 提出了一个基于存储层次的新并行计算模型DRAM (h) ,并在该模型下对两个经典并行数值计算算法的不同实现形式 :四种形式并行下三角方程求解 (PTRS)和六种形式无列选主元并行LU分解 (PLU) ,进行了分析 .模型分析表明 ,具有近乎相同时间和空间复杂性的同一算法不同实现形式 ,在该模型下会有完全不同的存储复杂度 .作者在日立公司SR2 2 0 1MPP并行机、曙光 3 0 0 0超级服务器和中国科学院科学与工程计算国家重点实验室(LSEC)的 12 8节点LinuxCluster等三种并行计算平台上对模型分析结果进行了实验验证 .结果表明 ,该模型分析在绝大多数情况下都能较好地与不同实验平台上的实验结果吻合 .个别出现偏差的分析结果 ,在根据计算平台的存储层次特点修改模型分析的假定后 ,也能够进行解释 .这说明了该模型对不同形式的算法实现进行存储访问模式区分的有效性 .对在计算模型中加入指令 /线程级并行的可行性和方法的研究是下一步的工作 .
- 张云泉
- 关键词:存储器并行计算模型