王迎瑞
- 作品数:5 被引量:11H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 异构架构的新型高效协同模式
- 关于异构架构需要重新检讨的一个普遍共识是:该平台仅适用于计算密集、热点突出类算法。这一“误解”来源于目前的主从协同模式,而非硬件架构。在传统的主从协同模式下,异构系统的加速效果受限于算法特征。而我们提出的对等协同模式,将...
- 田荣王迎瑞
- 关键词:对等模式功耗
- 基于GPU的高性能稀疏矩阵向量乘及CG求解器优化被引量:7
- 2013年
- 以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。
- 王迎瑞任江勇田荣
- 关键词:GPU
- 光滑粒子流体动力学方法的高效异构加速被引量:4
- 2017年
- 目前,光滑粒子流体动力学方法的GPU加速几乎都是基于简化的Euler控制方程,完整的Navier-Stokes方程的GPU实现非常少,且对其困难、优化策略、加速效果的描述较为模糊.另一方面,CPU-GPU协同方式深刻影响着异构平台的整体效率,GPU加速模型还有待进一步探讨.文中的目的是将自主开发的、基于Navier-Stokes方程的SPH应用程序petaPar在异构平台上进行高效加速.文中首先从数学公式的角度分析了Euler方程和NavierStokes方程的计算特征,并总结了Navier-Stokes方程在GPU加速中面临的困难.由于Euler方程只含有简单的标量和向量计算,是典型的适合GPU的计算密集轻量级kernel;而完整形式的Navier-Stokes方程涉及复杂的材料本构和大量张量计算,需要面对GPU上大kernel带来的系列问题,如访存压力、cache不足、低占用率、寄存器溢出等.文中通过减少粒子属性、提取操作到粒子更新、利用粒子的重用度、最大化GPU占用率等策略对Navier-Stokes方程的粒子交互kernel进行优化,具体实现见5.1节.同时,文中调研了三种GPU加速模型:热点加速、全GPU加速以及对等协同,分析了其开发投入、应用范围、理论加速比等,并深入探讨了对等协同模型的通信优化策略.由于通信粒子的不连续分布,GPU端通信粒子的抽取、插入、删除等操作本质上是对不连续内存的并行操作,会严重影响CPU-GPU的同步效果,而相关文献对此问题没有阐述.我们通过改进粒子索引规则解决此问题:粒子排序时不仅考虑网格编号,还要考虑网格类型,具体实现见5.2.3节.基于Euler方程和Navier-Stokes方程实现并分析了三种GPU加速模型.测试结果显示,三种模型下,Euler方程分别获得了8倍、33倍、36倍的加速,Navier-Stokes方程分别获得了6倍、15倍、20倍的加速.全GPU加速均突破了热点加速的加速比理论上限,对等协同比之全GPU加速又可以获得进一步提高.特别是
- 王迎瑞黎雷生王景焘田荣
- 关键词:光滑粒子流体动力学
- 基于GPU的高性能稀疏矩阵向量乘及CG求解器优化
- 以有限元/有限差分等为代表的一类数值方法,总体矩阵常常具有“带状”、稀疏的特点.本文针对“带状”稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法“bDIA”.基于nVidia的GTX280系列GPU进行测试,测试...
- WANG Ying-Rui王迎瑞REN Jiang-Yong任江勇TIAN Rong田荣
- 关键词:偏微分方程图像处理器