任江勇
- 作品数:4 被引量:7H指数:1
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向异构架构的混合精度有限元算法及其CUDA 实现
- 长期以来,单精度似乎与科学计算无缘,然而从体系结构看,混合精度计算可以充分发挥向量部 件、GPGPU 设备的单精度性能,提供更高效能,如降低通讯带宽要求、提高数据传输和通讯效率等。混合精 度显格式有限元算法,结合材料强非...
- 刘建华王朝尉任江勇田荣
- 关键词:并行计算浮点运算
- 基于GPU的高性能稀疏矩阵向量乘及CG求解器优化被引量:7
- 2013年
- 以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。
- 王迎瑞任江勇田荣
- 关键词:GPU
- 面向异构架构的混合精度有限元算法及其CUDA实现被引量:1
- 2012年
- 长期以来,单精度似乎与科学计算无缘,然而从体系结构看,混合精度计算可以充分发挥向量部件、GPGPU设备的单精度性能,提供更高的效能,如降低通讯带宽要求、提高数据传输和通讯效率等。混合精度显格式有限元算法,结合材料强非线性多尺度有限元程序msFEM,实现了GPGPU上的有效加速。实验结果表明:混合精度显格式有限元程序实现了90%以上的计算通过单精度完成,其计算结果与全部使用双精度的结果相一致。该算法可以使得在不支持双精度格式的加速卡上实现科学计算功能。在支持双精度浮点格式的GPU上,混合精度算法与全部采用双精度计算相比其加速效果提高了1.6~1.7倍。
- 刘建华王朝尉任江勇田荣
- 关键词:GPGPU有限元并行计算
- 数万核级与异构架构有限元程序可扩展性测试与分析
- 本文对多尺度有限元程序msFEM的CPU、GPU双精度以及GPU混合精度三个版本进行了测试.msFEM_CPU在美国橡树岭国家实验室的Jaguar上实现了从2万到20万核的可扩展性测试,在80亿自由度的测试规模下,20万...
- REN Jiang-yong任江勇WANG Chao-wei王朝尉WANG Ying-rui王迎瑞TIAN Rong田荣
- 关键词:并行计算图形处理单元可扩展性