王武
- 作品数:21 被引量:33H指数:3
- 供职机构:中国科学院计算机网络信息中心更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国科学院战略性先导科技专项更多>>
- 相关领域:自动化与计算机技术理学天文地球自然科学总论更多>>
- HPSEPS软件包及其千核应用
- 基于自主开发的并行软件包HPSEPS所提供的大规模对称特征问题并行求解器,讨论了对称特征问题的并行计算方法,给出了HPSEPS的架构。HPSEPS软件包开发基于多级并行实现技术,并提供包括求解稠密和稀疏特征问题在内的多个...
- 赵永华迟学斌王武
- 关键词:对称矩阵
- 树结构在N体问题中的应用被引量:10
- 2008年
- N体问题的数值模拟在每个时间步都需要计算每对粒子之间的相互作用,其复杂度为O(N2)。采用树结构代码不仅减少了存储开销,而且更有利于快速计算和并行划分。Barnes-Hut算法(BHA)和快速多极子方法(FMM)都是基于树结构的快速算法。BHA可快速计算各点受到的场力,计算复杂度为O(NlogN),但计算精度通常只有1%;FMM通过层次划分和位势函数的多极子展开计算各点位势,其复杂度为O(N),却能达到任意精度。数值结果表明,树结构的并行效果也很好。
- 王武冯仰德迟学斌
- 关键词:N体问题树结构快速多极子方法
- Gadget-2在一个加速卡异构平台上的移植与优化
- 2022年
- 【目的】本文在国产加速卡异构平台上,对基于BH-树方法和粒子网格方法的并行天文N体模拟软件Gadget-2进行了移植优化。【方法】基于HIP将Gadget-2中最耗时的短程力计算部分移植到加速卡上,包括本地树的遍历,并对结构体数组进行重构,同时充分利用寄存器与共享内存,提高设备端的访存效率。【结果】数值结果表明,移植优化的版本整体性能加速13.27倍,短程力计算加速35.67倍,并行效率达到57.29%,功率谱结果验证了移植优化的正确性。【结论】本文实现了天文N体模拟软件Gadget-2在加速卡异构平台上的移植和优化,并为大规模宇宙学模拟提供支撑。
- 赵文龙王武
- 关键词:N体问题HIP
- 基于FMM-PM方法的宇宙N体模拟在GPU上的实现和优化被引量:5
- 2020年
- 【目的】本文在多GPU平台上,对基于快速多极子方法(FMM)和粒子网格方法(PM)的天文N体模拟软件PHoToNs的核心函数进行CUDA加速实现和性能优化。【方法】主要优化方法包括算法的参数优化、页锁定内存和CUDA流优化、混合精度和快速数学库优化等。【结果】优化后的短程力相互作用核心函数在Titan V的GPU平台上采用4张GPU卡的计算速度相对采用4个Intel Xeon CPU核提高了约410倍。【结论】本文的优化技术可为其它高性能GPU异构平台上的进一步算法研究和超大规模天文N体模拟提供支撑。
- 扶月月王武王乔
- 关键词:快速多极子方法GPU
- 复合场积分方程的快速并行求解
- 矩量法(MOM)离散复合场积分方程(CFIE)得到的线性方程组是稠密的,它可以用迭代法(比如本文中的TFQMR方法)求解.每次迭代中,矩阵与向量的乘积的复杂度为O(N2).采用快速多极子方法(FMM),可将其降到O(N1...
- 王武冯仰德迟学斌
- 关键词:矩量法多层快速多极子方法并行计算
- 文献传递
- HPSEPS软件包及其在千核上的并行计算性能被引量:1
- 2010年
- 基于自主开发的并行软件包HPSEPS(High performance Symmetric Eigenproblem Parallel Solver)所提供的大规模对称特征问题并行求解器,讨论了对称特征问题的并行计算方法,给出了HPSEPS的架构。在深腾7000平台上使用上千核对不同大规模特征问题的并行求解进行了性能测试,给出了1728个原子的Si金刚石结构计算和2048核上纳米量子点计算,结果表明该并行软件包计算精确高,在数千处理器核上具有好的可扩展性。
- 赵永华迟学斌王武
- 关键词:对称矩阵
- 稀疏对称矩阵的LDL^(T)分解在GPU上的高效实现被引量:1
- 2021年
- 【目的】LDLT分解是求解很多稀疏对称线性系统的有效工具之一,尤其是对于迭代法难以收敛的问题。然而在GPU上实现LDLT分解存在困难,因为分解过程中存在数据依赖和不规则的数据访问。【方法】本文设计并实现了一个基于GPU的稀疏对称矩阵的LDLT分解,它采用Cholesky的符号分解和右视分解算法、稀疏矩阵依赖图的层次划分,以及CUDA的动态并行核调度技术,算法的所有三层循环都并行化,从而获得更高的并行度。【结果】实验结果表明,针对稀疏对称矩阵的一个典型的测试集,在GPU上实现的LDLT分解相对于UMFPACK最高加速46.2倍。【结论】LDLT分解CUDA实现策略可为高性能GPU异构平台上开展稀疏矩阵的高性能数值算法研究与实现提供借鉴。
- 陈鑫峰王武
- 关键词:GPU
- 一种基于GPU的N体模拟程序性能优化方法
- 本发明涉及一种基于GPU的N体模拟程序性能优化方法,包括以下步骤:将相关索引信息传入到GPU使得构造短程力列表的过程迁移到GPU上,同时使得构造列表的过程并行化;改变线程块调度的方式,通过GPU的流水调度,将粒子信息轮流...
- 王武赵文龙
- 文献传递
- HPSEPS在元与神威·太湖之光上的移植和性能分析
- 2018年
- "神威·太湖之光"高效能计算机系统是世界上首台峰值运算速度超过10亿亿次量级的超级计算机,HPSEPS (High Performance Symmetric Eigenproblem Solvers)是自主开发的大规模对称稠密矩阵特征问题并行求解器,包括标准对称稠密矩阵特征问题的并行计算方法,对大规模数据问题的计算,表现出较好的性能,本文分别在中科院的"元"超级计算机上和神威·太湖之光超级计算机上进行了移植,对比了两种超级计算机的系统性能,并且在"神威·太湖之光"上分别链接适合其异构众核结构的xMath数学库和mkl数学库,对求解器在链接两种不同数学库的计算机效果进行了测试与分析。
- 李燕赵永华王武赵莲
- 多层快速多极子方法的快速插值被引量:2
- 2011年
- 多层快速多极子方法(MLFMM)可用来加速迭代求解由Maxwell方程组或Helmholtz方程导出的积分方程,其复杂度理论上是O(N log N),N为未知量个数.MLFMM依赖于快速计算每层的转移项,以及上聚和下推过程中的层间插值.本文引入计算类似N体问题的一维快速多极子方法(FMM1D).基于FMM1D的快速Lagrange插值算法可将转移项的计算复杂度由O(N^(1.5))降低到O(N).运用FMM1D与FFT混合的快速谱插值算法可将层间插值的计算复杂度由O(K^2)降低到O(K log K),K为插值取样点数.数值结果显示了基于这两种快速插值的MLFMM具有近似线性的时间复杂度.
- 王武冯仰德迟学斌
- 关键词:积分方程多层快速多极子方法