国家自然科学基金(60873113)
- 作品数:4 被引量:11H指数:3
- 相关作者:赵永华吴洋纪国良陈尧赵莲更多>>
- 相关机构:中国科学院中国科学院大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术理学自然科学总论更多>>
- 基于CUDA实现MRRR算法并行
- 2012年
- MRRR(Multiple Relatively Robust Representations)算法是求解对称三对角矩阵本征值问题高效、精确的算法之一。在分析MRRR算法及CUDA(Compute Unified Device Architecture)并行体系结构的基础上,针对算法的可并行性,采用单指令多线程并行方式实现了基于CUDA的MRRR算法并行,并从存储结构方面优化算法。实验结果显示,与LAPACK库中串行MRRR实现相比,并行方法在保证精度的基础上获得了20倍的加速比,进而从计算精度和计算时间上说明MRRR算法适合在GPU上并行。
- 汪丽杰赵永华
- 关键词:CUDA本征问题
- 一类大规模稀疏矩阵特征问题求解的并行算法被引量:5
- 2013年
- 本文提出一种求解大规模稀疏矩阵特征问题的并行共轭梯度算法.为了提高算法的并行效率,设计了负载平衡的行划分方式,实现了计算和通信重叠的稀疏矩阵重排序方法,通过预处理减少计算过程中各进程间消息传递的通信量.另外,基于多核处理器高性能并行计算,实现了MPI和细粒度(线程级)OpenMP混合并行算法.在深腾7800并行计算机上对并行算法进行了测试,结果表明在进程数增多时并行算法可保持通信时间稳定性,在并行计算机上有很好的扩展性,适合大规模稀疏特征问题的求解.
- 吴洋赵永华纪国良
- 关键词:共轭梯度法负载均衡
- HPSEPS软件包及其千核应用被引量:3
- 2011年
- 基于自主开发的并行软件包HPSEPS所提供的大规模对称特征问题并行求解器,讨论了对称特征问题的并行计算方法,给出了HPSEPS的架构.HPSEPS软件包开发基于多级并行实现技术,并提供包括求解稠密和稀疏特征问题在内的多个并行求解器.在深腾7000平台上对不同大规模特征问题的并行求解进行了性能测试,实验结果表明HPSEPS在上千处理器核上具有很好地可扩展性.通过第一性原理,在上千处理器核上将Si金刚石结构计算由400个原子提升到2 000个原子,并给出了1 200个原子碳纳米管和纳米量子点计算.
- 赵永华迟学斌王武
- 关键词:对称矩阵LANCZOS算法
- GPU加速不完全Cholesky分解预条件共轭梯度法被引量:3
- 2015年
- 不完全Cholesky分解预条件共轭梯度(incomplete Cholesky factorization preconditioned conjugate gradient,ICCG)法是求解大规模稀疏对称正定线性方程组的有效方法.然而ICCG法要求在每次迭代中求解2个稀疏三角方程组,稀疏三角方程组求解固有的串行性成为了ICCG法在GPU上并行求解的瓶颈.针对稀疏三角方程组求解,给出了一种利用GPU加速的有效方法.为了增加稀疏三角方程组求解在GPU上的多线程并行性,提出了对不完全Cholesky分解产生的稀疏三角矩阵进行分层调度(level scheduling)的方法.为了进一步提高稀疏三角方程组求解的并行性能,提出了在分层调度前通过近似最小度(approximate minimum degree,AMD)算法对系数矩阵进行重排序、在分层调度后对稀疏三角矩阵进行层排序的方法,降低了分层调度过程中产生的层数,优化了稀疏三角方程组求解的GPU内存访问模式.数值实验表明,与利用NVIDIA CUSPARSE实现的ICCG法相比,采用上述方法性能可以获得平均1倍以上的提升.
- 陈尧赵永华赵慰赵莲
- 关键词:预条件共轭梯度法图形处理器