赵莲 作品数:15 被引量:13 H指数:2 供职机构: 中国科学院计算机网络信息中心 更多>> 发文基金: 国家自然科学基金 国家重点实验室开放基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
HPSEPS在元与神威·太湖之光上的移植和性能分析 2018年 "神威·太湖之光"高效能计算机系统是世界上首台峰值运算速度超过10亿亿次量级的超级计算机,HPSEPS (High Performance Symmetric Eigenproblem Solvers)是自主开发的大规模对称稠密矩阵特征问题并行求解器,包括标准对称稠密矩阵特征问题的并行计算方法,对大规模数据问题的计算,表现出较好的性能,本文分别在中科院的"元"超级计算机上和神威·太湖之光超级计算机上进行了移植,对比了两种超级计算机的系统性能,并且在"神威·太湖之光"上分别链接适合其异构众核结构的xMath数学库和mkl数学库,对求解器在链接两种不同数学库的计算机效果进行了测试与分析。 李燕 赵永华 王武 赵莲一种数据的传输方法及系统 本发明涉及一种数据的传输方法及系统。所述数据的传输方法包括:用户客户端向数据访问协议转换器发送数据访问请求;所述数据访问协议转换器将所述数据访问请求转换为查询指令,将所述查询指令发送至后端程序客户端;所述后端程序客户端向... 姜金荣 任轩正博 赵莲 郝卉群 迟学斌 白一頔基于瓦片算法的并行QR分解及其实现 2016年 本文介绍了一种基于瓦片算法的稠密矩阵并行QR分解及其实现方法。瓦片算法的思想是将完整的矩阵分块,并使每个块内的数据连续存储。各个瓦片块先独立进行分解,其他块接收当前块分解产生的数据,来更新自身块内的矩阵。我们分别实现了串行瓦片算法和并行瓦片算法,采用基于MPI和OpenM P混合并行编程模型,在"元"超级计算机上验证了该并行算法,并与PLASMA软件包进行对比,程序效率和可扩展性优于PLASMA。在多个节点上运行时,展现了良好的扩展性。 曹冬冬 赵永华 赵莲关键词:QR分解 GPU集群加速近似逆预条件CG并行求解器 被引量:1 2015年 针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法。基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题。基于CPU与GPU协同计算、主机端页锁定内存和设备端计算与通信重叠的优化技术,实现了并行近似逆预条件与共轭梯度(conjugate gradient,CG)算法相结合的线性方程组混合并行求解器。数值实验表明,所提方法对AINV和SSOR-AI两类近似逆预条件,在多GPU上获得了很好的可扩展性和加速效果。 赵莲 赵永华 陈尧 赵慰关键词:预条件 迭代法 GPU集群 一种应用于图像混合集群处理系统的图像处理方法 本发明提供一种应用于图像混合集群处理系统的图像处理方法,图像混合集群处理系统包括至少一个管理节点和多个计算节点,管理节点和计算节点均采用CPU和GPU异构架构的混合集群系统模式,图像处理方法包括通过管理节点读取待处理的图... 赵永华 赵莲 于天禹 苏琳文献传递 高性能计算数值模拟框架软件研究进展 被引量:2 2021年 【背景】本世纪我国超级计算机得到迅速发展,为降低面向超级计算机并行编程难度,高性能编程框架已经成为高性能计算的研究方向之一。【方法】本文简要介绍了高性能数值模拟编程框架的研究目的,主要关注国内外结构网格和非结构网格编程框架的发展现状。【结论】面向E级计算机即将到来,框架软件的发展也需针对E级计算机的体系结构特征,调整底层数据结构和核心算法,提升并行可扩展性,增强对异构众核计算的支持,使其能具备支撑开发E级并行计算应用软件的能力。同时也需要结合领域专家的需求,不断拓展新领域新方向,针对新问题开发新的功能模块,以便应用到更多的科学计算领域。 何连花 赵莲 姜金荣 金钟关键词:编程框架 数值模拟 基于计算与通信重叠的稀疏矩阵-向量乘积及其在AMG中的应用 被引量:1 2015年 本文针对代数多重网格(algebraic multigrid,AMG)并行实现中的稀疏矩阵-向量乘,建立了稀疏矩阵新的分布和数据存储模式,提出了一类具有最小通信量以及隐藏通信的新稀疏矩阵-向量乘并行算法,并实现了基于K-循环迭代的求解阶段并行算法.针对现代多核处理器,结合细粒度的并行编程模型,实现了MPI+OpenMP混合编程并行算法.通过同hypre软件包测试比较,在深腾7000集群上求解三维Laplace方程并行规模达到512核心时,并行求解阶段运行时间较hypre(high performance preconditioners)软件包提高了56%,在元集群上提高了39%,验证了算法的有效性. 赵莲 赵永华 迟学斌关键词:数据存储格式 一种数据的传输方法及系统 本发明涉及一种数据的传输方法及系统。所述数据的传输方法包括:用户客户端向数据访问协议转换器发送数据访问请求;所述数据访问协议转换器将所述数据访问请求转换为查询指令,将所述查询指令发送至后端程序客户端;所述后端程序客户端向... 姜金荣 任轩正博 赵莲 郝卉群 迟学斌 白一頔基于聚集混合粗化的代数多重网格并行算法 被引量:1 2017年 为提高代数多重网格(algebraic multigrid,AMG)并行算法的可扩展性能,提出一种基于聚集粗化和最大独立集算法的混合并行粗化算法。在每个进程内部独立实现聚集粗化,在此基础上,进程间采用PMIS(parallel maximum independent set)算法对边界点进行修正。针对现代多核处理器,结合细粒度的并行编程模型,实现MPI+OpenMP混合编程并行算法。数值实验结果验证了该算法的有效性,对于求解二维五点Laplace方程在集群"元"上并行规模达到256核,相对于AGMG软件包求解总时间提高了74%,测试结果优于hypre软件包,可扩展到128核心。 赵莲 赵永华 迟学斌关键词:数据存储格式 混合编程 一种编程语言的转换方法及系统 本发明涉及一种编程语言的转换方法及系统,包括:将Fortran90程序代码进行预处理;提取Fortran90程序代码中的全局变量名称,根据use语句查找相应的mod文件,建立外部数组类型的变量与mod文件名称的映射;将F... 张峰 姜金荣 迟学斌 刘颖辉 赵莲 郝卉群文献传递