您的位置: 专家智库 > >

赵永华

作品数:57 被引量:103H指数:5
供职机构:中国科学院计算机网络信息中心更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术理学电子电信自然科学总论更多>>

文献类型

  • 38篇期刊文章
  • 9篇会议论文
  • 8篇专利
  • 1篇学位论文
  • 1篇科技成果

领域

  • 42篇自动化与计算...
  • 6篇理学
  • 2篇电子电信
  • 1篇经济管理
  • 1篇天文地球
  • 1篇自然科学总论

主题

  • 20篇矩阵
  • 8篇对称矩阵
  • 8篇对角矩阵
  • 7篇三对角矩阵
  • 7篇并行计算
  • 5篇对角化
  • 5篇特征值
  • 5篇CUDA
  • 5篇GPU集群
  • 5篇处理器
  • 4篇软件包
  • 4篇排序
  • 4篇GPU
  • 4篇MPI+OP...
  • 3篇对称三对角矩...
  • 3篇预条件
  • 3篇图形处理器
  • 3篇主机
  • 3篇矩阵求逆
  • 3篇可扩展

机构

  • 51篇中国科学院
  • 21篇中国科学院大...
  • 6篇德州学院
  • 2篇中国科学院软...
  • 1篇中国科学技术...
  • 1篇中国科学院研...

作者

  • 57篇赵永华
  • 16篇迟学斌
  • 9篇赵莲
  • 6篇程强
  • 4篇赵慰
  • 4篇王武
  • 4篇陈江
  • 3篇徐凤生
  • 3篇陈尧
  • 3篇苏琳
  • 2篇赵韬
  • 2篇张影华
  • 2篇汪丽杰
  • 2篇赵涛
  • 2篇李瑞琳
  • 1篇韩在峰
  • 1篇张存峰
  • 1篇纪国良
  • 1篇陆忠华
  • 1篇冯仰德

传媒

  • 6篇数值计算与计...
  • 5篇科研信息化技...
  • 4篇计算机研究与...
  • 4篇计算机工程
  • 3篇计算机科学
  • 3篇德州学院学报
  • 2篇中国激光
  • 2篇计算机科学与...
  • 2篇2005高性...
  • 2篇2013全国...
  • 1篇华中科技大学...
  • 1篇计算机工程与...
  • 1篇微电子学与计...
  • 1篇软件学报
  • 1篇计算机系统应...
  • 1篇德州高专学报
  • 1篇计算机工程与...
  • 1篇郑州大学学报...
  • 1篇数据与计算发...
  • 1篇2006年全...

年份

  • 1篇2024
  • 6篇2023
  • 2篇2022
  • 1篇2021
  • 5篇2020
  • 2篇2019
  • 1篇2018
  • 1篇2017
  • 3篇2016
  • 5篇2015
  • 2篇2014
  • 3篇2013
  • 1篇2012
  • 3篇2011
  • 2篇2010
  • 3篇2007
  • 4篇2006
  • 5篇2005
  • 1篇2004
  • 2篇2002
57 条 记 录,以下是 1-10
排序方式:
GPU集群加速近似逆预条件CG并行求解器被引量:1
2015年
针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法。基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题。基于CPU与GPU协同计算、主机端页锁定内存和设备端计算与通信重叠的优化技术,实现了并行近似逆预条件与共轭梯度(conjugate gradient,CG)算法相结合的线性方程组混合并行求解器。数值实验表明,所提方法对AINV和SSOR-AI两类近似逆预条件,在多GPU上获得了很好的可扩展性和加速效果。
赵莲赵永华陈尧赵慰
关键词:预条件迭代法GPU集群
一种应用于图像混合集群处理系统的图像处理方法
本发明提供一种应用于图像混合集群处理系统的图像处理方法,图像混合集群处理系统包括至少一个管理节点和多个计算节点,管理节点和计算节点均采用CPU和GPU异构架构的混合集群系统模式,图像处理方法包括通过管理节点读取待处理的图...
赵永华赵莲于天禹苏琳
文献传递
'基础并行软件平台建设与应用'综述
'基础并行软件平台建设与应用'是中国科学院'十五'信息化建设规划项目'超级计算环境建设与应用'的重要内容之一.本文介绍了该项目开发的背景和内容,以及九大并行数值软件的基本概况、基本功能和简要评价.简单介绍了我们目前的工作...
程强迟学斌冯仰德王建赵永华陈江赵韬
关键词:并行计算软件开发
文献传递
一种图形处理器上基于延迟修正的批量矩阵求逆方法
本发明涉及一种图形处理器上基于延迟修正的批量矩阵求逆方法,该方法包括以下步骤:产生需要批量求逆的矩阵数据;依次将所述矩阵数据从主机内传输到图形处理器全局内存;在所述图形处理器上建立Grid列条和Block块与矩阵的对应关...
赵永华刘世芳黄荣锋
文献传递
HPSEPS软件包及其千核应用
基于自主开发的并行软件包HPSEPS所提供的大规模对称特征问题并行求解器,讨论了对称特征问题的并行计算方法,给出了HPSEPS的架构。HPSEPS软件包开发基于多级并行实现技术,并提供包括求解稠密和稀疏特征问题在内的多个...
赵永华迟学斌王武
关键词:对称矩阵
基于GPU架构的两层并行块Jacobi SVD算法被引量:2
2022年
SVD(singularvaluedecomposition)广泛应用于图像处理、人脸识别、信号降噪等领域。本文基于单边JacobiSVD算法给出了块间和块内两层并行的块JacobiSVDGPU算法.为了更好地利用GPU的共享内存,块间并行通过存储矩阵列块之间的内积解决了共享内存不足的问题.此外,块间并行还通过矩阵块操作技术提高数据利用率及数据预取技术实现数据访问和数据计算的重叠.块内并行通过直接更新矩阵列块之间的内积替代了更新矩阵列块以及更新矩阵列块之后计算矩阵列块之间内积的归约操作,增加了GPU线程的利用率.另一方面,块内并行将需要多次访问的数据存储于共享内存或寄存器,减少了对全局内存的访问从而提升了算法实现性能。在NVIDIATeslaV100GPU上的数值实验结果表明,本文的算法较Cusolver库有1.8×倍的加速,较MAGMA库中最快的算法加速达2.5×倍.
黄荣锋赵永华于天禹刘世芳
关键词:奇异值分解GPU
基于计算与通信重叠的稀疏矩阵-向量乘积及其在AMG中的应用被引量:1
2015年
本文针对代数多重网格(algebraic multigrid,AMG)并行实现中的稀疏矩阵-向量乘,建立了稀疏矩阵新的分布和数据存储模式,提出了一类具有最小通信量以及隐藏通信的新稀疏矩阵-向量乘并行算法,并实现了基于K-循环迭代的求解阶段并行算法.针对现代多核处理器,结合细粒度的并行编程模型,实现了MPI+OpenMP混合编程并行算法.通过同hypre软件包测试比较,在深腾7000集群上求解三维Laplace方程并行规模达到512核心时,并行求解阶段运行时间较hypre(high performance preconditioners)软件包提高了56%,在元集群上提高了39%,验证了算法的有效性.
赵莲赵永华迟学斌
关键词:数据存储格式
基于CUDA实现MRRR算法并行
2012年
MRRR(Multiple Relatively Robust Representations)算法是求解对称三对角矩阵本征值问题高效、精确的算法之一。在分析MRRR算法及CUDA(Compute Unified Device Architecture)并行体系结构的基础上,针对算法的可并行性,采用单指令多线程并行方式实现了基于CUDA的MRRR算法并行,并从存储结构方面优化算法。实验结果显示,与LAPACK库中串行MRRR实现相比,并行方法在保证精度的基础上获得了20倍的加速比,进而从计算精度和计算时间上说明MRRR算法适合在GPU上并行。
汪丽杰赵永华
关键词:CUDA本征问题
一类大规模稀疏矩阵特征问题求解的并行算法被引量:5
2013年
本文提出一种求解大规模稀疏矩阵特征问题的并行共轭梯度算法.为了提高算法的并行效率,设计了负载平衡的行划分方式,实现了计算和通信重叠的稀疏矩阵重排序方法,通过预处理减少计算过程中各进程间消息传递的通信量.另外,基于多核处理器高性能并行计算,实现了MPI和细粒度(线程级)OpenMP混合并行算法.在深腾7800并行计算机上对并行算法进行了测试,结果表明在进程数增多时并行算法可保持通信时间稳定性,在并行计算机上有很好的扩展性,适合大规模稀疏特征问题的求解.
吴洋赵永华纪国良
关键词:共轭梯度法负载均衡
基于SMP集群的MPI+OpenMP混合编程模型及有效实现被引量:41
2005年
SMP集群混合了两个内存模型:每个节点是一个共享存储的多处理器,而节点间使用分布存储。这一多级体系结构引起了编程模型和性能方面的问题。文章讨论了MPI+OpenMP混合编程模型的性能和不同的实现方法,提出了多粒度MPI+OpenMP混合编程方法。建立了对称三对角特征问题的多粒度混合并行算法,并在深腾6800超级计算机上同纯MPI算法作了性能方面的比较。结果表明,该混合并行算法具有更好的扩展性和加速比。
赵永华迟学斌
关键词:SMP集群混合编程模型
共6页<123456>
聚类工具0