张博为
- 作品数:4 被引量:13H指数:2
- 供职机构:哈尔滨工程大学计算机科学与技术学院更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金国家重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于可重构计算系统的矩阵三角化分解硬件并行结构研究被引量:6
- 2015年
- 可重构计算系统成为加速计算密集型应用的重要选择之一.在众多受到关注的计算密集型问题中,矩阵三角化分解作为典型的基础类应用始终处于研究的核心地位,在求解线性方程组、求矩阵特征值等科学与工程问题中有重要的研究价值.本文面向矩阵三角化分解中共有的三角化计算过程,通过分析该过程的线性计算规律,提出一种适于硬件并行实现的子矩阵更新同一化算法及矩阵三角化计算FPGA(Field Programmable Gate Array)并行结构.针对LU矩阵三角化分解在并行结构模板上的高性能实现及优化方法开展了研究.理论分析表明,该算法针对矩阵三角化计算过程具有更高的数据并行性与流水并行性;实验结果表明,与通用处理器的软件实现相比,根据该算法实现的矩阵三角化分解FPGA并行结果在关键计算性能上可以取得10倍以上的加速比.
- 刘书勇吴艳霞张博为张国印戴葵
- 关键词:LU分解现场可编程门阵列
- 一种快速求解二值线性方程组的并行结构
- 2012年
- 针对求解GF(2)域的线性方程组问题,改进现有的高斯消元算法,提出一种快速求解未知向量的硬件并行结构,通过增加消元与行循环位移的并行操作以降低时间复杂度,采用一类仿"smart memory"基本单元的互联完成整个算法在硬件上的映射。对结构的性能分析表明,对于密度远大于或小于0.5的n阶二值增广矩阵,并行结构平均计算时间约为2n个时钟周期,远小于软件算法时间(1/4n3)。在3阶~50阶的二值非稀疏增广矩阵上的实现结果表明,与软件实现相比,该结构的性能可提高约2个数量级。
- 张博为吴艳霞顾国昌孙霖
- 关键词:线性方程组
- 基于edge profiling的循环运行时信息分析方法
- 2012年
- 应用程序中循环部分往往是计算密集型应用的主要工作负载,随着基于FPGA的可重构计算系统的出现,循环的静态分析技术已不能满足可重构计算系统根据程序当前行为模式进行特定优化的要求。针对现有的程序动态分析技术无法直接获取循环动态信息的问题,提出一种循环信息分析算法,根据支配关系在控制流图中识别循环,通过edge profiling的结果分析计算得到循环调用次数、循环平均迭代次数及循环运行时间等关键信息,并在LLVM(Low Level Virtual Machine)平台上实现该算法。实验结果表明,该算法能够自动识别所有循环结构,并对循环部分进行精确分析,分析结果能够为可重构计算系统待加速计算密集型循环的选择提供较全面、精确的信息支持,对程序员进行可重构系统中软硬件划分技术的研究具有重要作用。
- 牛晓霞吴艳霞顾国昌张博为李静梅
- 关键词:计算机系统结构EDGEPROFILING
- 基于矩阵三角化分解的Cholesky分解及FPGA并行结构设计被引量:7
- 2016年
- 矩阵运算是高性能计算中核心问题之一,矩阵分解是提高矩阵运算并行性的重要途径,飞速发展的FPGA为并行运算结构提供了有力的环境支持。该文基于子矩阵更新同一化算法实现了Cholesky分解,基于FPGA设计了相应的并行结构。实验结果表明:与通用处理器的软件实现相比,本文实现的Cholesky分解的FPGA并行结果在核心计算性能上可以取得10倍以上的加速比,该算法针对矩阵三角化计算过程具有更高的数据和流水并行性。
- 刘书勇林俊宇吴艳霞张博为
- 关键词:CHOLESKY分解现场可编程门阵列