袁良
- 作品数:11 被引量:10H指数:2
- 供职机构:中国科学院更多>>
- 发文基金:中国科学院知识创新工程重要方向项目国家自然科学基金国家重大技术装备创新研制项目更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 针对稀疏矩阵的数据存储方法及基于该方法的SpMV实现方法
- 本发明公开一种针对稀疏矩阵的数据存储方法及基于该方法的SpMV实现方法,存储方法包括A、以给定列单元大小的行数扫描稀疏矩阵,当扫描到非零元时,将该非零元所在列的非零元值存储到非零元数组val中;B、计算列值差,判断非零元...
- 孙相征张云泉王婷刘芳芳袁良
- 文献传递
- 稀疏矩阵的对角线数据存储方法及基于该方法的SpMV实现方法
- 本发明公开一种稀疏矩阵的对角线数据存储方法及基于该方法的SpMV实现方法,存储方法为1)按行扫描稀疏矩阵A,以对角线编号表示非零元对角线的位置;2)以非零元对角线与矩阵A侧边的交点作水平线将矩阵A切分为多个子稀疏矩阵;3...
- 袁良张云泉孙相征王婷刘芳芳
- 异构平台数学库MAGMA性能测试与分析
- MAGMA是第一个面向下一代体系架构(多核CPU和GPU)开源的线性代数软件包,它采用了诸多针对异构平台的优化方法,包括了混合同步,通信避免和动态任务调度系统.它在功能,数据存储,接口上与LAPACK相似,可以发挥GPU...
- Xiao Xuan-ji肖玄基Zhang Yun-quan张云泉Li Yu-cheng李玉成Yuan Liang袁良
- 关键词:异构平台图形处理器
- 基于MPI和CUDA的蛋白质定量软件的设计和分析
- 2013年
- 介绍了蛋白质定量软件的设计及测试结果,分析结果表明:P-QuantWiz软件在曙光6000的Intel集群部分,测试规模达到2048核,在256核加速比仍在增加。相对P-QuantWiz软件在单CPU运行的结果,PG-QuantWiz软件在单GPU运行的加速比为8.1,在16个GPU上运行的加速比为14.18,并行效率为89%。
- 詹科王靖袁良张云泉
- 关键词:MPICUDA
- 异构平台数学库MAGMA性能测试与分析
- MAGMA是第一个面向下一代体系架构(多核CPU和GPU)开源的线性代数软件包,它采用了诸多针对异构平台的优化方法,包括了混合同步,通信避免和动态任务调度系统.它在功能,数据存储,接口上与LAPACK相似,可以发挥GPU...
- 肖玄基张云泉李玉成袁良
- 关键词:MAGMAGPU矩阵分解
- 文献传递网络资源链接
- 对角线稀疏矩阵的SpMV自适应性能优化被引量:4
- 2013年
- 稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区别于以往通用的计算方法,CRSD通过对给定应用的对角线稀疏矩阵采样再进行特定的优化.并且在软件安装阶段,通过自适应的方法选取适合具体运行平台的最优SpMV实现.在CPU端进行多线程并行化实现时,自适应调优过程中收集的信息还被用于线程间任务划分,以实现负载平衡.同时完成CRSD存储格式在GPU端的实现,并根据GPU端计算与访存的特点进行优化.实验结果表明:在Intel和AMD的多核平台使用相同线程数的情况下,与DIA相比,使用CRSD的加速比可以达到2.37X(平均1.7X);与CSR相比,可以达到4.6X(平均2.1X).
- 孙相征张云泉王婷李焱袁良
- 关键词:GPU
- 基于横向局部性的多核计算模型被引量:2
- 2012年
- 片内多核已成为延长摩尔定律的方式,并行算法设计、编程模型、编译器和运行时系统都需要利用计算模型进行分析。现有多核模型对线程间共享缓存等资源的竞争已有较精确的模型,但是对于线程间数据共享考虑较少。提出线程间共享缓存的横向局部性和任务共享率概念,基于此扩展串行存储层次模型RAM(h),提出考虑任务共享率的多核并行计算模型MRAM(h)。
- 袁良张云泉
- 关键词:多核并行计算模型共享缓存
- 基于横向局部性的多核计算模型
- 片内多核已成为延长摩尔定律方式,并行算法设计,编程模型,编译器和运行时系统都需要利用计算模型进行分析。已有多核模型对线程间共享缓存等资源的竞争已有较精确模型,但是对于线程间数据共享考虑较少。本文提出线程间共享缓存的横向局...
- 袁良张云泉
- 关键词:并行计算模型共享缓存
- 基于延迟隐藏因子的GPU计算模型
- 近年来在生物计算,科学计算等领域成功地应用了GPU 加速计算并获得了较高加速比.然而在GPU 上 编程和调优过程非常繁琐,为此,研究人员提出了许多提高编程效率的编程模型和编译器,以及指导程序优化的 计算模型,在一定程度上...
- 袁良张云泉王可张先轶
- 并行程序设计语言中局部性机制的研究被引量:4
- 2020年
- 大规模并行应用程序的性能优化和并行化的关键瓶颈之一在于多核CPU中越来越深和越来越复杂的存储层次。文中系统地分析和总结了当前主要多核CPU和并行程序设计语言中的局部性设计方法,提出了两种局部性,即横向局部性和纵向局部性,从这两种局部性的视角深入分析了当前的主要并行程序设计语言的局部性设计机制,进一步总结对比了其优缺点,并指出了新一代并行程序设计语言应具有的特点,重点提出了新语言应同时综合考虑两种局部性支持的设计机制的研究观点。
- 袁良张云泉白雪瑞张广婷
- 关键词:并行程序设计语言并行程序设计模型并行性多核