杨阳朝
- 作品数:4 被引量:1H指数:1
- 供职机构:中国科学技术大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种复数矩阵的优化方法
- 本发明公开了一种复数矩阵的优化方法,特征是先计算在龙芯体系结构下特定的展开粒度,对复数矩阵进行四乘四循环展开,将矩阵分块大小nb选取为一个小于52并使得24乘以矩阵分块大小nb的平方小于龙芯处理器一级数据缓存64千字节的...
- 顾乃杰杨阳朝陈强吴淅
- 文献传递
- VLIW DSP处理器下累加计算优化方法被引量:1
- 2015年
- 当今VLIW DSP处理器拥有的指令种类越来越多,它们大多利用单一指令来完成一组复杂的计算,从而提高相关操作的执行效率.无论是在现有数字信号处理程序中,还是使用各种优化手段之后的程序代码中,累加计算在VLIW DSP处理器运算的程序中总是频繁出现,编译器如何自动高效地识别并合成处理器特有的累加指令就变得尤为重要.提出一种VLIW DSP处理器下累加计算优化方法,算法可以自动合成目标处理器的累加指令,充分利用处理器体系结构和资源的特点.最后在BWDSP处理器上实现本文的优化算法,实验结果表明,本算法有效减小了程序累加部分的汇编代码长度,从而提高了BWDSP对累加计算的处理能力.
- 杨阳朝顾乃杰任开新赵增
- 关键词:VLIWDSP编译器
- 一种复数矩阵的优化方法
- 本发明公开了一种复数矩阵的优化方法,特征是先计算在龙芯体系结构下特定的展开粒度,对复数矩阵进行四乘四循环展开,将矩阵分块大小nb选取为一个小于52并使得24乘以矩阵分块大小nb的平方小于龙芯处理器一级数据缓存64千字节的...
- 顾乃杰杨阳朝陈强吴淅
- 文献传递
- SCC上FFT的高效并行实现及其扩展性研究
- 2014年
- 针对SCC(Single-Chip Cloud Computer,单芯片云计算机)体系结构,通过通信路由的改进、消息传递的预处理以及数据处理的再划分这三种手段来提升FFT并行实现效率并以此来研究SCC的扩展性.实验结果表明,SCC上改进后的FFT在一定规模内,双核下的平均加速比为4.10倍,最高可达4.78倍;四核下平均加速比为6.01倍,最高可达6.77倍;八核下平均加速比为10.46倍,最高可达11.53倍;十六核下平均加速比为16.20倍,最高可达18.51倍;三十二核下平均加速比为21.17倍,最高可达到24.20倍.并且随着规模的增加,核间通信带宽趋于稳定,三十二核的加速比也逐渐增大,结果显示SCC具有良好的可扩展性.
- 汪清顾乃杰何颂颂杨阳朝
- 关键词:FFTSCCRCCE并行化加速比扩展性