马胜
- 作品数:96 被引量:67H指数:4
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金湖南省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学电子电信政治法律更多>>
- 基于矩阵转置操作的FFT加速器装置
- 一种基于矩阵转置操作的FFT加速器装置,其包括:FFT加速器控制,用来控制逻辑完成批量1维FFT运算的控制,给总线控制器发送读写控制参数,协调FFT-PE之间的计算与数据传递;总线控制器,用来根据FFT加速器控制模块的参...
- 雷元武郭阳陈胜刚彭元喜刘宗林马胜陈小文罗恒孙永节孙书为李勇吴虎成
- 文献传递
- 向量处理器中支持SIMT的向量访存装置和控制方法
- 本发明公开一种向量处理器中支持SIMT的向量访存装置和控制方法,该装置包括基址向量寄存器单元、偏移向量寄存器单元以及向量地址计算单元,基址向量寄存器单元、偏移向量寄存器单元分别包括多组向量寄存器,每组向量寄存器由多个寄存...
- 陈海燕陈书明刘胜徐沛文万江华郭阳刘仲马胜孔宪停卫鹏飞
- 文献传递
- 一种基于当值缓存降低片上网络静态功耗的方法
- 本发明公开了一种基于当值缓存降低片上网络静态功耗的方法,目的是在不增加网络报文平均延迟的同时,降低路由器静态功耗损失。技术方案是改进路由器输入端口,在输入端口添加一个当值缓存、一个唤醒计数器、N个选择器、一个断电控制逻辑...
- 马胜王鹏王志英陈微赵夏钱程王璐李晨李宁徐叶茂
- 文献传递
- GPDSP中基于三级超前进位加法器的64位定点ALU电路
- 一种GPDSP中基于三级超前进位加法器的64位定点ALU电路,其包括ALU译码站、站间寄存器、通用寄存器RF和执行站,所述ALU译码站接收派发模块的指令信号,经过译码逻辑向通用寄存器RF发出读信号和读地址,读取原操作数;...
- 彭元喜雷元武汪峰万江华刘宗林彭浩徐恩李振涛扈啸陈跃跃孙海燕马胜陈胜刚罗恒吴家铸
- 文献传递
- 一种用于GPDSP的采用主机计数的多核DMA分段数据传输方法
- 一种用于GPDSP的采用主机计数的多核DMA分段数据传输方法,其传输过程为:主机DMA启动,依据配置参数生成分段数据传输请求;主机DMA每次发出分段数据传输的读请求中携带了标志返回数据目标节点的返回数据选择向量,返回数据...
- 马胜杨柳陈书明万江华郭阳刘宗林孙书为刘仲雷元武刘胜王耀华王占立田玉恒胡月安丁一博
- 文献传递
- 一种支持变形基16FFT算法并行访存的地址转换单元
- 本发明公开了一种支持变形基16FFT算法并行访存的地址转换单元,包括16个相同的地址转换电路,每个所述地址转换电路均由一个三输入异或门和三个二输入异或门组成,用以实现该路运算访存或结果输出对原来按存储体低位地址编址的访存...
- 陈海燕杨超刘胜刘宗林刘仲万江华陈胜刚马胜陈俊杰雷元武
- 文献传递
- GPDSP中面向单指令多线程模式的DMA传输方法
- 本发明公开了一种GPDSP中面向单指令多线程模式的DMA传输方法,通过配置一次DMA传输事务将非规整存放在核外存储空间的SIMT程序的数据搬移至内核的向量存储部件VM;搬移后,所述数据整齐地存放在向量存储部件VM中,用来...
- 马胜陈书明万江华郭阳杨柳陈海燕刘宗林丁一博陈胜刚雷元武王耀华
- 文献传递
- 一种高效的DMA核间同步传输方法被引量:1
- 2016年
- 对HPL基准程序的高速处理亟需一种能满足算法需求的高效DMA传输方式,同时DDR访问效率也直接决定了算法的运行速度。GEMM算法的操作占整个HPL基准程序操作的90%,为了提高该算法的处理速度,结合DDR访问特点,提出了一种基于核间同步的点对点DMA传输模式。实验结果表明,由于访存效率的提升,该传输模式相比于普通传输模式平均获得了256.74%左右数据传输效率提升,明显减少了数据搬运时间开销,有效满足了HPL算法的处理需求。
- 田玉恒马胜鲁建壮杨柳
- 关键词:DMA多核DSP传输方法
- GPGPU网络请求报文无冲突发送方法
- 本发明公开了一种GPGPU网络请求报文无冲突发送方法,目的是利用简单的路由器来高效的传输请求报文。技术方案是先将数据链路带宽为b bit的n*n的mesh网络划分成n个相互独立的Mesh子网;然后简化Mesh<Sub>y...
- 王志英赵夏马胜王鹏王璐李晨
- 文献传递
- 基于RISC-V的嵌入式多指令集处理器设计及实现被引量:6
- 2021年
- 软件生态是限制RISC-V指令集架构发展的主要因素之一.让RISC-V处理器可以直接运行ARM Thumb二进制代码能在一定程度上缓解其在嵌入式领域中的软件生态问题.本文基于二进制翻译,通过硬件支持ARM Thumb的标志位、分支指令、条件执行,在RISC-V处理器上以较低的面积和功耗开销实现了对ARM Thumb程序的支持并获得了较好的性能.通过运行Embench基准程序套件,该处理器翻译运行ARM Thumb程序的平均性能能够到达直接运行RISC-V程序性能的75.5%.相较于仅使用二进制翻译支持ARM Thumb,该处理器运行ARM Thumb程序的性能提升了3.1倍,面积开销则下降了7.8%.
- 成元虎黄立波崔益俊马胜王永文隋兵才
- 关键词:二进制翻译