汪文祥
- 作品数:26 被引量:25H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家科技重大专项国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于地址窗口的处理器推测访问过滤装置及其过滤方法
- 基于地址窗口的处理器推测访问过滤装置及其过滤方法,所述装置包括:地址窗口配置部件,用于存储地址窗口配置信息;访问判定部件,用于根据所述地址窗口配置部件中存储的地址窗口配置信息,判断访问是否落在地址窗口配置信息所设定的地址...
- 李祖松汪文祥徐翠萍郝守青
- 流水线微处理器的中断响应确定方法、装置及微处理器核
- 本发明公开了一种流水线微处理器的中断响应延迟确定方法,所述流水线包括:取指级、译码级和指令发射级,该方法包括:当所述微处理器接收到外部中断信号时,阻止新指令的发射,且对处于流水线中的第一条待执行指令标记中断标识;当检测到...
- 李祖松汪文祥郝守青徐翠萍
- 文献传递
- 一种对动态内存进行动态读写访问分组的调度装置和方法
- 本发明公开了一种对动态内存进行动态读写访问分组的调度装置和方法,所述装置包括多路选择器、内存后端调度器,还包括:端口队列组模块,读/写裕量寄存器模块,读/写队列组裕量计算模块,读/写切换控制模块。所述方法通过设置读队列组...
- 许彤陆敏张广飞汪文祥
- 文献传递
- 用于多核同步优化的cache一致性协议设计
- 2013年
- 通过对多核同步过程中的访存行为进行分析,提出了一种识别同步类型的方法,并设计了一种实现同步优化的新的cache一致性协议。该协议增加了一个用于记录同步信息的cache状态,通过阻塞的方式可以让多个处理器核串行地完成同步操作,保证同步操作中原子指令能够顺利执行成功,从而大大减少由多核同步冲突引发的访存请求数量,将多核同步过程中的访存行为优化到了几乎最好的情况。实验结果表明,通过同步优化,这个新的cache一致性协议能够使多核同步的性能提升到接近最理想的结果。实验表明,相比传统的cache一致性协议,实验中采用的几个标准多核性能测试程序优化后的同步性能提升了1倍,而并行程序整体运行时间降低25%。
- 陈李维张广飞张广飞汪文祥王焕东
- 关键词:CACHE一致性协议
- 一种旁路转换缓冲页掩码实现的装置及方法
- 本发明公开了一种旁路转换缓冲页掩码实现的装置及方法,所述装置包括页掩码信息转换单元、中间信息储存单元、以及页掩码信息还原单元。所述方法包括如下步骤:将原始页掩码信息按预定规则转换为对应的中间信息并储存;将上述中间信息按预...
- 汪文祥李祖松徐翠萍郝守青
- 龙芯指令系统融合技术被引量:5
- 2015年
- 本文介绍了龙芯CPU的指令系统融合技术.龙芯CPU在兼容MIPS指令系统的基础上进行扩充,增加MIPS中不具备但X86和ARM具备的、对二进制翻译影响很大的核心功能,形成龙芯指令系统Loong ISA.在此基础上,通过软硬结合的二进制翻译,在龙芯CPU上运行X86和ARM的主流系统及应用,以弥补MIPS架构软件生态的不足.实验结果表明,通过软硬件协同优化,龙芯指令系统融合技术能够消除指令系统之间的壁垒,使得MIPS,X86,ARM等不同指令集的软件能够融合到统一的Loong ISA平台上,不加区别地高效运行.
- 胡伟武靳国杰汪文祥张晓春王焕东
- 关键词:龙芯CPU二进制翻译
- 龙芯UNCACHE加速原理及其在系统图形性能优化中的应用被引量:2
- 2015年
- 针对当前采用独立显卡的桌面计算机系统架构普遍存在的CPU(中心处理单元)访问GPU(图形处理单元)存储空间数据传输延迟较大的瓶颈,采用了龙芯GS464处理器核心实现的UA(uncache acceleration)机制对GPU驱动程序中的GPU存储空间访问接口进行优化,极大地提高了处理器向GPU等IO存储空间连续数据写入的速度。详细分析了龙芯处理器uA机制的原理及其相对于uncache方式IO写所能带来的性能提升。通过UA机制优化了龙芯3A+2H平台的GPU驱动性能,x11perf测试结果显示,采用UA优化GPU驱动后,Xserver的一些接口性能提升达5%~230%。将龙芯处理器的UA机制封装到了标准MMAP系统调用,并通过该扩展后的系统调用优化了Xserver的Xvideo扩展接口,实验结果显示,播放常见较高分辨率视频时该接口性能能够有6~12倍的性能提升。
- 张爽爽孟小甫汪文祥高翔
- 关键词:UA图像
- 高性能多媒体SoC分组访存调度算法被引量:2
- 2011年
- 根据多媒体处理单元的访存特点,提出一种面向高性能多媒体SoC的分组访存调度算法.该算法将访存请求按照访存ID和页地址分组,以访存组为单位进行乱序调度,并通过维护相同ID访存请求之间的顺序保证访存的正确性:综合考虑访存单元的访存效率和服务质量要求,在每个访存单元独立的调度周期内提供最低带宽保障服务.将该分组访存调度算法应用于访存调度装置,实际应用仿真结果表明,与已有基于带宽分配的访存调度算法相比,文中算法在保障访存单元带宽需求的同时降低了访存延迟,并将平均带宽利用率提高了15%.
- 张广飞汪文祥蒋毅飞苏孟豪
- 关键词:多媒体片上系统SDRAM
- 多标准视频解码可重构分像素插值结构设计被引量:1
- 2011年
- 在各类高清视频解码过程中,分像素插值是计算最为密集的处理环节之一.针对已有分像素插值结构在兼顾性能与灵活性方面所存在的不足,提出一种适用于多标准视频解码处理的可重构分像素插值结构设计.通过分析不同标准的插值计算模式之间的共性与差异,提出一种新型可重构并串混合滤波结构,其中的数据传输通路、输入/输出数据模式以及滤波计算单元均可进行动态配置,能够支持包括VC-1,H.264/263,AVS和MPEG-1/2/4在内的多种视频标准.实验结果表明,该设计能够完成多标准实时HDTV 1080 p(1920x1088@30 fps)视频解码;同已有工作相比,该设计在同等硅片资源下能够支持更多高清视频编解码标准.该设计目前已实际应用在一款多媒体SoC芯片中.
- 汪文祥沈海华
- 关键词:可重构视频解码高清
- 微处理器中精确数据断点的实现装置及其方法
- 微处理器中精确数据断点的实现装置及其方法,所述装置包括:断点配置部件,用于保存一条或多条断点配置信息;断点匹配判定部件,用于判断访存指令是否与所述断点配置部件中保存的断点配置信息相匹配,并将判定结果保存于访存指令执行的状...
- 汪文祥李祖松徐翠萍郝守青