沈立
- 作品数:97 被引量:191H指数:8
- 供职机构:国防科学技术大学计算机学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学政治法律更多>>
- 一种低成本128位高精度浮点SIMD乘加单元的设计与实现
- 2012年
- SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。
- 黄立波王志英沈立马胜
- 关键词:单指令多数据
- 一种高效的压缩Page Walk Cache结构
- 2020年
- 通用图形处理单元(GPGPU)已被广泛应用于现代高性能计算系统中。GPGPU的单指令多线程执行模型导致快表命中率较低,特别是对于那些不规则应用,需要借助PWC减少实际的页表访问次数。传统PWC中存在很多冗余信息,加之容量有限,实际效果并不理想。分析了传统PWC中的信息冗余情况,提出了一种新结构——压缩PWC。压缩PWC在保证查找开销不变的基础上,完全消除了冗余信息,压缩了空间,使PWC能够记录更多的页表访问历史,从而有效减少地址转换过程中访问页表的次数。测试结果表明,与相同容量的传统PWC相比,压缩PWC可以显著缩短虚实地址转换时间开销。
- 贾朝阳张敦博王琼沈立
- 关键词:通用图形处理器
- 指令扩展中相关子图的分析与处理
- 2009年
- 由于没有充分考虑候选子图间重叠、包含等相关关系,按照现有指令扩展方法选出的扩展指令可能无法带来预期的性能收益.详细讨论了子图相关关系和处理方法,并提出相应的指令扩展算法.在子图识别时,根据延迟约束合并相互包含的子图,根据重叠结点的位置合并重叠子图,缩小搜索空间;在子图压缩时,根据子图相关关系动态地调整候选子图的性能收益,减少相关子图引起的估算误差.此外,还根据剩余候选子图的性能收益对时间与精度进行折中.该算法已在传输触发结构ASIP的自动设计流程中实现,实际性能加速比与预期值的平均误差仅为0.17%,远低于原先的3.6%.
- 沈立张晨曦吕雅帅王志英
- 关键词:专用指令集处理器
- Xen虚拟集群监控器的设计与实现被引量:2
- 2010年
- 迁移是实现高效虚拟集群的关键技术之一,是实现系统负载平衡,提高系统服务能力和可用度的基础。迁移策略选择的是否合理取决于对虚拟集群中物理节点及其上部署的虚拟机资源状态的实时获取,而目前大多数虚拟机监控工具只能对单个物理节点及其上的虚拟机进行监控,无法收集虚拟集群内其它物理节点和虚拟机的状态信息。为满足各种虚拟机迁移策略的需求,设计并实现了一个虚拟集群监控器系统Prospector,该系统能够对物理集群中多个Xen服务器节点及其上部署的虚拟机的多种实时状态进行动态收集和整合,并对外提供统一监控视图。通过NPB基准程序测试,该系统总体平均开销仅为2%,对虚拟集群的性能影响很小。
- 刘杨肖侬沈立
- 关键词:虚拟机迁移虚拟集群
- SIMD数据置换操作的自动生成和优化
- 2011年
- SIMD指令能够高效开发数据级并行,因此当前绝大多数通用微处理器都支持这种机制。但是应用程序和算法的一些固有特性,如访存地址不对齐、非连续存储访问以及控制流等,使得编译器或程序员必须借助置换指令重新组合向量的各个元素,才能得到符合SIMD指令要求的操作数。这些冗余的置换指令已成为当前挖掘数据级并行的主要性能瓶颈。提出一种自动的数据置换指令生成和优化算法,以有效地减少置换指令带来的性能损失。该算法基于提出的一种新中间表示形式,其中包含有足够的操作数地址信息,因此可以将置换指令的生成转换为数据流图中冲突边的识别问题,而将置换指令的优化转化为用最少的置换指令来删除所有冲突边的问题。面向一组典型多媒体程序进行测试的结果表明,提出的算法可平均获得7%的性能加速。
- 陈向沈立李家文
- 关键词:数据置换
- 片上集群架构与能效优化研究
- 黄立波马胜邓全沈立郭辉王志英
- 处理器架构是计算系统设计的基础问题。随着集成电路摩尔定律进一步放缓,如何有效利用丰富的芯片资源成为研究的热点问题。该项目针对多核处理器日益强大的计算能力和相对落后的多核组织与计算模式之间的矛盾,率先对片上集群体系结构设计...
- 关键词:
- 关键词:处理器架构芯片
- 解同步电路中的功耗优化方法被引量:1
- 2010年
- 针对解同步方法设计的异步电路存在冗余功耗的问题,提出一种功耗优化的解同步异步电路设计方法.首先以迭代结构乘法器为例分析操作数及电路操作行为对异步流水线功耗的影响;然后将窄数据特性及操作行为特性引入到解同步设计方法中,其中窄数据特性用于优化数据通路,操作行为特性用于优化控制通路;最后采用该方法对异步传输触发体系结构(TTA)微处理器计算内核进行功耗优化设计.实验结果表明,结构优化后的异步TTA微处理器内核功耗明显减少,约为解同步异步内核功耗的60%.
- 石伟沈立任洪广苏博王志英
- 关键词:功耗优化
- DSP处理器和通用处理器的比较被引量:3
- 2005年
- 随着嵌入式系统的广泛应用,其应用程序的功能变得越来越强大和复杂,从而要求嵌入式处理器系统既能有效支持运算密集型的应用,又能有效支持控制密集型的应用。数字信号处理器(DSPs)能够有效进行运算密集型的实时计算;另一方面,通用微处理器(GPPs)则对控制密集型的应用提供有效的支持。本文从DSP处理器和通用微处理器的功能出发,讨论了两者在指令集、体系结构及存储器结构等方面的异同,同时对两者的性能也进行了评测和比较。结果表明,DSP处理器和通用微处理器都很难同时高效支持运算密集型的应用和控制密集型的应用。将两者体系结构进行融合,研究开发融合型高性能微处理器,是解决该问题的有效途。
- 岳虹沈立戴葵王志英
- 关键词:DSP处理器通用处理器嵌入式系统指令集体系结构
- 面向众核GPU结构的椭圆曲线加密流化技术被引量:2
- 2011年
- 针对椭圆曲线加密系统的加密速度不能满足实时性要求的现状,分析了椭圆曲线加密机制(Elliptic Curve Cryptography,ECC)潜在的并行性,研究了GPU众核多线程及共享存储空间和只读Cache对ECC性能提升的影响,提出了以GPU强大计算资源和有效的存储带宽来流化加速ECC的方法。实验结果显示,在支持计算统一设备架构(Computing Unified Device Architecture,CUDA)的GPU上流化实现的ECC原型系统与优化的CPU实现相比可获得高达66×的加速度比。另外,针对ECC的流化并行及优化技术可作为一般方法推广至其它流体系结构。
- 甘新标沈立王志英
- 关键词:GPU椭圆曲线加密计算统一设备架构
- Xen虚拟集群监控器的设计与实现
- 迁移是实现高效虚拟集群的关键技术之一,是实现系统负载平衡,提高系统服务能力和可用度的基础。迁移策略选择的是否合理取决于对虚拟集群中物理节点及其上部署的虚拟机资源状态的实时获取,而目前大多数虚拟机监控工具只能对单个物理节点...
- 刘杨肖侬沈立
- 关键词:虚拟机