您的位置: 专家智库 > >

国家高技术研究发展计划(2013AA014301)

作品数:16 被引量:18H指数:1
相关作者:王昊刘臻王剑汪文祥庞征斌更多>>
相关机构:中国科学院大学中国科学院龙芯中科技术有限公司更多>>
发文基金:国家高技术研究发展计划国家自然科学基金国家科技重大专项更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 16篇期刊文章
  • 2篇会议论文

领域

  • 15篇自动化与计算...
  • 7篇电子电信

主题

  • 5篇处理器
  • 4篇一致性
  • 3篇电路
  • 3篇多核
  • 3篇多核处理
  • 3篇多核处理器
  • 3篇缓存
  • 2篇时钟
  • 2篇片上多核处理...
  • 2篇路由
  • 2篇内存
  • 2篇互连
  • 2篇缓存一致性
  • 2篇CACHE一...
  • 2篇CACHE一...
  • 1篇等价
  • 1篇低功耗
  • 1篇电路实现
  • 1篇叠层
  • 1篇动态电路

机构

  • 12篇中国科学院
  • 12篇中国科学院大...
  • 11篇龙芯中科技术...
  • 6篇国防科学技术...
  • 1篇国防科技大学

作者

  • 3篇王剑
  • 3篇王昊
  • 3篇刘臻
  • 2篇夏军
  • 2篇王克非
  • 2篇庞征斌
  • 2篇章隆兵
  • 2篇刘路
  • 2篇曾露
  • 2篇刘天义
  • 2篇汪文祥
  • 1篇曹继军
  • 1篇黎渊
  • 1篇曹跃胜
  • 1篇吴瑞阳
  • 1篇徐炜遐
  • 1篇王焕东
  • 1篇肖俊华
  • 1篇王学慧
  • 1篇张磊

传媒

  • 11篇高技术通讯
  • 1篇电子科技
  • 1篇计算机工程与...
  • 1篇国防科技大学...
  • 1篇计算机工程
  • 1篇中国科学:信...
  • 1篇第十七届计算...

年份

  • 5篇2017
  • 4篇2016
  • 7篇2015
  • 2篇2013
16 条 记 录,以下是 1-10
排序方式:
高密度FDR互连交换板的设计与实现
2016年
针对高密度FDR互连交换板PCB设计在信号完整性方面的不足,从工程实现的角度对板材选取、叠层设计、布线规则、抗干扰措施等问题进行分析,给出完整的解决方案。对3种典型高速板材的阻性衰减和介质衰减进行量化分析,确定设计方案的板材及最大通道长度。根据BGA区域走线数量和间距要求,明确BGA区域间隔出线方式和叠层结构。通过理论分析和计算,确定差分线的线宽、线间距、差分过孔设置、差分过孔距离电源分割线最小距离等布线规则。考虑工程实施条件的限制,提出使用微带线布线、保留一侧残桩不背钻等折中处理措施。仿真实验结果表明,基于以上规则设计的FDR互连交换板已应用于包括"天河二号"在内的多款高性能计算机系统,有效解决了FDR高速PCB设计中遇到的各种信号完整性问题。
刘路曹跃胜多瑞华
关键词:高速信号叠层串扰
片上波动影响下的Mesh结构时钟系统的性能分析方法被引量:1
2017年
考虑到片上波动对Mesh结构时钟系统的影响,提出了一种基于统计理论的时钟系统性能分析方法。该方法的核心思想是在真实的解析函数难以求解的情况下,采用统计分析方法对该函数进行拟合。从两方面着手研究:如何拟合时钟偏差的概率分布;如何拟合前驱动层时钟路径的时延对时钟偏差的影响。实验证明,时钟偏差的概率分布可用正态分布拟合,而前驱动层时钟路径的时延与时钟偏差的关系可采用多元线性回归模型进行拟合。因此,这套拟合方法使设计人员能够通过正态分布的概率分布函数评估不确定性约束是否合理;在设计后期,根据多元线性回归模型调节优化前驱动层,提高时钟系统的性能。
王昊杨梁
关键词:多元线性回归
基于区域协作的Cache压缩
2016年
为提高Cache的有效容量,进行了Cache压缩研究,并提出了一种区域协作压缩(RCC)方法,以提升最后一级缓存的压缩率。与传统的Cache压缩算法不同,RCC方法利用了缓存区域的压缩局部性,使用缓存区域中第一个缓存块的字典信息来协作压缩缓存区域中的其他各个缓存块,而不需要对缓存区域进行整体压缩。RCC有效发掘了缓存区域内缓存块之间的数据冗余,实现了接近以缓存区域为压缩粒度的字典压缩的压缩率,然而压缩、解压缩延时却仍然和压缩单个缓存块时相当。实验结果表明,与单缓存块压缩算法C-PACK相比,RCC方法的压缩率平均提升了12.34%,系统的性能提升了5%。与2倍容量的非压缩Cache相比,有效容量提升了27%,系统性能提升了8.6%,而面积却减少了63.1%。
曾露李鹏王焕东
关键词:数据压缩字典压缩
基于处理器硅前性能验证平台的基准程序库设计方法
2016年
提出了一种新的适用于处理器的硅前性能验证平台的基准程序实现方法。方法的主要思想是利用现成的广泛使用的测试程序集合,通过降低工作负载,采用基于基本块的划分、归并方式,将多个基于相同特征点的代码片段作为一个基准检测点,这些抽象的检测点构成了基准程序库。该方法将复杂的处理器内部行为的一致性判断转换为性能的宏观统计分析,充分利用了已有的权威测试基准集,无需重新编写性能验证平台的基准程序,既扩大了验证程序的规模,又节省了大量的劳动,同时可以针对验证样本通过分析系统自动展开验证工作,减少了人工核对的工作量。
张华亮刘宏伟刘天义
基于NUMA架构的解释器访存优化设计与实现
2015年
为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案虚拟机启动时首先获取NUMA节点信息,并在每个NUMA节点中自动生成解释器所需的全部数据结构;解释器在运行时,通过静态或动态的指令分派技术来实现其执行线程在NUMA节点上访存的局部化。试验结果表明,上述方法能够显著提升解释器在NUMA系统中的性能。在DaCapo测试集上的总体性能提升了8%,最高性能提升幅度高达23%,而且算法实现代价低,适用于绝大多数的NUMA服务器系统。
任彤傅杰靳国杰
关键词:虚拟机解释器响应速度启动性能
片上多核处理器的区域共享的双粒度目录
2015年
研究了双粒度目录(DGD)下片上多核处理器的访存行为以及DGD对不同共享行为的目录开销,以进一步降低DGD结构的面积开销。针对DGD需要为共享缓存区域创建额外的块目录项的问题,提出了创新的区域共享的双粒度目录(RSDGD)结构。该结构可用一个区域共享目录项同时维护最多3个共享者共享同一个缓存区域的一致性,从而能有效减少所需的块目录项数量,降低总的目录开销。实验结果表明,和原有的DGD相比,该结构平均减少了25%的目录空间需求,而仅产生了不到0.6%的性能损失。该结构有效地降低了芯片的面积开销,提高了目录结构的可伸缩性。
曾露陈新科王焕东
关键词:片上多核处理器缓存一致性区域共享
用于减少远程Cache访问延迟的最后一次写访问预测方法被引量:1
2015年
为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。
夏军徐炜遐庞征斌张峻常俊胜
关键词:CACHE一致性协议
CbRouter:一种利用交叉开关旁路的双向链路片上网络路由器
2015年
片上互连网络为多核体系结构提供了高效的通信支持。目前的片上网络通常采用单向传输链路,链路资源利用率较低。为了实现链路带宽资源高效分配、进而高效利用链路带宽资源,提出了一种新的双向链路调度算法,并设计了一种支持此算法的双向链路路由器。这种新型的路由器结构能够在不影响路由原有数据通道条件下,提供一条旁路数据通道来快速传输数据。实验结果表明,应用该双向链路路由器可使Mesh网络饱和吞吐率和链路平均利用率分别得到最大83.3%和24.53%的提升。
方磊董德尊吴际夏军王克非
关键词:片上互连网络
提升处理器指针追逐访存性能的指令标签辅助的数据预取机制
2017年
分析了处理器访存操作的指针追逐模式,指出了链式数据应用中的指针追逐操作的数据预取准确率低、访存延迟大的问题。为了提升处理器指针追逐访存性能,提出了指令标签辅助的数据预取(ILAMP)技术。ILAMP技术是一种指令标签提示的预取机制,其通过在指令集架构中添加新的访存指令,使该指令在处理器译码阶段产生特殊访存标签,指明该访存操作的加载内容是指针。在Cache缺失的情况下,该标签一直传递到内存控制器。当加载的指针返回内存控制器时,则提取指针、发出预取请求。实验结果表明,ILAMP技术与无ILAMP情况相比,ILAMP技术降低DRAM读请求的平均访问延迟的平均值约为15%,预取精度高于77%,访存带宽增加10%左右,硬件开销约为1k B。
刘天义肖俊华肖俊华沈海华
关键词:数据预取
稀疏队列中的动态发射机制及电路实现
2017年
针对多运算部件处理器中非流水多拍指令堵塞非相关指令的问题,提出了一种动态发射机制,该机制可以在发射当拍根据空闲运算部件数量同时选中并发射多条指令,不必提前为指令分配运算部件。动态发射稀疏队列基于一种快速的N选M电路,利用电流的大小来表征指令在队列内驻留时间的长短,通过灵敏电流放大器实现快速的筛选,最后经过RS触发器调整波形,利用NMOS放电网络得到指令位置的掩码。动态发射队列解决了运算部件冲突问题,提高了每时钟周期执行指令数(IPC),最大程度发挥全局队列的效能,其中的调度电路使用SMIC 40nm工艺实现,通过Hspice仿真验证,该电路工作频率可达8GHz。
刘臻王剑赵鹏飞丁健平
关键词:灵敏放大器
共2页<12>
聚类工具0