您的位置: 专家智库 > >

国家高技术研究发展计划(2009AA01Z106)

作品数:8 被引量:8H指数:2
相关作者:安虹刘谷王耀彬李小强吴石磊更多>>
相关机构:中国科学技术大学中国科学院中国人民解放军陆军军官学院更多>>
发文基金:国家高技术研究发展计划国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 8篇中文期刊文章

领域

  • 8篇自动化与计算...

主题

  • 6篇处理器
  • 2篇图形处理器
  • 2篇片式
  • 1篇多核
  • 1篇多核处理
  • 1篇多核处理器
  • 1篇性能分析
  • 1篇性能监测
  • 1篇优先搜索
  • 1篇预测器
  • 1篇上线
  • 1篇事务
  • 1篇事务存储
  • 1篇数据流
  • 1篇数据流驱动
  • 1篇搜索
  • 1篇搜索算法
  • 1篇体系结构
  • 1篇统一计算设备...
  • 1篇评测

机构

  • 8篇中国科学技术...
  • 7篇中国科学院
  • 1篇中国人民解放...

作者

  • 8篇安虹
  • 3篇刘谷
  • 2篇任永青
  • 2篇吴石磊
  • 2篇姚平
  • 2篇王耀彬
  • 2篇汪芳
  • 2篇许牧
  • 2篇徐光
  • 2篇李小强
  • 1篇邓博斌
  • 1篇路璐
  • 1篇刘玉
  • 1篇孙涛
  • 1篇周伟
  • 1篇闫洁
  • 1篇李功明
  • 1篇李颀
  • 1篇徐恒阳
  • 1篇邓春华

传媒

  • 5篇小型微型计算...
  • 2篇计算机科学
  • 1篇计算机研究与...

年份

  • 1篇2014
  • 1篇2013
  • 2篇2012
  • 2篇2011
  • 2篇2010
8 条 记 录,以下是 1-8
排序方式:
一种输入感知的雷达回波快速聚类实现
2012年
聚类算法作为数据挖掘中的经典算法,在雷达回波的数据分析中经常被采用。然而对于规模和维度都较大的输入数据集,算法十分耗时。很多研究虽然对聚类算法进行了GPU平台的并行和优化的工作,但都忽略了输入数据集对优化的影响。因此,提出了在GPU/CUDA平台上的一种新颖的雷达快速聚类实现。该实现通过运行时的方式对输入的回波数据进行观察,以获取数据的分布信息,用以指导聚类计算在GPU上执行时的线程块调度。而该运行时模块本身的开销非常小。实验表明,引入这种输入感知的运行时调度支持后,大大削减了GPU的计算负载,获得了相对于一般策略的CUDA实现的20%~40%的性能提升,加强了算法的实时性能。
周伟安虹刘谷李小强吴石磊
关键词:聚类算法图形处理器统一计算设备架构
分片式处理器上的谓词执行技术优化被引量:1
2012年
谓词执行能使分片式处理器充分利用众多的执行单元,开发指令级并行性.但因此形成的超块也使得分支误预测代价增大,所以提高分支预测器的性能至关重要.本文提出一种基于剖析信息决策的谓词执行技术,该技术利用剖析信息对谓词执行前后的执行周期进行估算,从而对分支的谓词执行进行决策.该技术使分支预测器的命中率提高了0.68%~3.50%,使系统性能提高了1.67%~8.33%.同时,利用select指令表示谓词化指令也消除了重命名阶段寄存器多定义问题.
邓春华安虹路璐王耀彬
关键词:谓词执行分支预测器
Pview:一种基于PMU的支持并行程序性能分析的新方法被引量:4
2011年
近年来,随着并行编程的普及,性能监测和剖析已经成为计算机系统领域最重要的研究课题之一。PMU(Performance Monitoring Unit),即现代处理器里集成的微体系事件性能计数器,为性能监测提供了底层支持,使得在以极小的额外开销和极少的对目标程序的干扰的情况下对程序进行性能监测成为可能。Pview(Performance View)是一种在系统级支持对并行程序尤其是多线程程序进行性能监测与分析的工具,它同时支持全系统和针对特定进程(线程组)的性能事件直接计数或者抽样的分析方法。Pview在Linux操作系统平台上通过扩展内核2.6.30,实现了一个新的系统调用Pview来提供性能监测服务;同时与以模块方式实现的数据收集引擎协作,可以实现抽样并将大规模样本数据传输到用户空间供进一步分析。
闫洁徐恒阳安虹刘玉王耀彬
关键词:性能监测
图广度优先搜索算法面向图形处理器的优化方法研究被引量:2
2014年
近年来,图形处理器(GPU)以其丰富的计算资源和低廉的成本逐渐在高性能计算领域取得一席之地,对于具有规则访存特性的并行程序具有明显的加速作用.但是以图广度优先搜索(BFS)算法为代表的某些不规则应用,在图形处理器上性能表现平平.为了解决不规则程序在图形处理器上的性能瓶颈问题必须分析其行为特征,面向特定体系结构提出有针对性的程序优化方法.本文通过分析图广度优先搜索算法的在GPU上的并行性模式,访存特性以及工作负载,提出了基于并行性剖析与反馈的计算资源重配置方法,动态队列的层次优化方法,以及线程级负载平衡方法.实验表明以上优化方法能够显著提高图广度优先搜索算法为代表的不规则程序在GPU上的性能.
刘谷安虹李小强吴石磊
关键词:图形处理器
面向应用的流存储系统评测与改进
2010年
有限的片外存储带宽是制约流处理器性能提升的瓶颈之一,流存储系统已经采用了多种方式来缓解这个问题,但当前的设计并没有充分考虑应用具体的访存模式对有效带宽利用率的影响.通过分析和实验,评估流存储系统主要设计参数对不同访存模式的优化效果;在此基础上针对不同的流访问并行度提出了相应的结构改进,加入宽发射和短作业优先调度支持,充分挖掘存储访问的局部性和并行性,改善了负载平衡,从而有效地提高了片外带宽的使用效率和流程序的整体性能.
汪芳安虹徐光许牧姚平
关键词:DRAM
众核结构上线程级推测执行能力评估器设计
2011年
由成百上千处理器核构成的众核处理器在提供大量计算能力的同时,也对如何高效利用资源提出挑战;具有不同并行度的应用对处理器核资源有不同的需求,不合理的分配会造成资源浪费(分配过多)或者限制并行性开发(分配过少).针对众核结构上串行程序线程级推测执行面临的处理器核资源分配问题,提出一种基于硬件的推测执行能力监测和评估机制,设计三种线程级推测执行能力评估器;该评估器能够根据串行程序推测执行能力的动态变化,对应用分配的处理器核资源数量进行实时调整.实验结果表明,利用一个硬件开销极小的评估器对众核平台上串行程序的线程级推测执行进行资源分配指导,即可使性能和资源利用率达到有效的平衡.
任永青安虹孙涛
关键词:资源利用率
支持推测并行化的事务存储硬件模拟系统
2013年
多核处理器通过增加处理器核数提高计算能力,虽然可以通过同时运行多道程序的方式利用处理器资源,但是多核处理器真正的成功取决于解决并行应用开发中的难题.为此,处理器体系结构和编程模型的协同开发是必须的.而随着核数的增多,传统上使用的软件模拟器因为软件的串行性而性能越来越差,无法支持这种软硬件协同开发.FPGA天生的并行性使它在模拟多核处理器时具有较高的模拟性能和高度的可扩放性,成为处理器体系结构研究的理想工具.本文介绍了基于FPGA的多核模拟系统,RAMP-Pink.该系统基于HASim实现,同时支持事务存储和线程级推测,用于对事务存储和线程级推测的软硬件协同开发.该模拟系统可配置不同的FPGA开发平台,也可以以软件模拟方式运行.
李颀安虹李功明邓博斌
关键词:多核处理器FPGA模拟器事务存储
一种类数据流驱动的分片式流处理器体系结构及其编程模型被引量:1
2010年
考虑到半导体工艺发展带来的线延迟问题,分布式、分片式的处理器结构变得很有吸引力.在传统流处理器中,流控制器发射的控制信号在传递时存在长线延迟问题.传统流处理器的运算簇由众多的功能部件组成,由于运算簇间的通信是集中控制的,运算簇间通信网络的线延迟可扩展性差.提出了一种分片式流处理器(TPA-PD)体系结构,它采用分布式的网络连接分片式的部件,避免了控制信号在传递过程中出现的长线延迟问题.在kernel级,TPA-PD使用类数据流的执行模型即显式数据流图执行,将指令间的依赖关系在指令中静态编码,把传统流处理器中运算簇间的集中通信变为动态发射、分布式的通信,利于结构扩展.解释了新的执行模型、指令集以及将流编程模型映射到新结构上.在时钟精确的模拟器上,实验分析了影响kernel级执行时间的软硬件因素,TPA-PD比传统流处理器在8个benchmark中平均获得了20%的加速比.
徐光安虹许牧刘谷姚平任永青汪芳
关键词:流处理器处理器结构
共1页<1>
聚类工具0