您的位置: 专家智库 > >

国家高技术研究发展计划(2007AA01Z108)

作品数:21 被引量:61H指数:5
相关作者:陈书明孙书为彭元喜陈胜刚尹亚明更多>>
相关机构:国防科学技术大学更多>>
发文基金:国家高技术研究发展计划国家自然科学基金国家教育部博士点基金更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 21篇中文期刊文章

领域

  • 17篇自动化与计算...
  • 4篇电子电信

主题

  • 7篇上网
  • 7篇片上网络
  • 7篇网络
  • 5篇CABAC
  • 4篇多核
  • 3篇多核DSP
  • 3篇流控
  • 3篇路由
  • 3篇路由器
  • 3篇H.264/...
  • 2篇队列
  • 2篇信号
  • 2篇信号处理
  • 2篇信号处理器
  • 2篇视频
  • 2篇视频编码
  • 2篇数据流
  • 2篇数字信号
  • 2篇数字信号处理
  • 2篇数字信号处理...

机构

  • 21篇国防科学技术...

作者

  • 14篇陈书明
  • 8篇孙书为
  • 7篇彭元喜
  • 6篇陈胜刚
  • 5篇尹亚明
  • 4篇谷会涛
  • 4篇朱红雷
  • 3篇陈小文
  • 3篇汪东
  • 2篇王耀华
  • 2篇陈海燕
  • 1篇马卓
  • 1篇刘祥远
  • 1篇陈诚
  • 1篇万江华
  • 1篇邹佳骏
  • 1篇刘胜
  • 1篇方兴
  • 1篇谢刚
  • 1篇陈虎

传媒

  • 5篇国防科技大学...
  • 4篇计算机研究与...
  • 4篇电子学报
  • 2篇计算机学报
  • 2篇计算机工程与...
  • 2篇微电子学与计...
  • 2篇计算机应用

年份

  • 1篇2012
  • 5篇2011
  • 5篇2010
  • 6篇2009
  • 4篇2008
21 条 记 录,以下是 1-10
排序方式:
一种面向异构多核DSP的数据流传输控制引擎设计与评测被引量:1
2009年
根据多核DSP的应用特点,介绍了一种面向异构多核DSP的数据流传输控制引擎(DSTCE)的结构与设计,并实现了基于DSTCE的数据流前瞻传输技术。该技术以可编程的DSTCE模块为核心,实现了超节点内各个端口之间以及超节点之间的高效数据流传输,而且将传输过程与多核间的数据前瞻和编程模型有机结合起来。该技术避免了复杂的Cache一致性问题,显著提高了大规模多核DSP计算与访存的并行性。实验结果表明,采用DSTCE的多核DSP单个超节点的性能平均提高了22%,两个超节点情况下基于DSTCE结构的系统比基于CC-NUMA结构的系统性能平均提高了14%。
汪东陈书明
关键词:多核DSP数据流
一种面向应用的NOC缓冲区分配算法被引量:6
2009年
片上互连网络是片上通信问题的有效解决方案,但其存在严重的资源限制。输入缓冲区占据片上网络总面积的显著部分,同时其容量大小对不同应用映射后获得的性能有重要影响。给出一种面向应用数据负载的NOC缓冲区分配算法,针对不同的应用映射,该算法可以根据数据流量分布特征实现各个路由器输入通道上缓冲区资源的定制分配。实验结果表明,使用该算法后,系统缓冲区资源得到了更有效的利用。与均匀分配缓冲区的NOC系统相比,采用该算法实现的缓冲区分配方案使系统在保持性能变化不大的情况下,能够节省约50%的缓冲区总容量。
尹亚明陈书明孙书为王耀华
关键词:片上网络
DSCF:一种面向共享存储多核DSP的数据流分簇前向技术被引量:2
2008年
多核数字信号处理器(DSP)的性能常常受限于共享存储的长延迟Cache一致性访问.数据前向(forwarding)技术是隐藏长延迟访问的一种有效手段.根据多核DSP应用的两类重要特征,提出了一种面向共享存储多核DSP结构的数据流分簇前向技术DSCF(data stream clustered forwarding).DSCF方法的主要特点是:兼容基本的共享存储Cache一致性协议;不污染目标Cache;数据的传输速度能够与消费速度相匹配;系统结构的可扩展性好.典型测试程序的模拟评测表明,采用DSCF方法能够将Cache一致性失效率平均降低44%,将系统总体性能提升30%~70%.
汪东陈书明
关键词:多核DSPCACHE一致性数据流
片上网络延时差异对存储系统公平性的影响及对策被引量:2
2011年
研究了在基于片上网络(Network on Chip,NoC)结构的单芯片多处理器(Chip Multiple Processors,CMPs)中,访存请求的NoC延时差异对存储系统的公平性带来的影响.针对该问题进行了理论分析、抽象,并构建试验模型,从网络规模、报文比例等4个方面对造成访存请求的NoC延时差异的原因进行了讨论.最后提出了一种基于片上网络延时的存储器访问调度方法(Scheduling Based on NoC Latency,SBNL),与传统的方法相比,能够将NoC延时差异对访存请求公平性的影响降低20%左右,并带来15.7%的执行效率提升.
刘胜陈书明尹亚明陈胜刚谷会涛陈小文王耀华
关键词:片上网络调度
GISEES:面向嵌入式系统的扩展指令集自动产生方法被引量:2
2011年
面向应用的指令集处理器通过增加扩展指令可有效提升处理器的性能,满足上市时间要求.然而为嵌入式系统定制扩展指令需解决以下3个问题:设计空间随应用复杂度的增加指数增加,有限的片上资源限制了扩展指令的数量和复杂度,现有指令集扩展算法复杂度高难以在嵌入式系统上运行.本文提出了一种快速的指令集扩展方法GISEES.该方法以应用的典型操作为中心产生扩展指令以裁剪了设计空间,并采用基于最大公共等价子串的资源共享策略减少资源开销和插入的多路选择器的数量.实验结果表明,该方法具有线性复杂度,可产生效率更高的扩展指令,更适合为嵌入式系统定制高效的扩展指令.
陈虎陈书明陈胜刚谷会涛陈小文
关键词:资源共享
CABAC熵编码机制下有效的变换域码率估计技术被引量:2
2008年
CABAC是H.264/AVC视频压缩标准中采用的一种熵编码机制,结合RDO模式选择技术,可以降低20%的码率.在RDO模式选择过程中,需要对编码块的每一种候选模式进行熵编码以获得编码位数,这在很大程度上增加了视频编码的计算复杂度.为了避免复杂的Lagrange耗费计算,本文第一次提出了一种CABAC熵编码机制下的变换域码率估计方法,基于量化变换系数和运动向量差对熵编码位数进行估计.在此基础上,本文将码率估计技术应用在RDO模式选择中,提出了基于码率估计的快速模式选择算法,减少了模式选择的计算时间.模拟结果显示,本文提出的CABAC熵编码机制下的变换域码率估计技术在对编码性能影响不大的情况下,减少了模式选择中51%的率失真耗费计算时间,采用全搜索运动估计算法时,节省33%的总编码时间.
孙书为陈书明刘祥远
关键词:CABAC熵编码
X-DSP ALU与移位部件的设计与实现被引量:1
2010年
针对DSP CPU的算术运算逻辑单元(ALU)与移位部件在性能、功耗与面积上面临的挑战,研究了X型DSP的CPU体系结构,在对X型DSP ALU部件和移位器部件相关指令进行归类分析的基础上,设计实现了ALU部件和移位器部件。采用Design Compiler综合工具,基于SMIC公司0.13μm CMOS工艺库对ALU移位部件进行了逻辑综合,电路功耗共为4.2821 mW,电路面积为71042.9804μm2,工作频率达到250 MHz。
彭元喜邹佳骏
关键词:数字信号处理器
支持多种标准的高清视频运动估计协处理器被引量:1
2011年
针对运动估计的各种实现方案难以同时满足实时计算性能和灵活性需求的问题,提出了一种支持多种标准的运动估计协处理器.该协处理器采用6流出超长指令字结构,可执行多种运动估计算法.协处理器中包含一个可二维数据重用的处理单元阵列、一个SAD加法树和一个多模编码耗费比较器.处理单元阵列和加法树可满足运动估计巨大的计算复杂度,而耗费比较器则用来支持各编码标准中不同的分块模式.一个快速全搜索算法在该协处理器上执行,用来验证其正确性和进行性能分析.实验结果显示,对1920×1080的视频序列执行运动估计,搜索窗口为32×32时,帧频可达到60fps.
谷会涛陈书明孙书为
关键词:协处理器视频编码超长指令字
一种动态分配输入队列的片上虫孔路由器结构被引量:5
2010年
为了降低片上网络(NoC)由于虫孔缓冲结构排头(HoL)阻塞导致的性能损失,同时消除虚通道缓冲结构对可变长度报文表现出的缓冲区低利用率现象,本文采用虚拟通道技术提出一种动态分配输入队列(DAIQ)的片上虫孔路由器结构.该结构采用一种令牌表的方式支持虚拟队列深度与数量的动态分配,同时为了支持同一报文微片能够连续调度,本文还提出一种新颖的开关分配机制——SRRM,该机制在高负载下进一步改善了开关的延迟与吞吐率.仿真与综合的结果表明,相比传统虚通道流控的片上路由器结构,DAIQ路由器以50%的缓冲面积获得类似的性能,在0.13微米CMOS工艺下节约了30.18%的标准单元面积与38.4%的功耗.
朱红雷彭元喜陈海燕尹亚明
关键词:片上网络流控
一种面向多核DSP的小容量紧耦合快速共享数据池被引量:13
2008年
该文结合片上便笺式存储器(SPM)的结构特点,提出了一种面向异构多核DSP的新型小容量紧耦合共享存储结构——快速共享数据池(FSDP).FSDP在存储层次上与一级Cache平行,可以被访存指令直接访问,采用多体并行的结构、交叉访问模式和基于硬件信号灯的自动同步机制,支持多个DSP核的并行访问与快速的核间数据交换,两核之间交换单个数据只需4拍.该文构建了FSDP的模拟模型,并进行了RTL级设计实现和分析.多种典型测试程序的验证表明,FSDP对于DSP核间细粒度共享数据的传输具有很高的效率,相比同类的VS-SPM结构能够将程序性能提高37%,与传统的共享数据Cache结合使用能够将异构多核DSP的性能提高13%.
陈书明汪东陈小文万江华
关键词:共享存储多核DSP
共3页<123>
聚类工具0