您的位置: 专家智库 > >

国家科技重大专项(2009ZX01028-002-003-005)

作品数:27 被引量:57H指数:4
相关作者:顾乃杰任开新黄章进张颖楠张旭更多>>
相关机构:中国科学技术大学安徽省计算与通讯软件重点实验室中国科学院更多>>
发文基金:国家科技重大专项国家自然科学基金高等学校学科创新引智计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 27篇中文期刊文章

领域

  • 27篇自动化与计算...

主题

  • 6篇多核
  • 6篇龙芯
  • 4篇向量
  • 4篇向量化
  • 3篇龙芯3A
  • 3篇并行化
  • 3篇处理器
  • 2篇虚拟机
  • 2篇用户
  • 2篇自动向量化
  • 2篇网卡
  • 2篇内存
  • 2篇共享内存
  • 2篇规则集
  • 2篇负载均衡
  • 2篇VLIW_D...
  • 2篇BLAS
  • 2篇FFT
  • 2篇JAVA虚拟...
  • 2篇LAPACK

机构

  • 27篇中国科学技术...
  • 18篇安徽省计算与...
  • 5篇中国科学院
  • 1篇华东电子工程...

作者

  • 24篇顾乃杰
  • 6篇任开新
  • 5篇黄章进
  • 4篇张颖楠
  • 4篇张旭
  • 3篇彭飞
  • 3篇魏振伟
  • 3篇何颂颂
  • 3篇彭建章
  • 3篇林传文
  • 2篇赵增
  • 2篇刘斌斌
  • 2篇郭利财
  • 2篇高翔
  • 2篇张杰
  • 2篇杨阳朝
  • 2篇孙明明
  • 2篇曹越
  • 2篇吴志强
  • 1篇蔡嵩松

传媒

  • 16篇小型微型计算...
  • 5篇计算机工程
  • 2篇中国科学技术...
  • 2篇计算机应用与...
  • 2篇计算机系统应...

年份

  • 7篇2015
  • 5篇2014
  • 9篇2013
  • 4篇2012
  • 2篇2011
27 条 记 录,以下是 1-10
排序方式:
一种基于网络地址转换的LVS数据转发模式被引量:2
2013年
研究Linux虚拟服务器(Linux Virtual Server,简称LVS)工作原理,分析其数据转发流程.针对LVS在多虚拟局域网环境下的部署应用问题,设计实现了一种基于网络地址转换的数据转发模式Double-NAT.Double-NAT模式重新组织连接哈希表为双向桶结构,使用系统分配的端口区分IN和OUT方向的数据流,使得多VLAN下的数据包均能通过网络地址转换后转发.测试结果表明,Double-NAT数据转发模式配置简单、性能良好,能够有效应用于多虚拟局域网环境.
魏振伟顾乃杰彭建章张颖楠
关键词:LINUX虚拟服务器网络地址转换数据转发
一种多倍数据供应的编译优化方法
2011年
数据的快速及时供应对访存密集型程序的性能有着直接的影响.提出一种多倍数据供应MDS(Multiple Data Supply)的编译优化方法,在不增加处理器设计复杂度的前提下,利用现有处理器的高带宽,一次对内存进行多个数据的读写,减少访存次数,提高应用程序效率.在编译优化阶段,利用自动向量化技术,生成向量形式的树结构,增加一条新的扩展路径来处理从向量化的树结构到底层结构的扩展.针对向量化后树结构的多样性问题,设计新的优化遍以及RAC(Register Assignment Chain)替换算法进行专门处理.在龙芯3A处理器平台上,对SPEC-CPU2000的测试,CINT程序平均性能提升11.6%,CFP程序平均性能提升14.4%.
彭飞顾乃杰高翔孙明明
关键词:自动向量化龙芯3A
一种面向多核系统的Linux任务调度算法被引量:4
2015年
针对Linux任务调度算法在多核系统中交互性能差的问题,提出一种分组任务调度算法GFS。根据多核系统硬件特性,自动配置物理距离近的一组CPU共享一个任务运行队列,通过平衡组内CPU对任务运行队列的访问竞争与任务迁移的代价,实现组间任务运行队列的负载均衡,减少调度延迟。通过优先调度唤醒任务,加快多核系统中交互任务的响应速度。测试结果表明,在不同任务负载下,GFS能够明显降低交互任务的平均响应时间,从而有效提高多核系统交互应用的调度性能。
曹越顾乃杰任开新张旭吴志强
关键词:多核系统调度算法交互性能负载均衡
VLIW DSP处理器下累加计算优化方法被引量:1
2015年
当今VLIW DSP处理器拥有的指令种类越来越多,它们大多利用单一指令来完成一组复杂的计算,从而提高相关操作的执行效率.无论是在现有数字信号处理程序中,还是使用各种优化手段之后的程序代码中,累加计算在VLIW DSP处理器运算的程序中总是频繁出现,编译器如何自动高效地识别并合成处理器特有的累加指令就变得尤为重要.提出一种VLIW DSP处理器下累加计算优化方法,算法可以自动合成目标处理器的累加指令,充分利用处理器体系结构和资源的特点.最后在BWDSP处理器上实现本文的优化算法,实验结果表明,本算法有效减小了程序累加部分的汇编代码长度,从而提高了BWDSP对累加计算的处理能力.
杨阳朝顾乃杰任开新赵增
关键词:VLIWDSP编译器
快速时代回收:一种针对无锁编程的快速垃圾回收算法被引量:1
2013年
在多核、众核时代,并行编程模型如软件事务内存、无锁编程等成为研究热点.无锁编程技术使得多个线程无需加锁即可并发访问同一个数据结构成为可能,该技术已被证明能够有效地提升程序的性能.实现无锁算法的一个关键的技术是垃圾回收.时代回收算法是一种高效、易用的垃圾回收算法,但其回收速度受制于最慢的线程,在极端情况下该算法完全停滞,难以在实际情况下使用.本文针对时代回收算法的不足,在其基础上提出了快速时代回收算法,新算法的回收速度与最快线程保持一致,在测试中回收成功率为100%,实验证明快速时代回收算法一种适用于无锁编程的快速实用的垃圾回收算法.
彭建章顾乃杰张旭张颖楠魏振伟
关键词:垃圾回收CAS
一种规则集快速压缩算法
2012年
实际应用中的规则集表现出很强的聚集特性,针对这一特性提出一种规则集快速压缩算法.快速压缩算法是一个由粗到细的先分类再合并压缩的过程,首先通过使用Hash函数将提取的规则信息散列并以散列值作为查找关键字构建二叉查找树实现粗略分类,然后在树结点对应的Hash函数冲突列表中逐条比较完成精确分类,最后合并冲突列表中的规则实现压缩.实验结果表明,与逐条规则逐个域比较的简单压缩方法相比,快速压缩算法在保持较高压缩率的前提下,能够将压缩时间平均减少90%以上.
王坤顾乃杰任开新
关键词:规则集HASH函数二叉查找树
LAPACK线性方程求解函数在龙芯3A上的并行化被引量:1
2014年
针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多核库便可使用.通过LAPACK自带的性能测试程序进行测试,实验结果表明,在四核模式下,大多数函数加速比达到2以上,部分函数加速比超过了3,所有线性方程求解类函数加速比的算术平均值达到2.04.
刘斌斌顾乃杰任开新张杰
关键词:LAPACKBLAS龙芯3A多核
基于龙芯3B的循环规约算法向量化研究
2013年
研究国产CPU龙芯3B的体系结构,分析三对角线性方程组求解中的循环规约算法,并结合算法特性,提出循环规约算法的优化方案。采用向量化级数,利用龙芯3B处理器提供的向量扩展指令对该算法在龙芯3B上进行实现和优化。实验结果表明,与非向量化算法相比,向量化算法的性能提升较大。
吴淅黄章进顾乃杰
关键词:向量化泊松方程离散化
一种多核ARM平台下用户态定时器的实现被引量:1
2015年
在ARM平台下,系统提供的posix-timer误差较大,难以满足实时要求,而且传统的Linux用户态定时器通过系统调用及信号传递的方式向进程提供定时服务,当定时器使用规模较大时,进程会在内核态用户态间频繁切换。针对上述问题,提出并实现一种基于多核ARM平台的新型用户态定时器方案。该方案采用一种新的时间轮数据结构,通过内核态与用户态共享内存等方式向进程提供服务,避免不必要的信号传递,有效地缓解频繁状态切换问题。实验结果表明,该方案保持微秒级的定时精度,定时误差相比posix-timer明显降低。
喻诗祥顾乃杰张旭曹越
关键词:定时器多核ARM平台时间轮共享内存
龙芯3B处理器上FFT算法向量化研究被引量:6
2015年
龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.然而目前的FFT算法因未能充分挖掘龙芯3B处理器的硬件特性,仍面临算法性能较低的问题.针对该问题,对FFT算法进行分析,并结合龙芯3B处理器的体系结构特征,提出基32迭代的向量化FFT算法.实验结果表明,在龙芯3B处理器上基32迭代的向量化FFT算法平均性能达到765.15M flops,是相同环境下FFTW软件包(Fast Fourier Transform in the West)性能的2.12倍,最高性能可以达到1341.12Mflops,是相同环境下FFTW软件包性能的3.51倍.
张杰顾乃杰张明
关键词:优化算法FFT向量化
共3页<123>
聚类工具0