您的位置: 专家智库 > >

孟小甫

作品数:5 被引量:14H指数:2
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家科技重大专项国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇期刊文章
  • 1篇会议论文

领域

  • 5篇自动化与计算...

主题

  • 3篇龙芯
  • 2篇龙芯3A
  • 2篇处理器
  • 1篇动态二进制
  • 1篇动态二进制翻...
  • 1篇多核
  • 1篇多核处理
  • 1篇多核处理器
  • 1篇多线程
  • 1篇性能分析
  • 1篇一致性
  • 1篇事务
  • 1篇事务内存
  • 1篇图像
  • 1篇自动向量化
  • 1篇线程
  • 1篇向量
  • 1篇向量化
  • 1篇内存
  • 1篇进制

机构

  • 5篇中国科学院
  • 3篇中国科学院大...
  • 3篇龙芯中科技术...
  • 1篇中国科学院研...

作者

  • 5篇孟小甫
  • 2篇张晓春
  • 2篇高翔
  • 2篇张爽爽
  • 1篇靳国杰
  • 1篇陆超
  • 1篇刘宏伟
  • 1篇黄静
  • 1篇从明
  • 1篇汪文祥

传媒

  • 2篇计算机研究与...
  • 2篇高技术通讯

年份

  • 1篇2015
  • 2篇2014
  • 1篇2012
  • 1篇2011
5 条 记 录,以下是 1-5
排序方式:
龙芯3A多核处理器系统级性能优化与分析
多核处理器的性能与系统软件有着密切的联系:操作系统是处理器与应用程序之间的接口,对于充分利用处理器特性和提高应用程序的性能起着极其重要的作用;编译器与处理器体系结构密切相关,一方面要产生处理器支持的二进制代码,另一方面还...
孟小甫高翔从明张爽爽
关键词:多核处理器操作系统
龙芯3A多核处理器系统级性能优化与分析被引量:12
2012年
多核处理器的性能与系统软件有着密切的联系:操作系统是处理器与应用程序之间的接口,对于充分利用处理器特性和提高应用程序的性能起着极其重要的作用;编译器与处理器体系结构密切相关,一方面要产生处理器支持的二进制代码,另一方面还要结合处理器特性产生高效运行的代码,其性能好坏直接影响着系统的整体性能.为了提高龙芯3A系统的实际性能,从操作系统和编译器着手,结合龙芯3A微结构特征,进行了一系列有效的优化.这些措施包括CC-NUMA多核操作系统的实现、操作系统二级Cache锁机制、操作系统调度共享二级Cache分配、自动向量化编译和支持预取机制的编译等.实验结果表明,在系统软件中增加对处理器特性的支持,能够充分挖掘体系结构的优势,对系统性能有较大的好处.其性能优化技术对于其他处理器的优化也有一定的借鉴价值.
孟小甫高翔从明张爽爽
关键词:龙芯3A自动向量化性能分析
基于弱隔离性的事务内存冲突分析
2014年
事务内存是一种扩展性好、易于编程的并行编程模型,其核心技术在于事务冲突的检测和处理.已有研究工作主要关注于冲突检测机制,但缺少对如何减少事务冲突的深入研究.分析表明,冲突概率的增长会严重降低事务内存系统的性能,并且随着处理器核数目的增长,这一问题会变得更加严重.研究发现,事务系统中弱隔离性模型的使用可以系统性地减少事务执行中的冲突,从而提升程序执行效率.基于该研究,提出了弱隔离性冲突检测方法(weak isolation conflict detection,WICD),并在SESC事件驱动模拟器上对WICD进行实现和评估,结果表明,与传统的严格隔离性模型相比,弱隔离性模型下最高可以减少35.7%的事务冲突,提升系统性能最大为31.0%.基于WICD的方法,通过对部分冲突进行立即检测,进而提出了一种改进的弱隔离性冲突检测方法(enhanced WICD,EWICD).实验表明,EWICD对于事务冲突的减少比率和WICD近似,最高达到33.8%,对系统性能的提升优于WICD,最大达到36.8%.
黄静张晓春孟小甫陆超
关键词:事务内存
动态二进制翻译中间接跳转的热点跟踪及其一致性维护优化
2014年
针对动态二进制翻译(DBT)系统对地址转换过程进行一致性维护的基于锁操作的传统方法会在单线程和多线程执行中都造成严重的执行开销的问题,提出了优化一致性维护的机制,通过跟踪热点跳转,在命中率较高的热点跳转的地址转换过程中,避免使用锁操作,仅在检测到并发读写冲突时进行冗余的地址转换。为实现上述检测过程,提出了指令执行时序和地址转换数据的优化设计方法。在基于Godson-3处理器的X86模拟平台上,实验结果显示,优化机制极大地提高了二进制翻译的执行效率,在SPEC CPU2000/2006单线程测试中能够降低平均27.7%(1.8%到58.5%)的执行开销,在NPB多线程测试中能够降低平均18.4%(3.3%到64.6%)的执行开销。
张晓春高翔郭崎刘宏伟靳国杰孟小甫
关键词:多线程
龙芯UNCACHE加速原理及其在系统图形性能优化中的应用被引量:2
2015年
针对当前采用独立显卡的桌面计算机系统架构普遍存在的CPU(中心处理单元)访问GPU(图形处理单元)存储空间数据传输延迟较大的瓶颈,采用了龙芯GS464处理器核心实现的UA(uncache acceleration)机制对GPU驱动程序中的GPU存储空间访问接口进行优化,极大地提高了处理器向GPU等IO存储空间连续数据写入的速度。详细分析了龙芯处理器uA机制的原理及其相对于uncache方式IO写所能带来的性能提升。通过UA机制优化了龙芯3A+2H平台的GPU驱动性能,x11perf测试结果显示,采用UA优化GPU驱动后,Xserver的一些接口性能提升达5%~230%。将龙芯处理器的UA机制封装到了标准MMAP系统调用,并通过该扩展后的系统调用优化了Xserver的Xvideo扩展接口,实验结果显示,播放常见较高分辨率视频时该接口性能能够有6~12倍的性能提升。
张爽爽孟小甫汪文祥高翔
关键词:UA图像
共1页<1>
聚类工具0