王克义
- 作品数:27 被引量:75H指数:3
- 供职机构:北京大学更多>>
- 发文基金:国家高技术研究发展计划国家科技重大专项国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学电子电信更多>>
- 基于数据对象规模的Rank级内存分配方法被引量:1
- 2014年
- 利用主存的多bank/rank/channel结构挖掘访存并行性和局部性,是提高系统性能的重要手段.相关研究工作通过sub-rank技术增加可并行工作的存储资源,或在并行程序之间对bank划分,以隔离访存冲突.但上述方法没有考虑在bank/rank资源共存的情况下,单个程序内部数据对象间的冲突问题.通过观察数据在主存中的分布,发现程序的数据倾向聚簇于单个rank中,并提出了一种基于数据对象规模的rank级内存分配方法(data object scale aware rank-level memory allocation,DSRA).DSRA将冲突开销较大的数据对象分散到不同的rank,利用增长的bank/rank资源提高访存性能.DSRA工作在操作系统层,基于编译器和操作系统提供的信息来分析数据对象间的冲突开销,既不用修改源码,也不依赖特殊的底层硬件.基于2款真实处理器对来自NAS Benchmark和SPEC CPU2000中的存储敏感型基准测试程序进行评测.结果表明,在不影响cache失效率的情况下,DSRA通过减少主存访问周期数,可以降低程序的执行时间.与已有的优化技术相比,性能平均提高6.8%,最高性能提升幅度为16%.
- 钟祺王晶管雪涛黄涛王克义
- 关键词:操作系统内存分配数据对象
- 结合PVT模拟和排队模型的系统级主存性能分析被引量:1
- 2010年
- 由于主存系统的性能受到多种因素的影响,现有方法不能快速地得到可靠的分析结果,从而影响芯片质量和上市时机.为解决此问题,提出将带时序的程序员视图(PVT)模拟和排队论相结合的方法——ComPQ.首先从PVT模拟中提取与访存相关的系统级实时参数,然后将主存系统抽象为非抢占优先的M/G/1排队模型,再结合实时参数进行性能分析,得到平均访存延迟结果.由于PVT的建模和模拟代价小,从中得到的实时参数弥补了静态理论分析的不足;同时,排队论也提高了纯PVT模拟的精度.实验结果表明,ComPQ与周期精确级模拟相比平均误差为6.38%,最后用主存系统设计空间探索的实例验证了ComPQ的有效性.
- 林桦佟冬黄侃王克义程旭
- 关键词:系统级设计事务级建模排队论性能分析
- 一种高效的完全值编号算法被引量:1
- 2010年
- 值编号是一种重要的静态分析技术,广泛应用于优化编译器和程序验证工具.实际应用中的各种值编号算法在检测等值关系上都存在各种局限性.功能更加强大的能够检测全部Herbrand等值关系的完全值编号算法工作效率都十分低下而无法实用.我们发现采用静态单赋值形式能够大幅提高完全值编号算法的性能.本文基于Her-brand等值关系给出了静态单赋值形式的程序中值编号的一般定义,建立了值编号和Herbrand等值关系的对应关系.基于该定义,判断两个表达式之间的Herbrand等值关系等价于判断该两个表达式的值编号是否相同.之后给出了用于计算这种值编号的新的完全值编号算法.我们在GCC中实现了该算法并利用别名信息使其能够检测访存语句间的等值关系.基于新算法的部分冗余优化比GCC中原有算法消除了更多的动态冗余计算.
- 聂久焘程旭王克义
- 关键词:冗余消除
- ATM网络平台的仿真程序设计及初步流量分析被引量:2
- 2001年
- ATM网络是由一系列通过点对点ATM链路或接口相互连接的ATM交换机构成的网络。考虑到ATM网络中流量与拥塞控制的需要及QOS,特别需要有一个平台对其进行理论分析。文中设计了一种基于微机上的ATM网络仿真平台,该ATM 网络平台仿真主要是为分析ATM网络流量而设计的一个模拟整个ATM环境及各个设备行为的程序,可以较好地对ATM的流量与拥塞控制进行理论分析。
- 王克义方晖蔡旭斌
- 关键词:信元仿真程序程序设计ATM网络仿真器
- 面向多媒体SoC的存储体访存负载均衡划分方法被引量:1
- 2015年
- 随着多媒体So C中具备密集访存能力的设备数量增加,设备之间频繁争抢存储体资源,严重影响访存性能.为此提出一种面向多媒体So C的存储体访存负载均衡划分方法.通过操作系统对物理内存的管理,将设备所访问的数据映射到独立的存储体中,避免争抢频繁的设备共享存储体,减少设备间的访存冲突;划分过程基于数据量、延迟分析设备访存行为与访存冲突之间的关系,并以此来均衡各存储体的访问负载,同时提升多个设备的访存性能.该方法不依赖特殊硬件也无需修改上层应用,提供了一种透明的纯软件优化手段.将文中方法应用于真实的多媒体So C的实验结果表明,与基于带宽优先的划分方法相比,该方法在提高带宽利用率的同时降低访存延迟,将解码帧率提升8.4%~12.3%;并且在保证服务质量的情况下,可以通过进一步降低内存工作频率来减少系统功耗.
- 钟祺王晶王克义
- 关键词:内存分配
- 面向按序执行处理器的预执行指导的数据预取方法被引量:1
- 2012年
- 为提高按序执行处理器的访存性能,本文提出一种预执行指导的数据预取方法(PEDP).PEDP利用跨距预取器对规则的访存模式进行预取,并在发生L2 Cache失效后通过预执行后续指令对不规则的访存模式进行精确的预取,从而结合两者的优势提高预取覆盖率.同时,PEDP利用预执行过程中提前捕获的真实访存信息指导跨距预取器的预取过程.在预执行的指导下,跨距预取器可以对预执行能够产生的符合跨距访存模式的地址更早地发起预取请求,从而改善预取及时性.此外,为进一步优化上述指导过程,PEDP使用更新过滤器有效去除指导过程中对跨距预取器的有害更新,从而提高预取准确率.实验结果表明,在平均情况下,PEDP将基准处理器的性能提升33.0%.与跨距预取和预执行各自单独使用相比,PEDP将性能分别提高16.2%和7.3%.
- 党向磊王箫音佟冬陆俊林程旭王克义
- 关键词:数据预取
- 面向内存访问性能优化的总线仲裁方法
- 2012年
- 访存交易的处理顺序对内存访问的性能有重要影响.同一个SoC设备发出的多个未决交易往往地址连续且读写类型相同.然而,传统的总线仲裁方法导致各个设备发出的未决交易序列交错地发送至内存控制器,而内存控制器访存调度的范围有限,最终导致此类序列通常无法连续地访问内存.为解决此问题,提出一种新型的总线仲裁方法CGH,该方法利用SoC设备通信行为的特征,通过识别同一个SoC设备发出的、行地址和读写类型相同的未决交易序列并让其连续获得仲裁授权,减少内存切换行地址和读写类型的次数;同时,在选择将要授权的未决交易序列时,优先考虑行地址和读写类型与最近授权交易相同的申请,进一步提高访存效率.将CGH仲裁方法应用至北大众志-SKSoC后,系统访存性能提高了21.37%,而总线面积仅增加2.83%.此外,由于行地址切换次数减少,内存的能耗也降低了15.15%.
- 刘丹冯毅佟冬程旭王克义
- 关键词:系统芯片总线仲裁内存控制器
- 动态翻译系统中的间接转移关联软件预测算法被引量:1
- 2014年
- 动态翻译系统每执行一次间接转移指令均需进行一次地址转换,该过程是翻译系统性能开销的主要来源之一.无特殊硬件支持的翻译系统常采用软件预测法来降低地址转换开销,而软件预测法的预测准确率较低,制约其对翻译系统整体性能的提升.低开销关联软件预测算法(low-overhead correlated software prediction,LOCSP)可利用代码副本区分待预测指令的不同转移场景,将到达该指令的多条动态执行路径分离为多个互不重合的代码缓存副本,并为各个副本提供独立的预测链.从而在不增加动态指令数的前提下实现关联预测,显著提升软件预测的预测准确率.同时,LOCSP算法基于动态剖析的结果,仅对部分难预测的热点间接转移指令进行关联软件预测,进一步降低预测开销.实验表明,相比软件预测法,LOCSP算法可将平均预测准确率从58.9%提升至82.2%,将翻译系统的整体性能开销平均降低19.3%,最高降低41.9%,而平均静态代码数量仅增加2.4%.
- 贾宁杨春佟冬王克义
- 关键词:动态翻译
- 一种基于值预测和指令复用的按序处理器预执行机制被引量:1
- 2011年
- 为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时缓存失效提前发起存储访问以提高处理器性能.在退出预执行后,PVPIR通过复用有效的预执行结果来避免重复执行已正确完成的指令,以降低预执行的能耗开销.PVPIR实现了一种结合跨距(Stride)预测和AVD(Address-Value Delta)预测的值预测器,只记录发生过长延时缓存失效的Load指令信息,从而以较小的硬件开销取得较好的值预测效果.实验结果表明,与Runahead-AVD和iEA方法相比,PVPIR将性能分别提升7.5%和9.2%,能耗分别降低11.3%和4.9%,从而使能效性分别提高17.5%和12.9%.
- 党向磊王箫音佟冬陆俊林易江芳王克义
- 基于多目标演化算法的测试程序生成被引量:3
- 2010年
- 针对现有的演化测试程序方法只以覆盖率为优化目标的问题,提出一种使用多目标演化算法的测试程序生成方法.该方法把测试程序生成归结为多目标优化问题,以提高覆盖率和减少模拟执行周期作为优化目标;根据模拟器反馈回的信息,使用多目标演化算法来自动引导生成新的测试程序.使用该方法对北大众志UniCore32-2微处理器进行实验的结果表明,在保证覆盖率指标的前提下,采用文中方法生成的测试程序模拟执行时间是现有方法的12.92%,是手写测试程序集的3.62%.
- 张良佟冬林桦程旭王克义
- 关键词:多目标演化算法