佟冬 作品数:58 被引量:130 H指数:7 供职机构: 北京大学 更多>> 发文基金: 国家高技术研究发展计划 国际科技合作与交流专项项目 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
蒙哥马利算法到脉动阵列的规范映射方法 被引量:1 2004年 蒙哥马利算法是在RSA密码系统中广泛应用的模乘法算法。该文介绍蒙哥马利算法到脉动阵列的映射过程,阐述了从算法到脉动阵列的规范映射方法。阵列的时钟周期长度大致是两个单位全加器延迟,n位模乘法的计算延迟是2n+2个时钟周期。模块化、规则化、通信局部化等特征,使得脉动阵列特别适合采用深亚微米VLSI技术实现,并获得很高的工作频率,从而提高处理速度。 刘强 佟冬 程旭关键词:蒙哥马利算法 脉动阵列 基于固件的系统芯片协同验证平台 2011年 使用FPGA进行全系统仿真是验证基于平台设计的系统芯片(SoC)的有效手段,但FPGA原型验证一方面须等待硬件设计完成编码,另一方面FPGA全系统环境下的硬件设计错误定位耗时,验证周期较长.为更早展开系统级验证工作并缩短验证周期,提出一种基于固件的协同验证平台——FCVP.FCVP在FPGA上基于固件模拟待测硬件设计和系统模块,通过运行真实工作负载,对比FPGA中待测硬件设计和FCVP模拟参考模型的行为,帮助分析、定位硬件设计错误.在PKUnity86 SoC上进行验证的实例表明,FCVP可用于SoC设计初期验证,并可有效地辅助硬件设计错误的定位.性能评测显示,FCVP模拟性能优于纯软件模拟器. 李皓 李险峰 庞九凤 黄侃 郑衍松 佟冬 程旭关键词:系统芯片 固件 全系统模拟器 结合PVT模拟和排队模型的系统级主存性能分析 被引量:1 2010年 由于主存系统的性能受到多种因素的影响,现有方法不能快速地得到可靠的分析结果,从而影响芯片质量和上市时机.为解决此问题,提出将带时序的程序员视图(PVT)模拟和排队论相结合的方法——ComPQ.首先从PVT模拟中提取与访存相关的系统级实时参数,然后将主存系统抽象为非抢占优先的M/G/1排队模型,再结合实时参数进行性能分析,得到平均访存延迟结果.由于PVT的建模和模拟代价小,从中得到的实时参数弥补了静态理论分析的不足;同时,排队论也提高了纯PVT模拟的精度.实验结果表明,ComPQ与周期精确级模拟相比平均误差为6.38%,最后用主存系统设计空间探索的实例验证了ComPQ的有效性. 林桦 佟冬 黄侃 王克义 程旭关键词:系统级设计 事务级建模 排队论 性能分析 基于关键信号的路径覆盖率模型 被引量:2 2006年 针对使用路径覆盖率作为验证目标时出现的路径数量庞大、覆盖率难以快速提高等问题,使用控制流图表示代码逻辑结构,采用数据流分析技术对待验证路径进行合理的化简.所产生的路径集合规模小、针对性强,有利于尽早发现设计错误.最后使用遗传算法生成模拟矢量,并基于北京大学“众志-863系统”芯片中的功能模块给出实验结果,说明该覆盖率模型的有效性. 易江芳 佟冬 程旭关键词:数据流分析 遗传算法 基于新型脉动阵列的RSA密码处理器 被引量:2 2005年 应用于RSA密码系统的蒙哥马利模乘法算法,在专用集成电路实现时可以采用脉动阵列结构。长比特(10 2 4位以上)数据的全局信号传输和乘法器的动态分割问题,对于RSA密码处理器的速度提高是非常重要的因素。作者提出一种基于模块的全局信号广播策略,减少全局信号的影响:通过采用流水化的总线传送全局数据;通过移位寄存器传送控制信号以及用于连续的乘法的中间结果。除了全局时钟之外的信号都被限定在一个模块内部或者相邻的2个模块之间。中国剩余定理(CRT)的采用,将解密速度提高了近4倍,作者提出一种冗余结构,使得在采用CRT时乘法器可以有效的进行动态分割。 刘强 马芳珍 佟冬 程旭关键词:公钥基础设施 超大规模集成电路 脉动阵列 深亚微米技术 中国剩余定理 MDCI:基于多粒度动态控制流不变式的硬件故障局部化 2010年 本文提出了一种基于多粒度动态控制流不变式的硬件故障局部化方法MDCI.该方法基于预先提取的置信度较高的各种粒度动态控制流不变式,多粒度逐级迭代地检验控制流不变式程序点是否可达,从而将与硬件故障相关的代码范围局部化.实验结果表明MDCI只需检验少量的控制流程序点,就能准确地将与故障相关的代码范围局部化. 郑衍松 佟冬 王克义 程旭关键词:多粒度 硬件故障 A Slice Analysis-Based Bayesian Inference Dynamic Power Model for CMOS Combinational Circuits 2008年 To improve the accuracy and speed in cycle-accurate power estimation, this paper uses multiple dimensional coefficients to build a Bayesian inference dynamic power model. By analyzing the power distribution and internal node state, we find the deficiency of only using port information. Then, we define the gate level number computing method and the concept of slice, and propose using slice analysis to distill switching density as coefficients in a special circuit stage and participate in Bayesian inference with port information. Experiments show that this method can reduce the power-per-cycle estimation error by 21.9% and the root mean square error by 25.0% compared with the original model, and maintain a 700 + speedup compared with the existing gate-level power analysis technique. 陈杰 佟冬 李险峰 谢劲松 程旭覆盖矩阵反馈的演化测试程序生成方法 2011年 覆盖率驱动的测试程序生成是目前微处理器功能验证的研究热点之一,现有的演化测试程序生成方法应用到大规模复杂功能覆盖率模型时效果不佳.针对该问题,首先使用分组策略将全局功能覆盖率模型划分为若干覆盖率子模型,然后为每个覆盖率子模型独立运行基于覆盖矩阵反馈的演化测试程序生成进程.将文中方法应用到北大众志UniCore32定点处理器核的流水线控制相关机制的功能验证中,可以取得95.11%的功能覆盖率;与现有演化测试生成方法相比,在算法运行时间节省60.4%的情况下功能覆盖率提高了31.03%. 张良 佟冬 程旭 王克义关键词:演化算法 测试程序生成 动态翻译系统中的间接转移关联软件预测算法 被引量:1 2014年 动态翻译系统每执行一次间接转移指令均需进行一次地址转换,该过程是翻译系统性能开销的主要来源之一.无特殊硬件支持的翻译系统常采用软件预测法来降低地址转换开销,而软件预测法的预测准确率较低,制约其对翻译系统整体性能的提升.低开销关联软件预测算法(low-overhead correlated software prediction,LOCSP)可利用代码副本区分待预测指令的不同转移场景,将到达该指令的多条动态执行路径分离为多个互不重合的代码缓存副本,并为各个副本提供独立的预测链.从而在不增加动态指令数的前提下实现关联预测,显著提升软件预测的预测准确率.同时,LOCSP算法基于动态剖析的结果,仅对部分难预测的热点间接转移指令进行关联软件预测,进一步降低预测开销.实验表明,相比软件预测法,LOCSP算法可将平均预测准确率从58.9%提升至82.2%,将翻译系统的整体性能开销平均降低19.3%,最高降低41.9%,而平均静态代码数量仅增加2.4%. 贾宁 杨春 佟冬 王克义关键词:动态翻译 保证QoS的片上网络低能耗映射与路由方法 被引量:11 2008年 为解决二维mesh片上网络的服务质量和低能耗问题,提出基于最优化搜索的拓扑映射与路由方法Q-LEMR.该方法以降低芯片通信能耗为目标,在保证系统延迟与带宽的服务质量的前提下,自动将给定应用的IP核映射到片上网络结构上,并为通信踪迹定制设计确定的、非死锁的最短路径路由;同时通过加速策略使映射和路由的计算在可接受的时间范围内完成.实验结果表明,Q-LEMR较现有工作平均降低通信能耗28.8%,并满足服务质量要求. 林桦 李险峰 佟冬 程旭关键词:片上网络 拓扑映射 路由