卿鹏
- 作品数:13 被引量:9H指数:2
- 供职机构:江南计算技术研究所更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 函数调用和返回的处理方法、二进制翻译方法和系统
- 本发明公开了一种函数调用和返回的处理方法、二进制翻译方法和系统,所述函数调用和返回的处理方法包括:将源程序的函数调用的返回地址作为假指令保存在目标程序的函数调用指令之后;在目标程序的函数调用开始,将所述假指令的地址保存到...
- 唐大国王丽一漆锋滨文延华卿鹏孙俊
- 文献传递
- 基于MPI的软件消息重传容错方法
- 本发明公开一种基于MPI的软件消息重传容错方法,基于MPI消息库,包括以下步骤:S1、消息发送方发起消息发送操作,并发起对消息接收方网络接口的请求(Req);S2、接收方接收来自发送方的请求和/或消息数据后,发送一个消息...
- 漆锋滨于康魏迪方燕飞卿鹏董恩铭高剑尹万旺
- 文献传递
- 一种异构众核架构下的任务动态分配异步管理方法
- 本发明公开一种异构众核架构下的任务动态分配异步管理方法,包括以下步骤:S1、运算核心向控制核心发送任务请求;S2、初始化任务池;S3、判断任务请求类型是计算任务还是控制代理任务;S4、控制核心响应运算核心请求,分配任务至...
- 于康董恩铭卿鹏杨小川李雁冰方燕飞刘齐文延华王云飞
- 用户发起的运行时状态检测方法
- 本发明公开了一种用户发起的运行时状态检测方法,子节点将通信域记录的运行时状态信息发送给父节点;父节点开始进入收消息流程,收到子节点发来的第一个状态包后设置与通信域编号绑定的定时器并进入下一次消息流程,若定时器超时之前所有...
- 于康董恩铭何王全卿鹏方燕飞漆锋滨
- 文献传递
- 基于聚类分析的进程拓扑映射优化被引量:5
- 2015年
- 高性能计算机系统规模的持续增大使通信墙问题越来越突出.逻辑进程与物理拓扑的映射优化方法能够提高应用的通信效率,已经成为高性能计算的研究热点之一.传统的进程映射优化模型由于映射粒度过细,导致映射效率低,且易破坏通信密集的进程簇的整体性.为此,文中提出了一种聚合的二次分配问题(Aggregated Quadratic Assignment Problem,AQAP)模型,并以AQAP模型为指导,提出了一种新颖的基于聚类分析的进程映射优化方法.该方法首先使用谱聚类算法对进程通信模式进行聚类分析,然后采用自适应聚合进程映射策略实现进程簇到物理拓扑的映射,最后使用聚合Pair-Exchange算法对进程簇映射进行进一步优化.文中提出的优化方法首次将谱聚类分析应用于进程映射问题,可以有效减少远距离通信,增强通信的局部性.NPB基准程序及两道实际应用的实验结果表明,文中提出的进程映射优化方法可以使程序获得明显的性能提升,优于现有的基于Pair-Exchange以及基于图划分的进程映射方法.
- 王涛卿鹏魏迪漆锋滨
- 关键词:通信模式物理拓扑谱聚类MPI
- 面向高性能计算的分布式故障定位框架被引量:4
- 2018年
- 针对高性能计算系统中故障定位难度高且实时性差的问题,提出了一种基于消息传递的故障定位框架(MPFL),包括基于树形拓扑的故障检测(TFD)和故障分析(TFA)算法。首先,在并行作业初始化时,将所有参与计算的节点进行逻辑上的树形划分,生成故障定位树(FLT),并将故障定位任务分布到节点上;然后,当消息库、操作系统等组件检测到节点异常状态时,基于TFD算法分析作业的FLT结构,根据负载平衡、性能开销等因素选择接收异常状态的节点;最后,节点利用TFA算法对接收到的异常状态进行推理得出故障,TFA算法使用基于规则的事件关联,并基于消息传递设计轻量级的主动探测,将两种方式相结合,提高了故障分析的准确性。实验以模拟节点停机故障为定位目标,并以NPB-FT与NPB-IS为基准测试,在集群上对MPFL框架进行了评估。实验结果表明,MPFL框架在故障定位能力与开销节省方面表现突出。
- 高剑于康卿鹏尉红梅
- 关键词:故障定位
- FILiC:一种CUDA上的交互型库函数框架
- 2012年
- CUDA是NVIDIA公司推出的GPU编程模型,它为高效利用GPU计算能力提供了强大的支持。但CUDA线程无法直接访问I/O设备、网卡等外围设备,在CUDA线程与外围设备的交互功能方面,目前CUDA的支持十分有限,仅支持非实时的屏幕打印(printf)。因此提出了一种交互型库函数框架FILiC,它通过设备和主机之间的巧妙交互,高效实现了CUDA线程实时的较完整I/O等函数;并且该框架具有很好的可扩展性,CUDA程序员或者编译器开发者可基于该框架按需求开发新的CUDA线程交互功能。
- 吴伟卿鹏漆锋滨
- 关键词:CUDA可扩展性
- FILiC:一种CUDA上的交互型库函数框架
- CUDA是NVIDIA公司推出的GPU编程模型,它为高效利用GPU计算能力提供了强大的支持。但由于CUDA线程无法直接访问I/O设备、网卡等外围设备,在CUDA线程与外围设备的交互功能方面,目前CUDA的支持十分有限,仅...
- 吴伟卿鹏漆锋滨
- 关键词:可扩展性统一计算设备架构编程模型图形处理单元
- 合并执行大规模并行线程的数据扩展优化方法
- 本发明公开了一种合并执行大规模并行线程的数据扩展优化方法,包括:在合并执行的并行线程中识别线程不变量;所述线程不变量在每个合并执行的并行线程中保持一致;编译过程中,仅对非线程不变量,进行数据扩展。本发明减少了不必要的线程...
- 吴伟卿鹏文延华王珊珊何王全刘勇方燕飞毛兴权
- 文献传递
- 合并执行大规模并行线程的数据扩展优化方法
- 本发明公开了一种合并执行大规模并行线程的数据扩展优化方法,包括:在合并执行的并行线程中识别线程不变量;所述线程不变量在每个合并执行的并行线程中保持一致;编译过程中,仅对非线程不变量,进行数据扩展。本发明减少了不必要的线程...
- 吴伟卿鹏文延华王珊珊何王全刘勇方燕飞毛兴权
- 文献传递