国家自然科学基金(61100014)
- 作品数:4 被引量:13H指数:2
- 相关作者:孙凝晖曹政安学军王展刘小丽更多>>
- 相关机构:中国科学院中国科学院大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- MPI Alltoall通信在多核机群中的优化被引量:2
- 2013年
- MPI Alltoall是一种重要的集合通信.在多核机群中,一个节点内的多个进程同时参与Alltoall通信.一方面,这些进程可以利用共享内存优化通信性能.虽然当前基于首进程的方法利用共享内存提高了Alltoall小消息通信的性能,但由于采用固定数目的首进程,这些方法不能使所有不同长度的小消息都获得最优性能.另一方面,这些进程需要竞争节点内有限的网络资源.在Alltoall大消息的通信中存在许多个同步消息.然而竞争导致同步消息的延迟增大了数十倍,同步开销不可忽略.针对这些问题,提出了两种不同的优化方法.对于Alltoall小消息通信,PLP方法根据小消息的长度采用不同数目的首进程;对于Alltoall大消息通信,LSS方法将同步消息的总数从3N减少到2N(1/2).相关实验结果验证了这两种方法.对于小消息,PLP方法总是可以获得最优的性能.对于大消息,LSS方法获得的性能提升比例几乎为常数,并且与系统的规模无关;其中32KB和64KB消息的性能提高了25%.
- 李强孙凝晖霍志刚马捷
- 关键词:共享
- 高性能计算节点中的同步操作加速引擎设计
- 2012年
- 随着GPU等加速部件在超级计算领域的广泛应用,超级计算机单个节点的硬件并行度比单核时代高几倍甚至几十倍。在该环境下,并行应用于单个芯片、计算节点内和计算节点间的通信密度较单核时代急剧增加,通信瓶颈问题愈发突出。为应对高并行度带来的通信瓶颈问题,提出一种同步引擎的硬件设计,该同步引擎可有效地支持和加速计算节点内多任务间频繁小数据量传输(细粒度同步)以及计算节点内和节点间的Barrier、All-reduce集合操作,进而加速并行应用的性能。测试结果表明,在16进程规模下的集合操作测试中,同步引擎相比传统的软件实现有约4倍的加速,在三角矩阵分解(LU分解)测试程序中可以获得约20%的性能提升。
- 陈飞曹政王凯胡农达安学军
- 关键词:通信系统高性能计算机混合编程
- 基于单根I/O虚拟化的多根I/O资源池化方法被引量:8
- 2015年
- 虚拟化技术在为现代数据中心提供高效的服务器整合能力和灵活的应用部署能力的同时,也对数据中心服务器的I/O系统设计提出了新的需求,现有I/O资源与服务器紧密绑定的I/O体系架构将产生成本上升、资源冗余、I/O连线复杂化等一系列问题.针对上述问题,提出了一种基于单根I/O虚拟化协议(single root I/O virtualization,SR-IOV)的多根I/O资源池化方法:基于硬件的多根域间地址和ID映射机制,实现了多个物理服务器对同一I/O设备的共享复用,有效减少单体服务器所需的设备数量和连线数量,并进一步提高服务器密度;同时提出虚拟I/O设备热插拔技术和多根共享管理机制,实现了虚拟I/O资源在服务器间的实时动态分配,提高资源的利用效率.提出的方法在可编程逻辑器件(fieid-programmable gate array,FPGA)原型系统中进行了验证,其评测表明,方法能够在实现多根I/O虚拟化共享的同时,保证各个根节点服务器获得近乎本地直连设备的I/O性能.
- 王展曹政刘小丽苏勇李强安学军孙凝晖
- 关键词:数据中心服务器I/O虚拟化
- 一种低开销的面向节点内互连的网络接口控制器被引量:3
- 2015年
- 高性能计算和云计算的飞速发展对高性能互连网络的设计提出了越来越高的要求:除了要保证高带宽、低延迟和高可靠性等特性,还要面临成本和系统规模的挑战.该文针对这些特性和挑战提出了一种低开销的基于cHPP体系结构的超节点网络接口控制器:(1)设计了兼容PCIe的网络通信协议,降低协议转换开销、减少通信延迟并增强系统可扩展性能;(2)采用PCIe高速通信接口并支持用户级通信提高软硬件交互效率,面向MPI编程模型抽象出高效通信原语(如NAP、PUT和GET)加速大数据传输;(3)硬件支持I/O虚拟化实现超节点内对网络接口控制器的高效共享.为了对该文的设计进行功能和性能验证,文章基于FPGA实现了系统原型,实验结果显示最低延迟为1.242μs,有效数据带宽可达3.19GB/s.
- 苏勇曹政刘飞龙王展刘小丽安学军孙凝晖
- 关键词:互连网络接口控制器直接存储器访问PCIEXPRESSI/O虚拟化