国家高技术研究发展计划(2009AA01A129)
- 作品数:17 被引量:41H指数:4
- 相关作者:马灿熊劲孟丹马捷霍志刚更多>>
- 相关机构:中国科学院中国科学院研究生院中国科学院大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术自然科学总论电子电信更多>>
- T-NBC:透明的MPI非阻塞集合操作被引量:3
- 2011年
- 在不修改应用程序的前提下,在MPI通信库中将阻塞的集合操作转化为非阻塞的实现可以将集合通信与紧跟在集合操作之后的计算重叠起来,从而提高应用的性能.在应用中,集合操作之后的计算包括集合通信无关的计算和集合通信相关的计算两类.集合通信可以与前者很好地重叠;由于后者需要访问通信数据,与后者的重叠和集合通信中多个集合子消息的通信顺序密切相关.在该文中,我们实现了对应用透明的非阻塞集合操作T-NBC(Transparent Non-Blocking Collective operations).T-NBC不但将集合通信与集合通信无关的计算充分重叠起来,而且为了进一步增大集合通信与集合通信相关计算的重叠,它可根据应用访问多个集合子消息的顺序赋予这些子消息不同的通信优先级.微基准测试显示,T-NBC可以将绝大部分的集合通信与集合操作之后的计算重叠起来.在NPB(NAS Parallel Benchmarks)测试FT(Fourier Transform)和IS(Integer Sort)中,尽管集合操作之后的计算主要为集合通信相关的计算,但很大部分的集合通信时间被重叠,它们的性能分别提高了5%和36%.
- 李强孙凝晖霍志刚马捷
- 关键词:非阻塞
- 高性能计算节点中的同步操作加速引擎设计
- 2012年
- 随着GPU等加速部件在超级计算领域的广泛应用,超级计算机单个节点的硬件并行度比单核时代高几倍甚至几十倍。在该环境下,并行应用于单个芯片、计算节点内和计算节点间的通信密度较单核时代急剧增加,通信瓶颈问题愈发突出。为应对高并行度带来的通信瓶颈问题,提出一种同步引擎的硬件设计,该同步引擎可有效地支持和加速计算节点内多任务间频繁小数据量传输(细粒度同步)以及计算节点内和节点间的Barrier、All-reduce集合操作,进而加速并行应用的性能。测试结果表明,在16进程规模下的集合操作测试中,同步引擎相比传统的软件实现有约4倍的加速,在三角矩阵分解(LU分解)测试程序中可以获得约20%的性能提升。
- 陈飞曹政王凯胡农达安学军
- 关键词:通信系统高性能计算机混合编程
- HPP控制器的系统级功能验证
- HPP(Hyper Parallel Processing)控制器应用在超龙一号和曙光6000节点中,提供了CPU之间的互连通路,实现了节点内统一地址空间和节点内数据通信功能。为了对HPP控制器进行有效的功能验证,设计了...
- 刘涛柴双勇蔺建邦弓睿安学军
- 关键词:插件
- 文献传递
- 曙光星云分布式文件系统:海量小文件存取被引量:9
- 2012年
- 随着互联网应用的发展和云计算的兴起,在线图片、音频、视频以及微博等服务逐渐广泛发展,这些应用展示了与传统应用截然不同的数据访问和存储模式.数据中心内每秒钟都有大量较小文件的生成、分析和返回,这些应用对高并发海量文件的高吞吐、低延迟读写提出了新的挑战.提出基于分布式表存储的全新的分布式文件系统HVFS来管理数以十亿计的文件,并同时支持高吞吐和低延迟的文件访问.HVFS通过改进分布式可扩展哈希来管理元数据、日志结构的格式和列存储来利用时空局部性.本文描述了HVFS的设计和实现并进行了中等规模的实验.实验显示HVFS的表存储结构能够线性的扩展,并在82个结点上提供超过240,000次/秒、100,000次/秒的数据(<1KB)写和读;基于FUSE的实现在32个节点上提供超过180,000个/秒的文件创建速度.
- 马灿孟丹熊劲
- 关键词:分布式文件系统海量文件
- 一种面向加密算法共性子图的指令定制方法被引量:2
- 2012年
- 为提高处理器对加密算法的处理效率和扩展性能,本文提出一种基于共性子图的指令定制方法.该方法通过挖掘常用加密算法中的共性计算模式,用一条模式指令替换多条被共性模式覆盖的指令,并使用查找表(LUT)对S-盒间址访问进行处理,达到减少算法指令数的目的.我们针对MD5,SHA256,RC5和AES等4种常用加密算法进行了实验,结果表明该方法可以有效的减少4种算法的核心循环体指令,使这些算法得到15.4%~60.6%的指令减少率.
- 胡绵江窦勇倪时策吴侃
- 关键词:加密算法S-盒
- 面向机群文件系统的高可靠消息传输机制被引量:1
- 2011年
- 针对机群文件系统的个子操作出现错误会影响数据的可用性,提出了一种高可靠的消息传输机制HR-NET.将机群文件系统的网络故障分为3类:发送错误;接收错误;请求应答错误.对于前2种错误,提出了基于冗余传输路径的网络容错机制,对消息收发故障进行恢复,同时引入消息优先级调度策略,动态地调整消息的处理次序,避免请求应答类型的错误.通过分离并单独处理网络故障,HR-NET为机群文件系统提供了高可靠的通信机制,简化了上层文件语义操作的实现.测试结果表明HR-NET高可靠性机制所带来的性能损失低于9%.
- 周江熊劲马灿
- 关键词:机群文件系统可靠性网络故障容错机制
- MPI Alltoall通信在多核机群中的优化被引量:2
- 2013年
- MPI Alltoall是一种重要的集合通信.在多核机群中,一个节点内的多个进程同时参与Alltoall通信.一方面,这些进程可以利用共享内存优化通信性能.虽然当前基于首进程的方法利用共享内存提高了Alltoall小消息通信的性能,但由于采用固定数目的首进程,这些方法不能使所有不同长度的小消息都获得最优性能.另一方面,这些进程需要竞争节点内有限的网络资源.在Alltoall大消息的通信中存在许多个同步消息.然而竞争导致同步消息的延迟增大了数十倍,同步开销不可忽略.针对这些问题,提出了两种不同的优化方法.对于Alltoall小消息通信,PLP方法根据小消息的长度采用不同数目的首进程;对于Alltoall大消息通信,LSS方法将同步消息的总数从3N减少到2N(1/2).相关实验结果验证了这两种方法.对于小消息,PLP方法总是可以获得最优的性能.对于大消息,LSS方法获得的性能提升比例几乎为常数,并且与系统的规模无关;其中32KB和64KB消息的性能提高了25%.
- 李强孙凝晖霍志刚马捷
- 关键词:共享
- 1U9P异构多核服务器节点设计
- 为应对高性能计算的技术挑战,设计了一种符合超并行体系结构的HPP控制器,可以直接连接一个X86架构的AMD多核处理器和八个MIPS架构的龙芯多核处理器组成一个异构服务器节点,并为节点设计了一款1U机架式机箱,已完成的超龙...
- 吴冬冬解利伟安学军
- 关键词:异构龙芯
- 文献传递
- 基于Hash索引的高通量基因序列比对并行加速技术研究被引量:4
- 2013年
- 近年来随着高通量基因测序技术的迅速发展,测序成本和周期都得到了大幅降低.然而,新一代测序技术海量数据生成能力以及各类测序算法蕴含的高并发性却对现有计算机的运算能力提出了新挑战.以一个基于Hash索引算法实现的开源重测序程序(PerM)为例,研究了在商用多核CPU上加速该应用程序的关键技术.在一个64核SMP系统上的实验结果证明,提出的优化技术可以使Cache缺失率降低90%,性能提升4~11倍.接下来探讨了在一个包含XilinxLX330FPGA的加速卡上设计实现专用并行加速系统的相关问题.作为原型验证系统,在基于FPGA的PCIe加速卡上设计并实现了包含11个处理单元的脉动陈列并行计算系统.和IntelXeonX75508核CPU相比,提出的并行加速器有30~65倍性能功耗比优势.
- 王文迪汤文段勃张春明张佩珩孙凝晖
- 关键词:生物信息学高通量测序FPGA
- 基于SSD的机群文件系统元数据存储系统被引量:8
- 2012年
- 随着数据量的增加和元数据操作性能需求的提高,传统基于磁盘(HDD)存储架构的机群文件系统元数据存储系统由于HDD成为性能瓶颈而无法满足需求.将SSD应用到元数据存储中,设计实现了一个基于SSD+HDD的异构元数据存储系统Hybrid MDSL.针对SSD的I/O特性设计了基于追加写的元数据存储组织,并通过基于访问热度的数据迁移机制提高SSD空间利用率.测试结果表明,Hybrid MDSL明显提高了元数据I/O的性能.
- 陈卓熊劲马灿
- 关键词:机群文件系统SSD