徐金龙
- 作品数:32 被引量:73H指数:5
- 供职机构:中国人民解放军信息工程大学更多>>
- 发文基金:国家科技重大专项国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学自然科学总论更多>>
- 基于动态翻译的CPU仿真技术研究
- 系统仿真能够屏蔽计算机体系结构间差异,是解决软件兼容性问题的有效方法。CPU仿真是计算机系统仿真的主要方面,是目前系统级仿真关注的热点。本文针对CPU仿真中的关键问题进行了分析,并研究了针对多核平台的CPU仿真,主要贡献...
- 徐金龙
- 关键词:仿真动态翻译自修改代码并行化
- 文献传递
- 基于多途径融合的操作系统线上教学方法实践被引量:8
- 2021年
- 针对线上教学过程中师生间交流形式匮乏、教师难以掌握学生学习效果等实际情况,提出开展多途径融合授课的线上教学方式,采用以幕课与直播教学相结合为主、线上讨论与实施过程性评价为辅的教学模式,介绍具体课程线上教学过程,最后通过平时表现与终结性考核成绩说明教学效果。
- 姚金阳王俊超单征刘福东徐金龙
- 关键词:线上教学操作系统
- 基于SIMD扩展部件的嵌套循环向量并行的实现方法及其装置
- 本发明涉及一种基于SIMD扩展部件的嵌套循环向量并行的实现方法及其装置,该方法包含:通过设定破环测试参数对待并行化程序区域进行依赖环破除测试,将SIMD扩展部件对应于待并行化程序区域中循环的局部并行,通过循环分段发掘待并...
- 李颖颖庞建民徐金龙韩林李雁冰王琦
- 面向SIMD向量化的循环优化技术研究
- 2016年
- 随着SIMD扩展技术的不断发展,自动向量化逐步成为程序优化的重点。然而,大部分程序本身不能直接被向量化,需要通过循环变换来发掘潜在的并行性。首先以Open64中的循环变换为例概括介绍了传统的循环优化方式,然后从多面体表示、循环变换建模方法和代价模型等3个方面具体介绍了多面体模型指导的循环变换技术,最后对两种循环优化方式的优缺点进行了对比分析。
- 高伟徐金龙孙回回李敏
- 关键词:自动向量化
- 面向循环的混合向量化方法研究被引量:4
- 2014年
- 目前主流的两种向量化算法基于循环(loop-based)的向量化算法和超字并行(SLP)算法分别适用于不同特征的循环,前者适用于发掘迭代间的并行,后者擅于发掘迭代内的并行.向量化算法的选择将直接影响最终的向量化效果.为了增强向量化能力,提高向量化效率,根据目标循环的特征确定了向量化任务分配方案,并设计了一种混合的向量化框架来实现这种任务分配方案,旨在将两种向量化方法结合,充分发挥各自优势.同时,为了明确目标循环并行性特征,本文给出了迭代间和迭代内的向量并行性检测方法.实验结果及分析表明,本文提供的方法明显提高了向量化的识别能力,能够实现更合理的向量化任务分配.
- 徐金龙赵荣彩丁锐
- 面向SW26010处理器的三维Stencil自适应分块参数算法被引量:2
- 2021年
- Stencil计算是科学应用中的一类重要计算,而分块是提升Stencil计算数据局部性的关键技术。针对现有三维Stencil优化在SW26010处理器上缺少时间分块以及分块参数需手工调优的问题,引入时间分块,提出了面向SW26010处理器的三维Stencil自适应分块参数算法。通过建立性能分析模型,结合硬件计算能力及存储容量等限制因素,文中系统地分析了分块参数对模型性能的影响,判断性能瓶颈,指导分块参数的优化方向。基于性能分析模型,自适应分块参数算法可给出预测性能最优时的分块参数,有利于三维Stencil在SW26010处理器上的快速优化部署。选取了三维7点和三维27点Stencil算例进行实验。与未使用时间分块的三维Stencil优化相比,以上两个算例在自适应选择的分块参数下可以达到1.47和1.29的加速比,且实际最优分块参数与理论最佳分块参数一致,这验证了所提性能分析模型及自适应分块参数算法的有效性。
- 朱雨庞建民徐金龙陶小涵王军
- 基于神威平台的Floyd并行算法的实现和优化被引量:5
- 2021年
- 求解全源最短路径的Floyd算法是许多实际应用基础上的关键构建块,由于其时间复杂度较高,串行Floyd算法不适用于大规模输入图计算,针对不同平台的并行Floyd算法设计可为解决现实问题提供有效帮助。针对Floyd算法与国产自主研发处理器匹配滞后的问题,首次提出基于神威平台的Floyd并行算法的实现和优化。根据SW26010处理器主-从核架构的特点,采用主从加速编程模型进行并行实现,并分析了影响该算法性能的关键因素,通过算法优化、数组划分和双缓冲技术进行优化,逐步提升算法性能。测试结果表明,与主核上串行算法相比,基于神威平台的Floyd并行算法在单个SW26010处理器上可以获得106倍的最高加速。
- 何亚茹庞建民庞建民徐金龙陶小涵
- 关键词:FLOYD算法并行计算
- 面向规则DOACROSS循环的流水并行代码自动生成被引量:3
- 2014年
- 发掘DOACROSS循环中蕴含的并行性,选择合适的策略将其并行执行,对提升程序的并行性能非常重要.流水并行方式是规则DOACROSS循环并行的重要方式.自动生成性能良好的流水并行代码是一项困难的工作,并行编译器对程序自动并行时常常对DOACROSS循环作保守处理,损失了DOACROSS循环包含的并行性,限制了程序的并行性能.针对上述问题,设计了一种选择计算划分循环层和循环分块层的启发式算法,给出了一个基于流水并行代价模型的循环分块大小计算公式,并使用计数信号量进行并行线程之间的同步,实现了基于OpenMP的规则DOACROSS循环流水并行代码的自动生成.通过对有限差分松弛法(finite difference relaxation,简称FDR)的波前(wavefront)循环和时域有限差分法(finite difference time domain,简称FDTD)中典型循环以及程序Poisson,LU和Jacobi的测试,算法自动生成的流水并行代码能够在多核处理器上获得明显的性能提升,使用的流水分块大小计算公式能够较为精确地计算出循环流水并行时的最佳分块大小.自动生成的流水并行代码与基于手工选择的最优分块大小的流水并行代码相比,加速比达到手工选择加速比的89%.
- 刘晓娴赵荣彩赵捷徐金龙
- 基于MLIR的FP8量化模拟与推理内存优化
- 2024年
- 随着目标检测模型和语言大模型的迅速发展,网络模型正变得越来越庞大。为了更好地在端侧硬件上进行模型部署,通常采用模型量化技术对模型进行压缩。现有的模型量化策略主要基于FP16,BF16和INT8等类型实现。其中,8bit数据类型在降低推理内存占用与部署开销方面最为显著,但INT8类型依赖特定的校准算法,未能很好地处理动态范围大、离群点多的模型。FP8类型能够更好地拟合神经网络中的数据分布,同时具有多种数制,可在表达范围和表达精度上灵活调整。然而,当前MLIR系统缺乏对FP8类型量化的支持。为此,提出了一种基于MLIR系统的FP8量化模拟策略,包含FP8E4M3和FP8E5M2两种数制,通过对网络中的算子进行量化模拟,评估FP8两种数制对模型推理精度的影响。同时,针对推理引擎中存在的内存分配冗余问题,提出了一种基于定义使用链的内存复用策略,使得模型推理过程中的内存占用峰值进一步减小。实验选取了典型的Yolov5s和Resnet50模型进行测试,结果表明相较于现有的INT8量化策略,FP8量化策略能够保持更好的模型精度,同时不依赖特定校准算法,部署更为简便。在模型精度上,测试用例分别达到了55.5%和77.8%的准确度,经过内存复用优化,内存占用峰值降低了约15%~20%。
- 徐金龙徐金龙李嘉楠李颖颖韩林
- 基于形成性评价反馈的数据库系统线上教学方法实践被引量:6
- 2021年
- 针对线上授课不能实现良好的师生同步交流、教师无法及时得知学生学习效果的问题,提出基于形成性评价反馈的数据库系统线上教学方法,介绍该方法的应用实践,最后说明教学效果。
- 姚金阳刘福东单征王俊超徐金龙
- 关键词:数据库系统线上教学教学质量反馈式教学