陈长波
- 作品数:22 被引量:26H指数:2
- 供职机构:中国科学院重庆绿色智能技术研究院更多>>
- 发文基金:国家自然科学基金重庆市科技攻关计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 带状稀疏矩阵乘法及高效GPU实现
- 2023年
- 稀疏-稠密矩阵乘法(SpMM)广泛应用于科学计算和深度学习等领域,提高它的效率具有重要意义。针对具有带状特征的一类稀疏矩阵,提出一种新的存储格式BRCV(Banded Row Column Value)以及基于此格式的SpMM算法和高效图形处理单元(GPU)实现。由于每个稀疏带可以包含多个稀疏块,所提格式可看成块稀疏矩阵格式的推广。相较于常用的CSR(Compressed Sparse Row)格式,BRCV格式通过避免稀疏带中列下标的冗余存储显著降低存储复杂度;同时,基于BRCV格式的SpMM的GPU实现通过同时复用稀疏和稠密矩阵的行更高效地利用GPU的共享内存,提升SpMM算法的计算效率。在两种不同GPU平台上针对随机生成的带状稀疏矩阵的实验结果显示,BRCV的性能不仅优于cuBLAS(CUDA Basic Linear Algebra Subroutines),也优于基于CSR和块稀疏两种不同格式的cuSPARSE。其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比分别为6.20和4.77。此外,将新的实现应用于图神经网络(GNN)中的SpMM算子的加速。在实际应用数据集上的测试结果表明,BRCV的性能优于cuBLAS和基于CSR格式的cuSPARSE,且在大多数情况下优于基于块稀疏格式的cuSPARSE。其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比为4.47。以上结果表明BRCV可以有效提升SpMM的效率。
- 刘丽陈长波
- 关键词:图形处理单元共享内存
- 基于简化爆炸流场模型的分裂效果研究与实现
- 在虚拟现实的很多应用中,如战场仿真,模拟训练等,常常需要对爆炸现象建模。爆炸广义上指一种极为迅速的物理或化学的能量释放过程,而通常所说的爆炸指化学爆炸。它们由物质发生化学反应引起,瞬间释放巨大能量的同时常产生丰富的可见现...
- 陈长波
- 关键词:图形处理器
- 文献传递
- 基于STL文件的3D打印分层算法研究及实现
- 李文康陈长波吴文渊
- 一种保留模型特征的3D打印自适应切片方法
- 本发明涉及一种保留模型特征的3D打印自适应切片方法,属于3D打印技术领域。该方法包括以下步骤:1)根据实际工程设计,建立三维模型,并对模型进行网格化处理,生成STL文件数据;2)对模型的STL文件数据进行预处理;3)采用...
- 陈长波李文康杨文强
- 文献传递
- 一种用于3D打印中CLI文件错误检查的方法
- 本发明涉及一种用于3D打印中CLI文件错误检查的方法,属于3D打印技术领域。该方法包含以下步骤:1)判断所需进行3D打印的CLI文件是否满足CLI文件的格式要求,若不满足,则无法对其进行错误检查;2)检查CLI文件,判断...
- 陈长波李文康吴文渊杨文强
- 一种图神经网络的变维批处理小矩阵乘法加速方法
- 本发明提供了本发明提供了一种图神经网络的变维批处理小矩阵乘法加速方法,属于高性能计算领域。首先设计了三种不同的变维小矩阵乘法加速策略,包含:针对维度固定或矩阵分布不均的BVSM‑B策略、针对维度跨度较小且分布均匀的BVS...
- 陈长波戴翰文杨文强
- 一种双重约化的矩阵乘法的分块参数空间优化方法
- 本发明涉及一种双重约化的矩阵乘法的分块参数空间优化方法,属于计算机数值计算领域,该方法包括以下步骤:S1:输入矩阵乘法算子;S2:获取相关的信息,选取DNMM变换;S3:定义优化Schedule;S4:计算参数空间;S5...
- 陈长波池昊宇杨文强
- 文献传递
- 基于分级神经网络的柱形代数分解变元序选择
- 2020年
- 柱形代数分解是广泛应用于求多项式系统实数解的一种计算方法。不同的变元序对其计算时间有显著影响。已有选序算法多基于启发式的经验算法,准确率不高。少数基于机器学习的方法使用的数据集较小,且基于复杂人工特征。文中在随机生成大量多项式系统与所有序计算时间标注的数据基础上,提出一类新的多项式显性表示特征和一种新的分级神经网络。首先根据最差序计算时间将数据集划分成4个不同计算难度的子集并分别建立预测最优序的分类模型,其次建立预测最长计算时间的回归模型,最后根据回归模型预测最长计算时间并据其自动选择相应难度分类模型预测最优变元序。实验结果表明,显性特征的性能优于复杂人工特征,且在困难问题上分级神经网络所预测最优序的性能约为经验选序算法的3倍。
- 朱章鹏陈长波
- 基于机器学习的多面体模型下的循环置换
- 2023年
- 针对现有多面体编译器默认调度性能欠佳的问题,提出了一种在给定问题规模下为循环程序预测最佳置换的方法。扩展Pluto以支持循环置换功能,构建决策树模型以在问题规模变化较大时预测最佳置换,构建回归模型以在问题规模相对集中时预测并行环境下的最佳置换,同时构建统一模型和泛化模型以提高方法的实用性。实验结果表明,决策树模型在并行环境下相较于Pluto取得了最大3.99倍和几何平均2.25倍的加速比,在并行和串行环境下分别达到了Oracle的92%和99%;回归模型的性能达到了Oracle的97%。
- 彭畅陈长波
- STL文件的法向量错误修复被引量:2
- 2015年
- 为了修复STL文件中的法向量错误,首先将有法向量错误的三角面片所围成的轮廓分为单个环、相连环以及环中环三种类型;然后采用如下的步骤来修复错误:找到所有有法向量错误的三角面片的边界边,找出边界边形成的封闭环,标记封闭环内的三角面片,使封闭环内的三角面片的法向量反向。最后实现了所提的法向量修复算法,并用例子验证了算法的正确性。该方法可用于STL文件的错误检测和修复中。
- 李文康陈长波吴文渊
- 关键词:STL文件3D打印