龙国平 作品数:18 被引量:28 H指数:3 供职机构: 中国科学院软件研究所 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
基于OpenCL的拉普拉斯图像增强算法优化研究 被引量:17 2012年 OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、GPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD和NVIDIA GPU上都取得了3.7~136.1倍、平均56.7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%~346.7%、平均143.1%的性能提升,验证了提出的优化方法的有效性和性能可移植性。 贾海鹏 张云泉 龙国平 徐建良 李焱关键词:OPENCL 跨平台 基于OpenCL的均值平移算法在多个众核平台的性能优化研究 被引量:1 2013年 OpenCL作为一种面向多种平台、通用目的的编程标准,已经对许多应用程序进行了加速。由于平台硬件和软件环境的差异,通用的优化方法不一定在所有平台都有很好的加速。通过对均值平移算法在GPU和APU平台的优化,探讨了不同平台各种优化方法的贡献力,一方面研究各个平台的计算特性,另一方面体会不同优化方法的优劣,在优劣的相互转化中寻求最优的解决方案。实验表明,算法并行优化前、后在AMD 5850、Tesla C2050和APU A6-3650上分别达到了9.68、5.74和1.27倍加速,并行相比串行程序达到79.73、93.88和2.22倍加速,前两个平台OpenCL版本相比,CUDA版本的OpenCV程序达到1.27和1.24倍加速。 庞旭 张云泉 龙国平 贾海鹏 颜深根关键词:GPU APU OPENCL 均值平移算法 基于OpenCL的图像模糊化算法优化研究 被引量:6 2012年 现代GPU一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(CUDA、OpenCL)都定义了特定程序设计接口(CUDA的纹理内存,OpenCL的图像对象)以便图像应用能利用相关硬件支持。以典型图像模糊化处理算法在AMD平台GPU的优化为例,探讨了OpenCL的图像对象在图像算法优化上的适用范围,尤其是分析了其相对于更通用的基于全局内存加片上局部存储进行性能优化的方法的优劣。实验结果表明,图像对象只有在图像为四通道且计算过程中需要缓存的数据量较小时才能带来较好的性能改善,其余情况采用全局内存加局部存储都能获得较好性能。优化后的算法性能相对于精心实现的CPU版加速比为200~1000;相对于NVIDIA NPP库相应函数的性能加速比为1.3~5。 张樱 张云泉 龙国平关键词:AMD GPU BLUR OPENCL 图像对象 自适应光学数值仿真成像在GPU上的实现 被引量:2 2014年 在自适应光学(AO)系统中,成像是不可或缺的一部分。AO仿真系统中的探测器和哈特曼-夏克波前传感器的成像过程一般用二维的离散卷积来计算,而通常它的数值算法用快速傅立叶变换(FFT)实现。但是随着矩阵维数的增加,卷积的运算量会急剧增大,成为制约整个AO仿真效率的一个瓶颈。利用图形处理器(GPU)的强大计算能力,可以使成像系统运行速度大幅提高。在NVIDIA Tesla C2050 GPU上,针对不同分辨率的图像,获得了相对于串行程序5-24倍的加速比。 吴振华 唐秋艳 王中杰 马文静 龙国平 李玉成关键词:自适应光学系统 卷积 快速傅立叶变换 图形处理器 面向相似App推荐的列表式多核相似性学习算法 被引量:2 2017年 相似App推荐可以有效帮助用户发现其所感兴趣的App.与以往的相似性学习不同,相似App推荐场景主要面向的是排序问题.本文主要研究在排序场景下如何学习相似性函数.已有的工作仅关注绝对相似性或基于三元组的相似性.本文建模了列表式的相似性,并将三元组相似性与列表式相似性用统一的面向排序场景的相对相似性学习框架来描述,提出了基于列表的多核相似性学习算法SimListMKL.实验证明,该算法在真实的相似App推荐场景下性能优于已有的基于三元组相似性学习算法. 卜宁 牛树梓 马文静 龙国平关键词:多核学习 一种基于异构加速平台的二维相位解缠绕方法 本发明设计了一种基于异构加速平台的二维相位解缠绕方法。在Branch cut步骤中加入了局部匹配,克服了并行实现的瓶颈;在算法的FloodFill步骤中使用Block的动态组织方式,解决了数据依赖;通过合并和压缩存储、创... 吴振华 马文静 龙国平 李玉成文献传递 基于OpenCL的图像重映射算法优化研究 被引量:3 2013年 图像重映射(Remap)算法是典型的图像变化算法。在图像放缩、扭曲、旋转等领域有着广泛的应用。随着图片规模和分辨率的不断提高,对图形映射算法的性能提出了越来越高的要求。本文在充分考虑不同GPU平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下图像映射(Remap)算法在不NGPU平台上的高效实现方式。并从片外内存访存优化,向量化计算,减少动态指令等多个优化角度考察了不同优化方法在不同GPU平台上对性能的影响,提出了在不同GPU平台间实现性能移植的可能性。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMDHD5850GPU上相对于CPU版本取得114.3--491.5倍的加速比,相对于CUDA版本(现有GPU算法的实现)得到1.01~1.86的加速比,在NIVIDIAC2050GPU上相对CPU版苓取得100.7~369.8倍的加速比,相对于CUDA版本得到0.95~1.58的加速比。有效验证了本文提出的优化方法的有效性和胜能可移植性。 吴再龙 张云泉 龙国平 徐建良 贾海鹏关键词:OPENCL 跨平台 一种Web应用程序自动化测试工具及方法 本发明涉及一种Web应用程序自动化测试工具及方法,包括:基本的浏览器及网页操作实现模块、自定义代码编译模块、启动测试程序模块。该系统有效解决了传统软件测试过程中手动测试任务繁重、测试代码编写复杂、无法自动化测试整个系统的... 邓嗣琦 刘超 龙国平 马文静文献传递 一种基于异构加速平台的二维相位解缠绕方法 本发明设计了一种基于异构加速平台的二维相位解缠绕方法。在Branch cut步骤中加入了局部匹配,克服了并行实现的瓶颈;在算法的FloodFill步骤中使用Block的动态组织方式,解决了数据依赖;通过合并和压缩存储、创... 吴振华 马文静 龙国平 李玉成基于OpenCL的连续数据无关访存密集型函数并行与优化研究 被引量:2 2013年 连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作。在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU平台上的并行与优化。在考察向量化、线程组织方式和指令选择优化等多个优化角度在不同的GPU硬件平台上对性能的影响之后,实现了这个函数的跨平台性能移植。实验结果表明,在不考虑数据传输的前提下,优化后的函数与这个函数在OpenCV库中的CPU版本相比,在AMD HD 5850GPU达到了平均40倍的性能加速比;在AMD HD 7970GPU达到了平均90倍的性能加速比;在NVIDIA Tesla C2050GPU上达到了平均60倍的性能加速比;同时,与这个函数在OpenCV库中的CUDA实现相比,在NVIDIA Tesla C2050平台上也达到了1.5倍的性能加速。 蒋丽媛 张云泉 龙国平 贾海鹏关键词:GPU OPENCL 向量化 ROI