马文静 作品数:23 被引量:9 H指数:2 供职机构: 中国科学院软件研究所 更多>> 发文基金: 中国科学院战略性先导科技专项 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于浮点数压缩技术的大规模FFT实现方法及装置 本公开涉及一种基于浮点数压缩技术的大规模FFT实现方法及装置,所述方法包括:对第i个维度的FFT计算结果进行共享指数浮点数压缩,并将压缩结果打包成第i个维度的压缩数据之后,拷贝至所述主机端;获取所述第i个维度的压缩数据后... 赵玉文 刘芳芳 马文静 李会元 彭远驰面向SW26010-Pro的1、2级BLAS函数众核并行优化技术 2023年 BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果. 胡怡 陈道琨 杨超 刘芳芳 马文静 马文静 袁欣辉 林蓉芬关键词:自适应优化 一种基于异构加速平台的二维相位解缠绕方法 本发明设计了一种基于异构加速平台的二维相位解缠绕方法。在Branch cut步骤中加入了局部匹配,克服了并行实现的瓶颈;在算法的FloodFill步骤中使用Block的动态组织方式,解决了数据依赖;通过合并和压缩存储、创... 吴振华 马文静 龙国平 李玉成面向SW26010-Pro处理器的1、2级BLAS函数库的高性能实现方法 本发明公开一种面向SW26010‑Pro处理器的1、2级BLAS函数库的高性能实现方法,包括:对问题进行任务划分,产生若干子问题,其中所述问题的结构包括向量、普通矩阵、对称矩阵或三角矩阵;若为向量、普通矩阵或对称矩阵时,... 胡怡 陈道琨 杨超 刘芳芳 马文静一种适合复杂异构系统的HPL矩阵更新优化方法 本发明公开了一种适合复杂异构系统的HPL矩阵更新优化方法,其特征在于,对HPL矩阵更新的行交换进行优化:在执行HPL的第一分段行交换完成、上一次循环矩阵更新和当前进程接收到下一次循环的行交换信息之后,执行第一分段的下一次... 黎雷生 马文静 赵海涛 孙家昶 李会元文献传递 自适应光学数值仿真成像在GPU上的实现 被引量:2 2014年 在自适应光学(AO)系统中,成像是不可或缺的一部分。AO仿真系统中的探测器和哈特曼-夏克波前传感器的成像过程一般用二维的离散卷积来计算,而通常它的数值算法用快速傅立叶变换(FFT)实现。但是随着矩阵维数的增加,卷积的运算量会急剧增大,成为制约整个AO仿真效率的一个瓶颈。利用图形处理器(GPU)的强大计算能力,可以使成像系统运行速度大幅提高。在NVIDIA Tesla C2050 GPU上,针对不同分辨率的图像,获得了相对于串行程序5-24倍的加速比。 吴振华 唐秋艳 王中杰 马文静 龙国平 李玉成关键词:自适应光学系统 卷积 快速傅立叶变换 图形处理器 面向相似App推荐的列表式多核相似性学习算法 被引量:2 2017年 相似App推荐可以有效帮助用户发现其所感兴趣的App.与以往的相似性学习不同,相似App推荐场景主要面向的是排序问题.本文主要研究在排序场景下如何学习相似性函数.已有的工作仅关注绝对相似性或基于三元组的相似性.本文建模了列表式的相似性,并将三元组相似性与列表式相似性用统一的面向排序场景的相对相似性学习框架来描述,提出了基于列表的多核相似性学习算法SimListMKL.实验证明,该算法在真实的相似App推荐场景下性能优于已有的基于三元组相似性学习算法. 卜宁 牛树梓 马文静 龙国平关键词:多核学习 一种基于异构加速平台的二维相位解缠绕方法 本发明设计了一种基于异构加速平台的二维相位解缠绕方法。在Branch cut步骤中加入了局部匹配,克服了并行实现的瓶颈;在算法的FloodFill步骤中使用Block的动态组织方式,解决了数据依赖;通过合并和压缩存储、创... 吴振华 马文静 龙国平 李玉成文献传递 一种Web应用程序自动化测试工具及方法 本发明涉及一种Web应用程序自动化测试工具及方法,包括:基本的浏览器及网页操作实现模块、自定义代码编译模块、启动测试程序模块。该系统有效解决了传统软件测试过程中手动测试任务繁重、测试代码编写复杂、无法自动化测试整个系统的... 邓嗣琦 刘超 龙国平 马文静文献传递 一种众核平台上面向规则网格问题的结构化着色方法 本发明公开一种众核平台上面向规则网格问题的结构化着色方法,包括如下步骤:步骤一、依赖特性分析:对按照stencil模板格式生成的计算问题中的各计算任务之间的依赖特性进行分析,包括依赖传递特性分析和强弱依赖方向分析;步骤二... 刘芳芳 吴丽鑫 马文静 汪荃 王志军 孙家昶 杨超文献传递