您的位置: 专家智库 > >

马文静

作品数:23 被引量:9H指数:2
供职机构:中国科学院软件研究所更多>>
发文基金:中国科学院战略性先导科技专项国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 13篇专利
  • 9篇期刊文章
  • 1篇会议论文

领域

  • 16篇自动化与计算...

主题

  • 8篇异构
  • 7篇处理器
  • 4篇异构系统
  • 4篇数据依赖
  • 4篇矩阵
  • 4篇拷贝
  • 4篇BLAS
  • 4篇HPL
  • 2篇迭代
  • 2篇对称矩阵
  • 2篇异步
  • 2篇硬件
  • 2篇硬件资源
  • 2篇三角矩阵
  • 2篇色数
  • 2篇实时性
  • 2篇数据传输
  • 2篇数据拷贝
  • 2篇搜索
  • 2篇特性分析

机构

  • 23篇中国科学院软...
  • 8篇中国科学院大...
  • 4篇北京大学

作者

  • 23篇马文静
  • 12篇刘芳芳
  • 7篇孙家昶
  • 6篇龙国平
  • 5篇杨超
  • 5篇李会元
  • 4篇吴振华
  • 3篇李玉成
  • 3篇黎雷生
  • 3篇赵玉文
  • 3篇赵海涛
  • 1篇牛树梓
  • 1篇唐秋艳
  • 1篇刘超
  • 1篇卜宁
  • 1篇孙乔
  • 1篇王中杰

传媒

  • 7篇软件学报
  • 1篇计算机系统应...
  • 1篇大气与环境光...
  • 1篇2014全国...

年份

  • 1篇2024
  • 6篇2023
  • 1篇2022
  • 6篇2021
  • 2篇2020
  • 4篇2017
  • 3篇2014
23 条 记 录,以下是 1-10
排序方式:
基于浮点数压缩技术的大规模FFT实现方法及装置
本公开涉及一种基于浮点数压缩技术的大规模FFT实现方法及装置,所述方法包括:对第i个维度的FFT计算结果进行共享指数浮点数压缩,并将压缩结果打包成第i个维度的压缩数据之后,拷贝至所述主机端;获取所述第i个维度的压缩数据后...
赵玉文刘芳芳马文静李会元彭远驰
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术
2023年
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果.
胡怡陈道琨杨超刘芳芳马文静马文静袁欣辉林蓉芬
关键词:自适应优化
一种基于异构加速平台的二维相位解缠绕方法
本发明设计了一种基于异构加速平台的二维相位解缠绕方法。在Branch cut步骤中加入了局部匹配,克服了并行实现的瓶颈;在算法的FloodFill步骤中使用Block的动态组织方式,解决了数据依赖;通过合并和压缩存储、创...
吴振华马文静龙国平李玉成
面向SW26010-Pro处理器的1、2级BLAS函数库的高性能实现方法
本发明公开一种面向SW26010‑Pro处理器的1、2级BLAS函数库的高性能实现方法,包括:对问题进行任务划分,产生若干子问题,其中所述问题的结构包括向量、普通矩阵、对称矩阵或三角矩阵;若为向量、普通矩阵或对称矩阵时,...
胡怡陈道琨杨超刘芳芳马文静
一种适合复杂异构系统的HPL矩阵更新优化方法
本发明公开了一种适合复杂异构系统的HPL矩阵更新优化方法,其特征在于,对HPL矩阵更新的行交换进行优化:在执行HPL的第一分段行交换完成、上一次循环矩阵更新和当前进程接收到下一次循环的行交换信息之后,执行第一分段的下一次...
黎雷生马文静赵海涛孙家昶李会元
文献传递
自适应光学数值仿真成像在GPU上的实现被引量:2
2014年
在自适应光学(AO)系统中,成像是不可或缺的一部分。AO仿真系统中的探测器和哈特曼-夏克波前传感器的成像过程一般用二维的离散卷积来计算,而通常它的数值算法用快速傅立叶变换(FFT)实现。但是随着矩阵维数的增加,卷积的运算量会急剧增大,成为制约整个AO仿真效率的一个瓶颈。利用图形处理器(GPU)的强大计算能力,可以使成像系统运行速度大幅提高。在NVIDIA Tesla C2050 GPU上,针对不同分辨率的图像,获得了相对于串行程序5-24倍的加速比。
吴振华唐秋艳王中杰马文静龙国平李玉成
关键词:自适应光学系统卷积快速傅立叶变换图形处理器
面向相似App推荐的列表式多核相似性学习算法被引量:2
2017年
相似App推荐可以有效帮助用户发现其所感兴趣的App.与以往的相似性学习不同,相似App推荐场景主要面向的是排序问题.本文主要研究在排序场景下如何学习相似性函数.已有的工作仅关注绝对相似性或基于三元组的相似性.本文建模了列表式的相似性,并将三元组相似性与列表式相似性用统一的面向排序场景的相对相似性学习框架来描述,提出了基于列表的多核相似性学习算法SimListMKL.实验证明,该算法在真实的相似App推荐场景下性能优于已有的基于三元组相似性学习算法.
卜宁牛树梓马文静龙国平
关键词:多核学习
一种基于异构加速平台的二维相位解缠绕方法
本发明设计了一种基于异构加速平台的二维相位解缠绕方法。在Branch cut步骤中加入了局部匹配,克服了并行实现的瓶颈;在算法的FloodFill步骤中使用Block的动态组织方式,解决了数据依赖;通过合并和压缩存储、创...
吴振华马文静龙国平李玉成
文献传递
一种Web应用程序自动化测试工具及方法
本发明涉及一种Web应用程序自动化测试工具及方法,包括:基本的浏览器及网页操作实现模块、自定义代码编译模块、启动测试程序模块。该系统有效解决了传统软件测试过程中手动测试任务繁重、测试代码编写复杂、无法自动化测试整个系统的...
邓嗣琦刘超龙国平马文静
文献传递
一种众核平台上面向规则网格问题的结构化着色方法
本发明公开一种众核平台上面向规则网格问题的结构化着色方法,包括如下步骤:步骤一、依赖特性分析:对按照stencil模板格式生成的计算问题中的各计算任务之间的依赖特性进行分析,包括依赖传递特性分析和强弱依赖方向分析;步骤二...
刘芳芳吴丽鑫马文静汪荃王志军孙家昶杨超
文献传递
共3页<123>
聚类工具0