王磊 作品数:32 被引量:80 H指数:6 供职机构: 解放军信息工程大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 上海市科委重大科技攻关项目 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
一种基于SIMD功能部件处理器的三角函数性能优化算法 被引量:2 2011年 在分析三角函数(主要是正弦)的常用近似计算方法级数法的基础上,提出针对于带有SIMD功能部件处理器的一种优化算法,并在实际环境中与常用级数法的精度和性能进行了对比测试,与GNU数学函数库也进行了对比测试。测试结果表明该优化算法性能优越。 陈世淼 郭绍忠 陈建勋 王磊关键词:三角函数 SIMD 泰勒级数 优化算法 浮点数学函数异常处理方法 被引量:7 2015年 异常会造成程序错误,实现完全没有异常的浮点计算软件也很艰难,因此,实现有效的异常处理方法很重要.但现有的异常处理并不针对浮点运算,并且研究重点都集中在整数溢出错误上,而浮点类型运算降低了整数溢出存在的可能.针对上述现象,面向基于汇编实现的数学函数,提出了一种针对浮点运算的分段式异常处理方法.通过将异常类型映射为64位浮点数,以核心运算为中心,将异常处理过程分为3个阶段:输入参数检测(处理INV异常)、特定代码检测(处理DZE异常和INF异常)以及输出结果检测(处理FPF异常和DNO异常),并从数学运算的角度对该方法采用分段式处理的原因进行了证明.实验将该方法应用于Mlib浮点函数库,对库中600多个面向不同平台的浮点函数进行了测试.测试结果表明:该方法能够将出现浮点异常即中断的函数个数从90%降到0%.同时,实验结果验证了该方法的高效性. 许瑾晨 郭绍忠 黄永忠 王磊 周蓓关键词:浮点数 数学函数 异常处理 面向异构众核从核的数学函数库访存优化方法 被引量:6 2014年 数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。 许瑾晨 郭绍忠 黄永忠 王磊关键词:数学函数库 指令调度 异构系统中基于数据表精简技术的超越函数访存优化方法 本发明涉及一种异构系统中基于数据表精简技术的超越函数访存优化方法,首先采用MathDataReduce算法压缩数学函数数据表;然后采用立即数寻址方式将数据写入指令中;通过分支跳转指令获取写入的数据,消除函数实现中的访存操... 王磊 张乾坤 孟虹松 周蓓 郭绍忠 韩林 戴涛 许瑾晨文献传递 应用RIA技术实现分布式计算环境的门户系统 被引量:2 2006年 在分布式计算环境中,需要将不同种类、不同规模的计算资源进行集成和共享。门户系统使得分布式环境中的大规模资源管理成为可能。本文采用RIA技术,将RIA技术的优势与门户系统需求相结合,应用到分布式计算环境的门户系统设计中,建立了完整的基于RIA技术的门户系统。 张春燕 王磊关键词:RIA 门户 分布式计算 基于JXTA技术的网络计算模型 被引量:6 2007年 对P2P网络技术进行深入的研究,主要介绍一种JXTA环境下的计算模型,并报道了P2P技术的现状。P2P(Peer-to-Peer)网络采用点对点分散式网络架构,它不需要服务器的中转。JXTA是一个用来解决P2P计算的开放式网络计算平台。开发者可以在JXTA平台上创建各种应用。完成了JXTA环境下构建平台中所需要的一些技术。 黄敬磊 黄永忠 王磊关键词:P2P JXTA 负载平衡 一种电子商务数据的分布式容错处理框架 被引量:1 2008年 分布并行计算是一种通过利用大规模异构资源将把大型问题分解成若干部分来处理的一种高吞吐率计算模式。利用Master/Worker模型设计了电子商务数据处理的分布式框架,提出了一种分布式容错机制,能够较好的满足目前电子商务数据处理的实际需求。 张春燕 王磊关键词:分布并行计算 电子商务 容错 基于Brook在GPU的应用 被引量:2 2008年 依据现代GPU在通用计算方面的功能,提出了基于Brook在GPU上执行通用计算的实现方法,运用图像分割、快速傅立叶算法和光线跟踪3个应用对该方法进行了评估。评估结果表明GPU在Brook环境下通用计算能力优于CPU。 刘振林 黄永忠 王磊 刘晓楠关键词:流计算 GPU计算 基础数学库中的MCET寄存器分配方法 被引量:2 2013年 针对基础数学库中的寄存器分配特点,利用最常用情况执行时间MCET(Most-Case Execution Time)模型对经典的线性扫描寄存器分配算法进行了扩展。该算法能够很大程度上减少数学库中的最常用路径上的变量溢出过程,将变量溢出过程分配到非常用路径上,从而减少全局的寄存器溢出开销,提高数学库的性能。对基础数学库中函数的应用此分配算法之后,最常用路径执行时间、平均路径执行时间都得到了不同程度的提高。 郭绍忠 郭正红 王磊关键词:数学库 寄存器分配 基于GPU的并行最小生成树算法的设计与实现 被引量:5 2011年 针对目前并行Prim最小生成树算法效率不高的问题,在分析现有并行Prim算法的基础上,提出了适于GPU架构的压缩邻接表图表示形式,开发了基于GPU的min-reduction数据并行原语,在NVIDIA GPU上设计并实现了基于Prim算法思想的并行最小生成树算法。该算法通过使用原语缩短关键步骤的查找时间,从而获得较高效率。实验表明,相对于传统CPU实现算法和不使用原语的算法,该算法具有较明显的性能优势。 郭绍忠 王伟 王磊关键词:图形处理器 图论 最小生成树 PRIM算法