您的位置: 专家智库 > >

张华亮

作品数:2 被引量:1H指数:1
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家高技术研究发展计划国家科技重大专项国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇设计方法
  • 1篇数据预取
  • 1篇龙芯
  • 1篇矩阵
  • 1篇矩阵运算
  • 1篇加速器
  • 1篇仿真
  • 1篇
  • 1篇BLAS
  • 1篇LINPAC...
  • 1篇程序库
  • 1篇处理器
  • 1篇高性能

机构

  • 2篇中国科学院
  • 2篇中国科学院大...
  • 2篇龙芯中科技术...

作者

  • 2篇张华亮
  • 1篇吴少校
  • 1篇刘宏伟
  • 1篇刘天义

传媒

  • 2篇高技术通讯

年份

  • 2篇2016
2 条 记 录,以下是 1-2
排序方式:
基于处理器硅前性能验证平台的基准程序库设计方法
2016年
提出了一种新的适用于处理器的硅前性能验证平台的基准程序实现方法。方法的主要思想是利用现成的广泛使用的测试程序集合,通过降低工作负载,采用基于基本块的划分、归并方式,将多个基于相同特征点的代码片段作为一个基准检测点,这些抽象的检测点构成了基准程序库。该方法将复杂的处理器内部行为的一致性判断转换为性能的宏观统计分析,充分利用了已有的权威测试基准集,无需重新编写性能验证平台的基准程序,既扩大了验证程序的规模,又节省了大量的劳动,同时可以针对验证样本通过分析系统自动展开验证工作,减少了人工核对的工作量。
张华亮刘宏伟刘天义
基于龙芯3A2000处理器的高性能Goto BLAS库的实现被引量:1
2016年
用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库。该库对Linpach的测试结果有很大影响。为了提高Goto BLAS性能,观察了Goto BLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方法,根据处理器的结构特点,合理配置矩阵分块参数,优化核心循环的实现方案,同时采用软硬件数据预取技术及优化的内核TLB配置策略。在这些优化方法的共同作用下,仿真平台上核心函数的浮点部件效率超过90%。优化方案在本实验中取得了显著的效果。
张华亮黄启印吴少校
关键词:BLASLINPACK矩阵运算数据预取
共1页<1>
聚类工具0