您的位置: 专家智库 > >

国家高技术研究发展计划(2006AA01A107)

作品数:3 被引量:5H指数:1
相关作者:罗红兵武林平艾志玮沈岳邵京云更多>>
相关机构:北京应用物理与计算数学研究所北京城市学院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇中文期刊文章

领域

  • 3篇自动化与计算...

主题

  • 1篇中国国家网格
  • 1篇数值计算研究
  • 1篇网格
  • 1篇稳定性
  • 1篇稳定性分析
  • 1篇计算机
  • 1篇故障隔离
  • 1篇故障管理
  • 1篇国家网格
  • 1篇分辨率
  • 1篇高分辨率
  • 1篇超级计算机

机构

  • 3篇北京应用物理...
  • 1篇北京城市学院

作者

  • 2篇武林平
  • 2篇罗红兵
  • 1篇袁国兴
  • 1篇沈岳
  • 1篇曹小林
  • 1篇艾志玮
  • 1篇张晓霞
  • 1篇曹立强
  • 1篇莫则尧
  • 1篇郝一正
  • 1篇邵京云

传媒

  • 2篇计算机工程与...
  • 1篇华中科技大学...

年份

  • 1篇2011
  • 1篇2010
  • 1篇2009
3 条 记 录,以下是 1-3
排序方式:
高分辨率数值计算研究
2011年
高分辨率计算是高置信度计算中一个极其重要而复杂的研究问题。相对传统的数值计算,高分辨率计算对计算机系统和应用程序(物理建模、参数、计算方法和算法等)提出了很高的要求。并行计算机的发展为大规模科学计算,特别是数值计算分辨率的提高提供了条件。同时,数值计算分辨率的提高也对计算机的计算能力、计算方法、物理建模和参数等提出了新的、更高的要求。本文以一个二维流体力学程序计算平面爆轰问题为例,研究在计算分辨率提高时初始起爆区域、时间步长、网格构造、人为粘性、计算机模拟误差、计算量增长等方面出现的问题,提出了相应的解决办法,提高了计算的精确度。
张晓霞郝一正邵京云袁国兴
关键词:高分辨率
大规模计算系统的主动故障管理方法被引量:5
2010年
为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的实时监控,根据监控数据完成对系统故障的诊断;最后,根据诊断结果实施故障部件的隔离,避免故障的传播,从而减少底层故障对上层应用的影响.该方法在某实际生产性系统上取得较好效果:系统全局故障时间间隔由原来的8 d提高到28 d;故障修复时间由原来的平均10 h缩短到16 min;节点故障引起的失败作业比例由4.6%降低为1.3%.实践证明主动故障管理方法能够降低系统故障开销、提高并行作业的完成率,部署到CNGrid节点的高性能计算系统上,可进一步提高CNGrid的服务质量.
武林平罗红兵艾志玮沈岳
关键词:中国国家网格故障隔离
超级计算机作业运行稳定性分析
2009年
通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到105CPU小时量级,超过20%的作业会因系统故障而中止。考核实验结果表明,使用数千CPU的并行作业很容易受到多种因素的干扰而中止,很难持续运行超过24小时。最后给出了有关超级计算机稳定性改进、系统管理使用和并行程序研制的几点建议。
罗红兵曹小林曹立强武林平莫则尧
关键词:超级计算机稳定性
共1页<1>
聚类工具0