您的位置: 专家智库 > >

姜晓巍

作品数:11 被引量:39H指数:4
供职机构:中国科学院高能物理研究所更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术理学更多>>

文献类型

  • 9篇期刊文章
  • 2篇会议论文

领域

  • 10篇自动化与计算...
  • 1篇理学

主题

  • 3篇内存
  • 3篇高能
  • 3篇高能物理
  • 2篇调度
  • 2篇调度器
  • 2篇日志
  • 2篇实时集群
  • 2篇计算集群
  • 2篇分布式
  • 2篇SPARK
  • 1篇调度系统
  • 1篇迭代
  • 1篇迭代算法
  • 1篇虚拟化
  • 1篇虚拟化技术
  • 1篇虚拟机
  • 1篇异构
  • 1篇预警信息
  • 1篇元数据
  • 1篇元数据管理

机构

  • 11篇中国科学院
  • 6篇中国科学院大...
  • 1篇北京大学

作者

  • 11篇姜晓巍
  • 6篇石京燕
  • 5篇孙功星
  • 4篇杜然
  • 3篇胡庆宝
  • 3篇邹佳恒
  • 3篇孙震宇
  • 2篇程耀东
  • 1篇郑伟
  • 1篇汪璐
  • 1篇闫晓飞
  • 1篇黄秋兰
  • 1篇李海波
  • 1篇梁翠萍

传媒

  • 3篇计算机工程
  • 3篇计算机工程与...
  • 1篇计算机科学
  • 1篇科研信息化技...
  • 1篇数据与计算发...

年份

  • 3篇2023
  • 2篇2022
  • 1篇2020
  • 1篇2019
  • 1篇2017
  • 2篇2016
  • 1篇2015
11 条 记 录,以下是 1-10
排序方式:
基于分布式数据集的并行计算框架内存优化方法被引量:4
2023年
随着科学计算和人工智能技术的快速发展,分布式环境下的并行计算已成为解决大规模理论计算和数据处理问题的重要手段。内存容量的提高以及迭代算法的广泛应用,使得以Spark为代表的内存计算技术愈发成熟。但是,当前主流的分布式内存模型和计算框架难以兼顾易用性和计算性能,并且在数据格式定义、内存分配、内存使用效率等方面存在不足。提出一种基于分布式数据集的并行计算方法,分别从模型理论和系统开销两个角度对内存计算进行优化。在理论上,通过对计算过程进行建模分析,以解决Spark在科学计算环境下表达能力不足的问题,同时给出计算框架的开销模型,为后续性能优化提供支持。在系统上,提出一种框架级的内存优化方法,该方法主要包括对跨语言分布式内存数据集的重构、分布式共享内存的管理、消息传递过程的优化等模块。实验结果表明,基于该优化方法实现的并行计算框架可以显著提升数据集的内存分配效率,减少序列化/反序列化开销,缓解内存占用压力,应用测试的执行时间相比Spark减少了69%~92%。
夏立斌刘晓宇姜晓巍孙功星
关键词:并行计算内存优化消息传递接口
应用于JUNO实验的容器技术研究
2019年
江门中微子实验(JUNO)是以测定中微子质量顺序、精确测量中微子混合参数为主要目的的一项物理科学前沿研究实验,其实验规模庞大,数据处理流程繁杂,需借助统一高效的离线计算平台对数据进行分析处理。为此,利用Docker容器分层的镜像技术将JUNO实验所需的环境依赖库打包在镜像文件中,为其制定针对不同操作系统作业的容器镜像,并将不同JUNO容器作业提交至作业调度器上运行,以实现资源共享。对物理机、容器、虚拟机3种平台的CPU性能、I/O性能及JUNO作业的实际运行效果进行对比测试,结果表明,Docker容器能够胜任JUNO离线数据处理,相比虚拟机具有更小的性能损耗。
谭宏楠石京燕邹佳恒杜然姜晓巍孙震宇
关键词:虚拟机镜像虚拟化技术
基于Elasticsearch的实时集群日志采集和分析系统实现
传统日志工具采集时间长、处理效率低下,无法支持大规模集群日志采集和分析需求.本文从实际需求出发,结合flume和Elasticsearch设计实现了集群日志的实时采集和快速查询分析系统.通过预设日志规则库,实时统计并展示...
胡庆宝姜晓巍石京燕程耀东
关键词:软件开发预警信息
文献传递
微服务架构磁带库存储系统设计与实现被引量:2
2023年
建立具有磁带存储层的HDFS分级存储系统是完善高能物理领域Hadoop生态系统的重要部分,但高能物理领域传统的磁带存储管理系统(如Castor、CTA)上层不支持HDFS磁盘存储,并且随着高能物理数据量的急剧增长、互联网技术的不断发展和用户需求的迅猛变化,传统的磁带存储管理系统逐渐呈现出系统扩展、负载均衡、开发和运维成本上升等方面的问题。设计开发了基于微服务架构的磁带存储管理系统。该系统向上支持HDFS磁盘存储,将磁带库资源管理、文件传输、磁带读写等功能以微服务的形式分布到各个服务实例中,达到分散服务压力的目的,并且系统针对传统负载算法效率不佳的问题,实现了基于服务器响应指数的负载均衡算法,通过根据自定义参数计算得到的服务器响应指数对其进行排序,保证将用户请求调度到响应指数最高的服务器进行处理。实验结果表明,磁带库存储系统满足HDFS文件分级存储磁带层管理的需求,提出的基于服务器响应指数的负载均衡算法相较于轮询算法,系统归档性能高出6%以上,提取性能高出64%以上;相较于随机算法,系统归档性能高出9%以上,提取性能高出64%以上,最终实现的磁带库存储系统表明,与传统的系统相比,微服务体系结构能够实现系统中组件的解耦和分布式负载的平衡,在系统开发和运维等方面更为便捷。
刘晓宇夏立斌姜晓巍孙功星
关键词:负载均衡
国家高能物理科学数据中心分布式数据处理平台被引量:4
2022年
【目的】本文对国家高能物理科学数据中心分布式数据平台进行系统全面介绍,为高能物理及相关领域大科学实验的数据处理提供参考。【方法】文章介绍了国家高能物理科学数据中心分布式数据处理平台的总体构成、运行模式和智能运维等方面的关键技术。通过分析高能物理实验数据处理的计算特点与实际需求,介绍了数据中心“一平台多中心”的数据处理平台建设思想,阐述了平台为高能物理实验提供的跨地域资源共享、高性能海量数据访问以及用户实时交互服务等技术方案设计与实现。【结果】文章列举了数据中心分布式数据处理平台对两个高能物理实验的支持实例,助力科学研究成果获取。【结论】国家高能物理科学数据中心分布式数据处理平台已经成为高能物理学科的重要基础设施和组成,是学科融合、开展新研究方法的主要场所,满足了粒子物理、理论物理、空间天文、射线学科、加速器设计等科研领域的数据处理需求。
石京燕黄秋兰汪璐李海波杜然姜晓巍胡庆宝郑伟闫晓飞张玄同
HDFS分级存储系统元数据管理方法的研究被引量:7
2023年
随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有异构存储研究不支持磁带库存储,无法满足高能物理Hadoop平台海量实验数据持久化和备份过程对于存储系统高性价比的需求。针对上述问题,为了构建支持磁盘-磁带存储的HDFS分级存储系统,使磁带层文件在HDFS中无缝融合,为用户提供统一的文件系统命名空间,调研了分布式文件系统元数据管理方法,在此基础上设计实现了HDFS分级存储系统中统一的元数据管理方法。该方法通过重新设计内存文件元数据结构,构建分级存储系统统一的内存目录树并实现其访问管理和可靠性保障,完成分级存储系统中不同层级文件元数据的集中统一管理。测试结果表明,该方法实现了分级存储系统异构资源上文件元数据的统一管理,提供了高效的元数据操作。基于该方法构建的分级存储系统可靠性高,在对不同规模大小的文件读写时,其读写吞吐量较优于高能物理领域传统分级存储系统EOSCTA。
刘晓宇夏立斌姜晓巍孙功星
关键词:持久化
Spark任务间消息传递方法研究被引量:2
2022年
当今诸多工程问题及科学研究中,都面临着大数据处理和高性能计算任务的双重挑战。基于内存计算技术提出的分布式处理框架Spark已在学术和工业界得到了广泛的应用,但其MapReduce-like的编程模型在任务间无法进行通信,导致科学计算中的数值算法无法进行高效实现。针对上述问题,研究了一种Spark内存计算与MPI消息传递模型相结合的解决方案,充分利用内存访问存取快速的特点和MPI的多种高性能通信机制,解决了Spark编程模型表达能力不足的缺陷,同时为MPI提供了面向数据的DAG计算方式。通过对Spark内部的运行环境和调度系统进行修改,使得MPI在Spark中得以无缝融合,为高性能计算和大数据任务提供了一个统一的内存计算系统。测试结果表明,在数值计算和迭代算法上相比Spark至少有50%的性能提升。
夏立斌刘晓宇孙玮姜晓巍孙功星
关键词:SPARKMPI迭代算法
大型高能物理计算集群资源管理方法的评测被引量:6
2017年
高能物理数据由物理事例组成,事例之间没有相关性。可以通过大量作业同时处理大量不同的数据文件,从而实现高能物理计算任务的并行化,因此高能物理计算是典型的高吞吐量计算场景。高能所计算集群使用开源的TORQUE/Maui进行资源管理及作业调度,并通过将集群资源划分成不同队列以及限制用户最大运行作业数来保证公平性,然而这也导致了集群整体资源利用率非常低下。SLURM和HTCondor都是近年来流行的开源资源管理系统,前者拥有丰富的作业调度策略,后者非常适合高吞吐量计算,二者都能够替代老旧、缺乏维护的TORQUE/Maui,都是管理计算集群资源的可行方案。在SLURM和HTCondor测试集群上模拟大亚湾实验用户的作业提交行为,对SLURM和HTCondor的资源分配行为和效率进行了测试,并与相同作业在高能物理研究所TORQUE/Maui集群上的实际调度结果进行了对比,分析了SLURM及HTCondor的优势和不足,探讨了使用SLURM或HTCondor管理高能物理研究所计算集群的可行性。
孙震宇石京燕姜晓巍邹佳恒杜然
关键词:资源管理系统计算集群
高能物理计算环境概述(IHEP)
本文阐述了高能物理计算环境,借助虚拟化技术、分布式海量存储技术等动态创建高度虚拟化的IT资源池,通过网络提供服务,采用高性能的并行集群文件系统,磁盘,带库分级存储,集中式部署管理。
姜晓巍
关键词:高能物理云计算数据储存
大规模异构计算集群的双层作业调度系统被引量:3
2020年
高能物理计算平台中的HTCondor和SLURM计算集群为多个高能物理实验提供数据处理服务,然而HTCondor并行作业调度效率较低、SLURM难以应对大量串行作业,且计算平台整体资源管理及调度策略过于简单。为满足高能物理计算集群高负荷运行的需求,在传统作业调度器上增加作业管理层,设计双层作业调度系统,通过高效调度串并行作业并兼顾实验组间资源的使用公平性,实现用户对作业的细粒度管理。测试结果表明,双层作业调度系统支持大批量高能物理作业的快速提交,并充分利用计算平台的总体资源,具有较好的作业调度性能。
孙震宇石京燕石京燕孙功星杜然姜晓巍邹佳恒
共2页<12>
聚类工具0