赵一宁 作品数:22 被引量:87 H指数:6 供职机构: 中国科学院计算机网络信息中心 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 中国科学院战略性先导科技专项 更多>> 相关领域: 自动化与计算机技术 经济管理 更多>>
面向高性能计算环境的多维自适应授权访问策略 2024年 高性能计算能力是国家综合实力和创新能力的重要体现,是支撑我国科技持续发展的关键技术之一。随着高性能计算的发展,越来越多领域的科研人员开始关注并使用高性能计算环境。高性能计算环境目前面临资源有限、用户数目增多等挑战。为保证环境的安全性、提高环境资源的利用率,需设置一定的授权访问策略来约束用户的访问行为。本文针对高性能计算环境服务对象用户和应用社区或业务平台,基于机器学习算法对用户行为进行分析获取相关属性,设计并实现了一种多维自适应授权访问策略(MAAC)。实验表明,MAAC可实现对环境资源有效和灵活访问控制,同时该策略的决策时间可控制在1 ms内,与策略响应时间相比可忽略不计。 和荣 王小宁 王小宁 肖海力 卢莎莎 赵一宁关键词:高性能计算环境 授权 用户行为 一种分布式环境运行状态的诊断方法及装置 本发明提供一种分布式环境运行状态的诊断方法及装置。在一个实施例中,从至少一个设备上采集与分布式环境运行状态相关的数据,并根据目标环境的分析需求,从多种角度对采集的数据进行分析并生成分析结果;然后将该分析结果转化为相应数值... 赵一宁 肖海力文献传递 一种跨节点并行计算任务局部进程迁移的方法 本发明提供一种跨节点并行计算任务局部进程迁移的方法,包括以下步骤:步骤1,计算任务的启动配置脚本的配置过程;步骤2,计算任务容器化部署过程;步骤3,容器运行时迁移过程。本发明实现MPI并行计算任务的容器化部署和单容器的跨... 王小宁 闫晓婷 卢莎莎 赵一宁 肖海力一种用户行为特征的分析方法及装置 本发明提供了一种用户行为特征的分析方法及装置。该方法包括:通过采集日志文件,之后对日志文件进行解析,获取日志数据,并根据日志数据的信息,对日志数据进行结构重组,获取重组日志数据,最后根据重组日志数据,获取用户行为特征,从... 赵一宁 武虹 肖海力文献传递 高性能计算环境中间件的优化设计与实现 被引量:7 2019年 步入大数据时代之后,致力于解决大规模科学计算问题的高性能计算技术,得到了越来越广泛的关注与应用。随着高性能计算机制造产业的蓬勃发展,具有每秒上亿亿次浮点运算速度的高性能计算集群对高性能计算环境中间件的性能提出了更高的要求。现有的高性能计算环境中间件中,资源信息服务无法满足海量信息快速更新的需求。为了提高高性能计算环境中间件的性能,通过借鉴ETL技术,将资源信息传输方式优化为信息同步模式。优化后的信息同步模式在处理2 000条作业状态更新时,延迟时间缩短90%、系统负载降低98%、网络连接数减少90%,为系统维护人员、环境用户带来更好的用户体验。 吴璨 王小宁 肖海力 曹荣强 赵一宁 迟学斌关键词:资源信息服务 信息传输方式 对于大规模系统日志的日志模式提炼算法的优化 被引量:6 2017年 LARGE框架是部署在中国科学院超级计算环境中的日志分析系统,通过日志收集、集中分析、结果反馈等步骤对环境中的各种日志文件进行监控和分析。在对环境中系统日志的监控过程中,系统维护人员需要通过日志模式提炼算法将大量的过往系统日志记录缩减为少量的日志模式集合。然而随着日志规模的增长以及messages日志文件的特殊性,原有的日志模式提炼算法已经难以满足对大规模日志快速处理的需要。介绍了一种对于日志模式提炼算法的优化方法,通过引入MapReduce机制实现在存在多个日志输入文件的情况下对日志处理和模式提炼的流程进行加速。实验表明,当输入文件较多时,该优化方法能够显著提高词汇一致率算法的运行速度,大幅减少运行时间。此外,还对使用词汇转换函数时的算法运行时间和提炼效果进行了验证。 赵一宁 肖海力关键词:网格环境 基于云服务的计算化学社区 被引量:2 2016年 中国科学院超算环境是由中国科学院统筹规划建设的"院总中心-分中心-所级中心"三层结构的超级计算环境,环境的资源聚合使用网格中间件SCE,并使用API接口对外提供服务。依托超算环境建设的科学计算学云服务社区采用软件即服务的模式,使用浏览器/服务器结构来提供专业交互式的计算化学科学计算服务,以"降低使用门槛、提高使用效率,助跑计算化学用户的科学研究工作"为目标,为广大科研用户提供"一站式"计算的Web服务模式和异构资源协同工作模式。本文同时介绍了社区的建设应用情况以及环境的运行、监控情况。 刘倩 肖海力 曹荣强 赵一宁 金钟关键词:网格 API 基于CRIU的高性能计算容器检查点技术研究 2024年 容错一直是高性能计算领域的热点和难点问题。检查点是解决容错问题的一种常用技术手段,它能够将运行进程的状态转储成文件并恢复。容器具有较强的资源隔离能力,可以为检查点技术提供更理想的运行环境与载体,避免迁移后任务在节点变更的情况下由于环境与资源变化而出现异常。因此,容器和检查点相结合能够更好地支撑任务迁移的研究与实现。文中围绕基于CRIU(Checkpoint/Restore In Userspace)的Singularity容器检查点方案的设计和优化展开,根据检查点技术在高性能计算容器应用中的特点,在CRIU安全使用、迁移性能优化、保持网络状态方面给出了有效的解决方案,基于这些方案拓展了Singularity容器检查点功能,并且实现了原型工具Migrator来验证容器迁移性能。期望本工作能为后续实现高性能计算任务迁移提供有效的支撑。 陈轶阳 王小宁 闫晓婷 李冠龙 赵一宁 卢莎莎 肖海力关键词:检查点 容错 多节点系统异常日志流量模式检测方法 被引量:10 2020年 随着国家高性能计算环境各个节点产生日志数量的不断增加,采用传统的人工方式进行异常日志分析已不能满足日常的分析需求.提出一种异常日志流量模式的定义方法:同一节点相同时间片内日志类型的有序排列代表了一种日志流量模式,并以该方法为出发点,实现了一个异常日志流量模式检测方法,用来自动挖掘异常日志流量模式.该方法从系统日志入手,根据日志内容的文本相似度进行自动分类.然后将相同时间片内日志各个类型出现的次数作为输入特征,基于主成分分析的异常检测方法对该输入进行异常检测,得到大量异常的日志类型序列.之后,使用基于最长公共子序列的距离度量对这些序列进行层次聚类,并将聚类结果进行自适应K项集算法,以得出不同异常日志流量模式的序列代表.将国家高性能计算环境半年产生的日志根据不同时间段(早、晚、夜)使用上述方法进行分析,得出了不同时间段的异常日志流量模式和相互关系.该方法也可以推广到其他分布式系统的系统日志中. 王晓东 赵一宁 肖海力 迟学斌 王小宁关键词:主成分分析 层次聚类 最长公共子序列 分布式消息系统研究综述 被引量:35 2019年 随着大数据时代的到来,各类软硬件系统的高并发访问、海量数据处理等需求越来越多,系统的高可用、易伸缩、可扩展成为系统研发的首要目标,分布式系统应运而生,提供了满足高性能需求的解决方案。然而,系统分布式地部署在不同的计算机上,使得系统间的消息通信成为重要问题。文章综述了4种流行的开源分布式消息系统,对比分析了RabbitMQ,Kafka,ActiveMQ和RocketMQ的架构及性能,为科研人员和系统开发者选择分布式消息系统提供了参考意见。 吴璨 王小宁 肖海力 曹荣强 赵一宁 迟学斌