崔慧敏 作品数:82 被引量:147 H指数:6 供职机构: 中国科学院计算技术研究所 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
一种程序运行性能分析方法及装置 本发明提供一种程序运行性能分析方法及装置,涉及网络技术领域,能够对多道同时运行的程序各自的性能干扰进行分析,从而提高程序运行过程当中资源调度的效率和硬件资源的利用率,该方法包括:在预设的程序集中获取每个程序在运行状态下的... 赵家程 崔慧敏 冯晓兵文献传递 面向大数据处理的基于Spark的异质内存编程框架 被引量:9 2018年 随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory,NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如何合理布局数据到异质内存是一个关键的研究问题.系统分析了Spark应用的访存特征,并结合OpenJDK的内存使用特点,提出了一套管理数据在DRAM和NVM之间布局的编程框架.应用开发者通过对本文提供接口的简单调用,便可将数据合理布局在异质内存之中.仅需20%~25%的DRAM和大量的NVM,便可以达到使用等量的DRAM时90%左右的性能.该框架可以通过有效利用异质内存来满足内存计算不断增长的计算规模.同时,"性能/价格"比仅用DRAM时提高了数倍. 王晨曦 吕方 吕方 曹婷 崔慧敏 曹婷 冯晓兵关键词:SPARK 编程框架 异构集群下的MapReduce编程环境 2016年 该报告针对Godson-D的芯片特征和亿级并发负载的特征,研究了层次化Map Reduce编程模型,对上层应用呈现简洁的编程接口,并利用Open CL来开发Godson-D芯片的计算能力。对其中的3个关键问题进行了阐述:形成了完整的层次化Map Reduce编程模型的框架,并实现了原型系统,旨在解决现有Map Reduce模型在多核/众核芯片组成的集群中存在的性能墙、在适用场景方面存在的无法适应增量式分析这两个主要的问题;为了解决Godson-D上的编程困难问题,该研究提出使用Open CL编写程序,并配套开发CPU+Godson-D异构系统中Open CL编译/运行时系统的解决方案。在该研究中,首先完成了Open CL编译/运行时支持系统的框架设计,该框架采用层次化设计思想,分为功能层、优化层、平台层;多核/众核处理器及云计算被认为将会统治计算领域的未来,多核/众核处理器在目前的云计算数据中心中被广泛采用,但是目前其资源利用率非常低,主要原因在于核间性能干扰的存在,使得数据中心的调度程序不得不禁止关键应用的co-location来保证Qo S,为此,提出了一种基于统计学习的多核间性能干扰分析方法,可以量化地分析任意程序遭受的核间性能干扰,并根据干扰模型提高资源的利用率。 吴承勇 崔慧敏关键词:异构集群 编程环境 一种数据处理方法及相关设备 本发明实施例公开了一种数据处理方法及相关设备,实现Hadoop从节点设备中对数据自动转换数据格式和自动拼接,简化程序员的编程工作,有利于后续优化MapReduce架构。该方法主要包括:数据预处理器从所述CPU的第一缓冲区... 崔慧敏 谢睿 阮功 杨文森文献传递 数据处理方法和中心节点 本发明实施例提供一种数据处理方法和中心节点,中心节点根据用户提供的采用MapReduce计算框架编写的第一循环函数,生成第二循环函数、启动计算函数和第二拷贝函数,其中,第二循环函数用于循环调用第一拷贝函数将计算节点中需要... 刘颖 崔慧敏文献传递 二进制翻译中的库函数调用处理方法 本发明公开了一种二进制翻译中的库函数调用处理方法,包括在目标机中用内存模拟原系统的寄存器和堆栈;应用目标机本地的约定进行传参和返回值处理,依次对原系统二进制程序中的每个基本块进行处理。本发明通过用目标机本地的约定进行传参... 谢海斌 武成岗 张兆庆 冯晓兵 崔慧敏 唐锋 杨浩文献传递 数据中心中DVFS对程序性能影响模型的设计 被引量:4 2017年 数据中心以可接受的成本,承载着超大规模的互联网应用.数据中心的能源消耗直接影响着数据中心的一次性建造成本和长期维护成本,是数据中心总体持有成本的重要组成部分.现代的数据中心普遍采用动态电压频率调节(dynamic voltage frequency scaling,简称DVFS)来提升单节点的能耗表现.但是,DVFS这一类机制同时影响到应用的能源消耗和性能,而这一问题尚未被深入探索.专注于DVFS机制对应用程序性能的影响,提出了一个分析模型用来量化地刻画应用程序的性能与处理器频率之间的关系,可以预测程序在任意频率下的性能.具体来说,依据执行时访问内存子系统资源的不同,把程序的指令分为两部分——片上指令和片外指令,并分别独立建模.片上指令是指仅需访问片上资源就可以完成执行的指令,其执行时间与处理器频率呈线性关系;片外指令是指需要访问主存的指令,其执行时间与处理器频率无关.通过上述划分和对每一部分执行时间的分别建模,可以获得应用程序的执行时间与处理器频率之间的量化模型.使用两个不同的平台和SPEC 2006中的所有标准程序验证该模型,平均误差不超过1.34%. 李登辉 赵家程 崔慧敏 冯晓兵关键词:DVFS 数据中心 能耗 二进制翻译中局部变量识别和提升的处理方法 本发明公开了一种二进制翻译中对局部变量识别和提升的方法包括以下步骤:a.对翻译单元进行条件判别,判断在此翻译单元内能否进行局部变量的提升;b.依次对可处理翻译单元的每个基本块进行处理,对每条指令的局部变量进行识别;c.将... 崔慧敏 武成岗 谢海斌 张兆庆 冯晓兵 唐锋 杨浩文献传递 基于代码融合编译框架的OpenCL编译器设计方法和系统 本发明涉及一种基于代码融合编译框架的OpenCL编译器设计方法和系统,包括:基于共享内存提供主机‑内核代码融合编译框架,在编译器的中间表示——AST层上实现不同端代码的融合;WII‑CFG图用来刻画Kernel代码被实例... 刘颖 黄磊 伍明川 崔慧敏 冯晓兵文献传递 深度学习FPGA加速器的进展与趋势 被引量:57 2019年 随着大数据时代的来临,深度学习技术在从海量数据中提取有价值信息方面发挥着重要作用,已被广泛应用于计算机视觉、语音识别及自然语言处理等领域.本文从深度学习算法的特点和发展趋势出发,分析FPGA加速深度学习的优势以及技术挑战;其次,本文从SoC FPGA和标准FPGA两个方面介绍了CPU-FPGA平台,主要对比分析了两种模型在CPU和FPGA之间数据交互上的区别;接下来,在介绍FPGA加速深度学习算法开发环境的基础上,重点从硬件结构、设计思路和优化策略这三个方面详细介绍了采用FPGA加速卷积神经网络的设计方案;最后展望了FPGA加速深度学习算法相关研究工作的发展. 吴艳霞 梁楷 刘颖 崔慧敏关键词:神经网络 硬件加速 FPGA