中国科学院知识创新工程重要方向项目(KGCX2-YW-174) 作品数:10 被引量:72 H指数:4 相关作者: 武延军 周鹏 何婷婷 芮建武 蒋媛园 更多>> 相关机构: 中国科学院软件研究所 中国科学院大学 中国科学院研究生院 更多>> 发文基金: 中国科学院知识创新工程重要方向项目 国家科技重大专项 国家科技支撑计划 更多>> 相关领域: 自动化与计算机技术 更多>>
一种Hadoop小文件存储和读取的方法 被引量:42 2012年 HDFS(Hadoop Distributed File System)凭借其高容错、可伸缩和廉价存储的优点,在当前面向云计算的应用场景中得到了广泛应用。然而,HDFS设计的初衷是存储超大文件,对于海量小文件,由于NameNode内存开销等问题,其存储和读取性能并不理想。提出一种基于小文件合并的方法 HIFM(Hierarchy Index File Merging),综合考虑小文件之间的相关性和数据的目录结构,来辅助将小文件合并成大文件,并生成分层索引。采用集中存储和分布式存储相结合的方式管理索引文件,并实现索引文件预加载。此外,HIFM采用数据预取的机制,提高顺序访问小文件的效率。实验结果表明,HIFM方法能够有效提高小文件存储和读取效率,显著降低NameNode和DataNode的内存开销,适合应用在有一定目录结构的海量小文件存储的应用场合。 张春明 芮建武 何婷婷关键词:HDFS 数据预取 高频内存分配下内存泄露检测的性能提升方法 被引量:1 2013年 现有主流轻量级内存泄露检测工具,如MemWatch和MemLeak等在高频内存分配下存在效率较低等性能缺陷。为此,提出一种提升内存泄露检测工具性能的方法。运用该方法对开源工具MemLeak进行修改,将修改后的工具用于大数据存储系统Redis的内存泄漏检测。基于开源软件Redis的实用性测试结果表明,该方法具有较好的可用性与实用性。 侯朋朋 武延军 谢沛东关键词:内存泄露 高频 内存分配 哈希表 红黑树 虚拟环境下虚拟机应用性能建模 被引量:5 2015年 得益于虚拟化技术的成熟发展,当下私有云和公有云数据中心已经越来越多的出现在企业、学校和研究机构当中.相对于物理机,虚拟机拥有更好的迁移性、可扩展性和相对低廉的购入与维护成本,所以越来越多的中小创业者倾向于购买虚拟机部署服务.对于云服务提供者来说,如何在满足SLA情况下对云环境下或者运行于同一物理资源池上的虚拟机合理分配资源从而实现硬件资源池最大化利用变得越来越重要.本文分析了影响虚拟环境下虚拟机应用性能的关键参数,并证明了虚拟机应用性能与硬件资源之间存在着复杂的非线性关系,通过一种SVD特征拓展+非线性模型的方法对运行于同一物理资源池上的虚拟机应用性能进行建模研究,实验表明该模型有较好的效果,并且平均预测误差可以达到12%左右. 黎丰泽 杨达 周鹏 武延军关键词:虚拟化 SVD 云计算环境中基于访问量和依赖性评价的数据分配算法 被引量:1 2012年 大量的大规模密集型数据需要存储在多个数据存储中心,而应用越来越广泛的云计算环境很好地解决了大规模密集型数据在分配中遇到的规模性问题。但是,云计算环境中多数据存储中心的数据分配会带来数据存储中心之间数据量的传输,从而导致数据访问效率低下。同时,单位时间上数据访问量的不平衡性会引起数据存储中心的访问瓶颈。以大规模密集型数据中的数据流为建模对象,提出了一种数据分配算法,它在保证数据存储中心负载平衡的基础上兼顾了密集型数据之间的依赖性。实验表明,相比于同类的数据分配算法,所提算法具有更好的综合表现,特别是在保证数据存储中心的负载平衡方面,效果突出。 孙熙领 陈超 丁治明 许佳捷 袁栋关键词:数据分配 云计算 负载平衡 数据依赖 大规模时空数据分布式存储方法研究 被引量:11 2013年 提出了一种基于Hadoop云平台的时空数据分布式存储方法,以应对空间应用中出现的无法满足高并发用户在线实时访问和空间信息服务中断等大数据存储瓶颈问题。该方法运用时空数据切分与布局机制使数据均匀分布于集群中以确保存储与访问负载均衡;运用时空对象重组织机制提高数据的时空临近性以匹配时空应用存取模式;运用热点时空对象分布式缓存机制以降低磁盘I/O访问延迟。利用该方法实现了基于Hadoop云平台的时空数据分布式存储中间件原型系统exHDFS,实验结果表明该方法能高效地满足数据密集型空间应用存储需求。 钟运琴 方金云 赵晓芳关键词:数据管理 时空索引 面向远程虚拟桌面的应用程序推送技术研究 被引量:2 2013年 远程虚拟桌面是用户桌面使用环境的虚拟化,可实现对操作系统及应用程序的集中管理和高效分发、迁移,使得用户在具备基本的硬件条件下使用自己的工作环境。虚拟桌面应用程序推送方案RVDvApp是在图形指令传输过程中实现过滤机制,推送单独的应用程序到客户端,从而实现基于虚拟桌面的服务分发,使得用户可以克服异构的执行环境,获取集中部署在服务器端虚拟机上的应用程序服务。 蒋媛园 武延军利用并行GPU对分层分布式狄利克雷分布算法加速 被引量:2 2013年 分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。 温腊 芮建武 何婷婷 郭亮关键词:文本分类 EBound:一种高效的空间内存错误检测方法 被引量:1 2015年 空间内存错误是C语言程序中经常出现的一种漏洞。针对目前空间内存错误检测方法的性能开销高的问题,提出一种高效的空间内存错误检测方法 EBound。EBound使用动态指针边界检测方法检测程序中的空间内存错误,并使用静态污点分析方法来消除不必要的指针边界检查,从而降低了性能开销。EBound基于LLVM编译器实现,不需要对程序源代码进行修改。实验结果表明,EBound可以有效地防御利用空间内存错误进行的缓冲区溢出攻击。与当前比较好的空间内存错误检测方法 Soft Bound相比,EBound有更低的性能开销。 赵晓柯 丁丽萍 吴伟 卢国庆基于SDN的数据中心网络资源调度机制 被引量:6 2015年 随着大数据应用的不断丰富,现在的数据中心通常部署着多种集群计算框架,并由统一的集群资源管理器(如Mesos)进行管理.目前的集群资源管理主要关注计算资源和存储资源,较少的涉及网络资源.但研究表明高效的网络资源管理对于优化作业性能十分重要.本文提出了一种基于SDN(Software Defined Network)的数据中心网络资源调度机制,该机制可以根据管理员预设的网络资源分配策略,加权的进行网络资源调度,为高优先级的作业分配更多网络资源以优化性能,并且实现不同作业之间的网络性能隔离.我们基于开源SDN控制器实现了原型系统,并通过实验验证了该机制的有效性. 汪正康 周鹏 肖俊超 武延军关键词:SDN 数据中心 Skylark:云端一体化系统的设计与实现 被引量:1 2012年 论文介绍了云端一体化系统Skylark,旨在满足用户通过异构终端,随时、随地访问应用和管理数据的需求,使得用户对操作系统平台、硬件设备、应用安装管理的依赖最小化。终端通过SkylarkAPI访问云平台的服务,基于扩展的Spice协议为显示和计算的前后端分离提供高效支持;后端云平台对计算、存储和网络等资源进行虚拟化,基于Xen-IFS文件系统分离和保护用户私有数据;SkylarkManager云管理系统整合前后端业务,对系统资源进行统一管理和调度。Skylark支持Windows、Linux和Android等多种客户端,实现了云中心和各异构终端的一体化。 周鹏 蒋媛园 王枫 谢沛东 武延军关键词:桌面虚拟化 应用虚拟化