国家重点基础研究发展计划(2011CB302304) 作品数:10 被引量:8 H指数:1 相关作者: 刘振军 许鲁 张军伟 刘浏 杨洪章 更多>> 相关机构: 中国科学院 中国科学院大学 灾备技术国家工程实验室 更多>> 发文基金: 国家重点基础研究发展计划 国家高技术研究发展计划 中国科学院重点实验室基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于反馈机制的动态副本数量预测方法 被引量:1 2011年 针对视频点播集群服务中对单一视频访问数量进行预测时,基于传统的历史信息加权方法产生的动态副本数量误差较大、点播集群负载均衡较差的问题,分析了传统方法预测误差产生的主要原因——对单一视频历史访问数量趋势信息的考虑缺失,并提出了一种基于反馈机制的动态副本数量预测方法。该方法在传统的基于历史信息加权方法的基础上,考虑了历史访问数量的趋势信息。对实际系统数据的模拟结果显示,在反馈系数等于1时,基于反馈机制可以使动态副本数量的平均预测错误率下降29.6%,峰值错误预测率下降42.9%。 石刘 郭明阳 刘浏 沈玉良 许鲁关键词:负载均衡 蓝鲸元数据服务器集群的细粒度负载迁移 2014年 大数据应用对信息系统的底层存储提出了极大挑战,其首选方案为元数据服务器(metadata server,MDS)集群架构.MDS集群系统为了实现负载均衡,采用的基本机制为元数据服务的负载迁移.当前主流方案存在迁移时间长,迁移中写相关元数据访问需要阻塞的问题.提出细粒度的元数据服务负载迁移方案,由迁出端恢复迁移机制和细粒度控制迁移机制2部分组成.在迁移过程中,以文件为粒度在迁入端重建迁出端的元数据相关状态结构,并根据被访问状态的类型选择在迁出端或迁入端进行立即响应,而非阻塞操作直到迁移完成.在蓝鲸MDS集群系统上实现了此方案,测试和分析表明,在10 000规模的迁移场景中,迁移时间控制在800ms以下,元数据或状态写入延迟最高为215ms.与系统原方案中90s的固有延时相比,此方案有效解决了MDS集群中负载迁移时间过长的问题,并且极大地降低了迁移过程对正常元数据访问的影响. 刘健 张军伟 张浩 邵冰清 杨洪章 刘振军关键词:元数据服务器 负载均衡 细粒度 GeoFS:一个广域文件系统的设计与实现 2014年 GeoFS是一个遵从POSIX标准的广域分布式文件系统,用于站点之间共享数据.GeoFS使用FUSE用户态文件系统库,为应用程序提供标准文件系统接口,现有应用无需修改源代码即可运行其上.详述GeoFS副本及缓存设计,使得GeoFS适用于高时延、低带宽的广域环境的同时,提高GeoFS的可靠性与可用性.性能测试表明GeoFS在不同时延下,并行两副本读比单副本读性能平均提高56%,其中在100ms时延下,并行两副本读比单副本读性能提高66%;而当客户端缓存命中时,读写性能与本地文件系统性能相当. 刘国良 马留英 闫鹏飞 张帅 刘浏关键词:缓存 一种加速广域文件系统读写访问的缓存策略 被引量:1 2014年 针对广域网高延迟、低带宽的特性给广域文件系统访问带来的性能影响问题,提出了一种不依赖于底层文件系统、能够加速广域文件系统读写访问的缓存策略.该策略支持基于区间粒度的文件数据缓存及访问,并支持元数据本地缓存;该策略提供基于阈值的容量管理功能,采用超时与最终一致相结合的方式维护缓存的一致性.最后使用典型的文件I/O基准测试工具和元数据性能测试工具对该缓存策略进行了评测,实验结果表明:该缓存策略减少了客户端与服务器的交互次数,给广域文件系统的数据访问带来了明显的性能提升,当缓存命中时其数据的读写性能与本地文件系统相近. 马留英 蔡杰明 刘浏 刘振军关键词:广域网 缓存 一致性 FUSE I/O访问相关性原理 被引量:4 2014年 作为数据访问的基本原理,局部性一直是以单个数据访问请求为研究对象,忽视了数据之间的一个重要规律:数据访问中存在一些数据会一起访问——访问相关性.而且,相关性是有强度的:一些数据元素之间的相关性比其他元素更紧密.通过对典型数据I/O访问的分析,提出了访问相关性模型,并采用基于LRU堆栈的方法,提出了相关性集合的刻画方法. 刘建亮 杨琳 郭明阳 许鲁关键词:数据访问 I/O访问 基于pNFS的小文件间数据预读机制研究 被引量:1 2014年 随着信息技术飞速发展,小文件的数量越来越多.高效管理海量小文件、提供低延时的小文件访问服务,是并行网络文件系统的研究热点.小文件数据读取访问中,由于数据读取粒度小并且不同小文件之间的数据访问空间连续性差,难以发挥数据存储设备的大粒度顺序访问的性能优势,导致小文件的访问性能远远低于大文件的访问性能.在扩展只读目录授权机制框架下,提出一种小文件间数据预读机制,充分发挥了数据存储设备大粒度顺序访问性能的优势,大幅降低了小文件数据读取访问延迟.典型应用环境实测表明,对比pNFS系统,小文件数据顺序读取访问性能最高可提升8.92倍,随机读取性能最高可提升11.82倍. 杨洪章 张军伟 许鲁 刘振军关键词:并行网络文件系统 蓝鲸机群文件系统的元数据一致性协议 2015年 蓝鲸机群文件系统BWFS采用元数据服务器集群以扩展元数据服务能力,多个服务器之间的分布式元数据一致性维护成为必须要解决的问题.然而传统一致性维护协议通常需要多次的网络交互和磁盘同步,阻碍了BWFS元数据性能扩展.BWFS在本地日志系统的基础上设计实现了一种新型的分布式元数据一致性协议.协议针对BWFS中每个分布式元数据操作只涉及到两台服务器,通过在所涉及的两台服务器之间互相保存冗余操作日志,实现了异步的分布式元数据一致性,避免了磁盘同步开销.测试表明,保证一致性的情况下分布式元数据操作的平均响应时间相比无一致性保证仅延长了约5%-15%;在宕机的情况下,单个服务器恢复10000个分布式元数据操作的时间仅1s. 邵冰清 张军伟 郑彩平 张浩 刘振军关键词:机群文件系统 一致性 基于广域存储系统的副本技术研究 2015年 针对广域网高延迟、低带宽的特性给广域文件系统访问带来的性能影响问题,提出了一种不依赖于底层文件系统、能够加速广域文件系统读写访问的缓存策略。该策略支持基于区间粒度的文件数据缓存及访问,并支持元数据本地缓存;并提供基于阈值的容量管理功能,采用超时与最终一致相结合的方式维护缓存的一致性。最后使用典型的文件I/O基准测试工具和元数据性能测试工具对该缓存策略进行了评测,实验结果表明:该缓存策略减少了客户端与服务器的交互次数,给广域文件系统的数据访问带来了明显的性能提升,当缓存命中时其数据的读写性能与本地文件系统相近。 闫鹏飞 吴雪丽 蔡杰明 马留英 刘振军关键词:广域网 数据中心 副本 Readdir++:一种并行网络文件系统中海量小文件读优化技术 被引量:1 2014年 高效管理海量小文件,提供低延时的小文件访问服务,是并行网络文件系统的研究热点.p NFS采用数据带外访问模式,元数据的访问频率高,对海量小文件的访问性能造成了很大影响.本文扩展了p NFS中的读目录授权机制,并在其框架下提出了一种Readdir++技术,用于批量预取layout等元数据,并确保预取元数据的有效性.Readdir++技术避免了小文件读取过程中同步的元数据获取开销,有效降低了访问延迟,提升了海量小文件的读取访问性能.典型应用环境实测表明,对比p NFS系统,Readdir++技术可将海量小文件读取访问过程中元数据性能提升到14.27倍,总体性能提升到1.78倍. 杨洪章 张军伟 刘振军 张建刚关键词:并行网络文件系统 元数据 预取技术 网络分簇BWRAID:更快的扩展、恢复和读写性能 2015年 存储区域网(storage area network,SAN)是重要的网络存储方法.使用商用硬件BWRAID在SAN上实现了分布式RAID.初始版本的BWRAID使用全对称结构,然而其存在3个问题:1)扩展时要读取数据重新计算校验,IO负载高、扩展时间长;2)将数据集中恢复到单个存储节点,没有分布的并发恢复;3)数据布局不合理,导致内部RAID4有大量同步更新.为解决上述问题,提出了"网络分簇BWRAID".新系统采用"分簇RAID"(declustering RAID)的非对称结构,分簇对象是相等大小的小虚拟盘而不是数据块;在扩展时,它在节点之间仅迁移虚拟卷,不需计算校验.由于一个恢复需要的节点数量小于节点总数,多个恢复就能并行.为优化IO使用新的数据布局,按内部RAID4条带组织用户的存储空间,并给出了搜索虚拟盘的算法,用于在系统分配、扩展、恢复时,搜索合适的虚拟盘.实验表明网络分簇BWRAID更好:在系统扩展时无需重新计算校验,加速扩展5~8倍;并行恢复成倍加速;新数据布局提高了IO性能. 孙振元 许鲁 刘振军 董欢庆 刘昌关键词:网络RAID 可扩展性