国家重点基础研究发展计划(2012CB316203)
- 作品数:45 被引量:986H指数:9
- 相关作者:李战怀陈群刘海龙金澈清潘巍更多>>
- 相关机构:西北工业大学华东师范大学中原工学院更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信天文地球更多>>
- 基于ETW的Windows系统性能监测技术
- 2014年
- 系统性能的监测与分析是发现系统运行过程中的瓶颈、优化系统性能的有效手段。传统的监测工具缺乏完善的监控系统,数据表达的细度和深度不够,对系统本身性能有较大影响。本文设计并实现一种基于ETW机制的可视化监视系统Perfornitor,该系统可以较好地解决上述问题;利用Perfornitor对两个具体性能监测的实例进行分析,结果表明该技术能够为系统分析员快速发现并解决系统性能问题提供有效的帮助。
- 李梦家李战怀李宁叶晨
- 关键词:性能监测性能分析可视化
- 基于数据差异的连续数据保护恢复算法被引量:2
- 2013年
- 连续数据保护系统在进行数据恢复时,首要任务是从历史时刻中快速识别出可恢复时刻点,总恢复时间通常与恢复时刻点识别过程中所检测的历史数据版本成正比.然而,基本数据恢复方法的恢复效率低,无法适应现代存储系统对可用性和可靠性的要求,恢复时间和数据损失之间的矛盾日益突出.通过对邻近算法的改进和完善,提出了一种支持多间隙复杂情况的恢复算法——RM-CBDD.RM-CBDD通过分析并消除恢复起止时刻之间两种类型的差异数据实现恢复.实验结果表明,在多间隙复杂情况下,RM-CBDD算法的恢复效率明显优于基本方法和WDRS算法,有效降低了二分探查最佳恢复时刻点的时间开销.
- 王超李战怀张小芳侯利曼
- 关键词:连续数据保护数据恢复可用性
- MapReduce-based entity matching with multiple blocking functions被引量:1
- 2017年
- Cheqing JINJie CHENHuiping LIU
- 关键词:复杂查询负载平衡数据删除
- 区块链技术:架构及进展被引量:689
- 2018年
- 传统的数据库管理系统主要由单一机构管理和维护,在多方参与者协作的场景中,因无法完全信任数据库中的数据,每方都需要单独构建一套承载自己业务数据的数据库,多方数据库间的数据差异会导致繁琐的人工对账和争议,而区块链可解决这种多方间的信任问题.区块链作为一种去中心化、不可篡改、可追溯、多方共同维护的分布式数据库,可在互不了解的多方间建立可靠的信任,在没有第三方中介机构的协调下,划时代地实现了可信的数据共享和点对点的价值传输.该文结合比特币、以太坊和Hyperledger Fabric等区块链平台,提出了区块链系统的体系架构;从区块链数据、共识机制、智能合约、可扩展性、安全性几个方面阐述了区块链的原理与技术;通过与传统数据库对比,总结了区块链的优势、劣势及发展趋势.
- 邵奇峰邵奇峰张召钱卫宁周傲英
- 关键词:区块链FABRIC
- 基于对象异常频度的数据流阈值查询
- 2013年
- 数据流查询与处理技术广泛应用在金融系统等诸多领域中,银行卡交易系统中存在的由终端复用所导致的不规范交易即是一个典型案例.此类不规范交易存在两个特点:(1)对象频繁出现;(2)对象的值序列频繁波动.然而,现有的频繁项挖掘算法仅考虑第一个特点,无法有效解决问题,亟需开发新技术进行检测.文中首先形式化地定义了这类不规范交易查询,再设计了多个创新算法进行处理.此外,文中还将工作扩展到滑动窗口模型以处理数据流演化问题.理论分析与实验结果均表明所提方法具有较佳性能,空间复杂度与时间复杂度都较低.
- 张敬伟金澈清林煜明周傲英
- 关键词:数据流查询
- HDFS下海量小文件高效存储与索引方法被引量:5
- 2015年
- 分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗Name Node内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以便于查询.本文针对以上问题,提出一种基于多维列索引的小文件管理方案,支持文件的并发上传、下载及删除操作,并在多个查询维度上提供文件的自由检索.本文提出的小文件合并方案能够明显减少HDFS上的文件数量,经过实验对比,在小文件元信息的查询效率方面,本文提出的多维索引方案优于HBase,同时保证了文件传输的吞吐量.
- 肖玉泽张利军潘巍张小芳李战怀
- 关键词:HDFS
- 一种基于遗传算法的查询关键词形成技术
- 2013年
- 分析针对离散的关系数据构造有效查询关键词的关键因素,并在此基础上提出一种基于遗传算法的查询关键词形成方法 GQFA(Genetic-based Query Forming Algorithm)。对于目标属性,在训练集上应用遗传算法,学习得到与目标属性强相关的属性子集,进而形成合适的查询关键词。实验结果表明,该方法形成的查询关键词能够较好地满足应用需求。
- 杜晶陈群刘海龙
- 关键词:查询遗传算法知识获取信息检索
- 面向MapReduce的非对称分片复制连接算法优化技术研究
- 连接运算是面向海量数据的复杂分析型任务的核心内容之一,但是目前最具竞争力的分布式并行处理框架MapReduce没有对连接运算提供内在的支持.经分析发现现有的工作无法以既高效又不影响集群负载均衡和容错能力的方式来处理适用面...
- 潘巍李战怀陈群索博李卫榜
- 关键词:MAPREDUCE
- 文献传递
- 一种基于离群点检测的自动实体匹配方法被引量:10
- 2017年
- 实体匹配也叫记录匹配,是数据集成与数据清洗过程中的一项关键技术.其典型用例包括不同网站之间的商品匹配以及DBLP(Digital Bibliorgrophy&Library Project)与Scholar文献数据库之间的文献实体匹配.真实数据中广泛存在的数据质量缺陷,如错误值、缺失值和数据表达形式多样性等数据质量问题,使得实体匹配问题很具挑战性.目前流行的实体匹配算法可划分为三大类:基于规则的、基于概率的和基于学习的.电商数据中,对同一商品的描述可能差异巨大.对于这类充满表达多样性的实体匹配问题,通常并不存在简洁高效的匹配规则,训练精准的分类模型也很困难.针对这个问题,文中提出了一种基于离群点检测(Outlier Detection)的自动实体匹配方法,记为ODetec算法.首先计算记录序偶在匹配属性上的相似度,并将序偶映射为特征空间上的点;接着在特征空间中估算每个序偶的离群距离;最后根据离群距离和匹配约束,抽取匹配序偶.另外,ODetec算法采用主成分分析方法将多个存在相关性的匹配特征变换为彼此正交的主成分,突破了Fellegi-Sunter模型中属性之间须满足条件独立假设的限制,具备了更好的匹配效果和更为广泛的适用性.实验结论证实了ODetec方法的有效性.
- 樊峰峰李战怀陈群刘海龙
- 关键词:数据集成数据质量离群点检测主成分分析
- 基于Web信息的关系型信息错误自动检测与修复技术研究综述被引量:2
- 2017年
- 信息质量已经成为诸多应用领域所面临的一个重要问题,自动检测和修复信息系统中的信息错误是改善信息质量的有效手段.利用Web对关系数据库中的信息进行扩展以助于信息错误的自动检测与修复具有对待检测与修复的信息本身依赖少、信息质量规则更灵活、适用性更广以及信息修复相对更准确等优势,可以有效克服现有的基于规则、基于扩展信息和基于人机交互的信息错误检测与修复技术的不足.文中详细分析了基于Web信息的信息错误自动检测与修复技术的优势及所面临的挑战,提出了基于Web信息的信息错误自动检测与修复技术框架.该框架包括:Web信息自动拓展模型、基于Web信息的信息错误自动检测算法、基于Web信息的信息错误自动修复算法和基于Web信息的信息错误自动检测与修复算法的可靠性评估模型.基于上述框架,文中系统总结了基于Web信息的信息错误自动检测技术、信息错误自动修复技术以及信息扩展核心技术三个方面的研究进展,提炼出了基于Web信息的信息错误自动检测与修复技术需要解决的关键科学问题,对未来的研究方向进行了展望并且讨论了初步的研究思路.
- 刘海龙李战怀陈群陈肇强
- 关键词:信息质量数据修复WEB