陈爽
- 作品数:6 被引量:77H指数:3
- 供职机构:解放军理工大学更多>>
- 发文基金:中国博士后科学基金江苏省博士后科研资助计划项目国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种多索引的RDF数据存储与查询方案
- 随着语义网技术的发展,RDF数据应用的领域越来越广泛,因此产生了海量的RDF数据,对存储和查询提出了更高的要求.在RDF数据上建立多索引结构能有效地提高查询效率,设计了一个包括一个词典表和3个不同顺序的数据表的RDF数据...
- 宋金玉王星陈爽赵成
- 关键词:RDF存储模式SPARQL
- 文献传递
- 数据清洗及其一般性系统框架被引量:31
- 2012年
- 数据清洗是提高数据质量的重要手段之一。从数据产品与传统的有形产品、软件产品相类比的视角,研究数据清洗及其系统框架。数据清洗是数据质量研究的起点,从数据质量发展的角度明确数据清洗的地位和作用,并将其类比为其他产品形式的故障诊断与维修。对数据清洗做了10点说明,进一步澄清了其基本内涵;将数据清洗与数据集成进行了比较分析,指出二者是同等的数据质量概念。提出了数据清洗的一般性系统框架,其由准备、检测、定位、修正、验证5部分组成,允许在多处停止以完成不同的数据清洗任务,是一个柔性的、可扩展的、交互性好的、松耦合的框架。
- 曹建军刁兴春陈爽邵衍振
- 关键词:数据质量数据清洗相似重复记录
- 基于列数据库的RDF数据管理实现被引量:3
- 2012年
- 随着语义网的发展,Web上越来越多的开放数据以RDF格式发布,对海量RDF的有效管理是实现语义网的一个重要条件。文中讨论并分析了现有的几种RDF数据存储方法,针对垂直划分的方法,基于列数据库MonetDB,实现了一个RDF数据管理方案。该方案将RDF和RDFS信息分开存储,并在Barton数据集上,设计了包含几种连接的基准查询,对比RDF管理系统Sesame的三元组模式,分别进行了存储空间和查询效率测试。实验结果验证了基于列数据库的垂直划分方案的有效性。
- 王星宋金玉陈爽陈萍
- 关键词:资源描述框架三元组
- 基于伸缩窗口和等级调整的SNM改进方法被引量:14
- 2013年
- 对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较。采用动态调整等级法,根据记录相似度调整字段等级,并通过等级法将字段等级转换为权重,解决了人为赋予固定权重主观性强、不准确的问题。通过对实际系统中的数据进行测试,验证了方法的有效性和优越性。同时,这两种方法适用于大多数基于排序—合并的相似重复记录检测方法,提高了相应方法的效率和准确度。
- 陈爽刁兴春刁兴春宋金玉曹建军
- 关键词:数据清洗相似重复记录
- 数据质量及数据清洗方法被引量:31
- 2013年
- 数据质量问题关系到信息系统建设。首先,概述了数据质量的定义和数据质量问题的分类并总结其来源,介绍了数据质量维度这一数据质量评估指标;然后,说明了不同领域中数据清洗的概念,分析了不同数据质量问题的清洗方法,并归纳了数据清洗有关的框架和工具。最后,对数据清洗相关研究进行了展望。
- 宋金玉陈爽郭大鹏王内蒙
- 关键词:数据质量数据清洗清洗方法
- 基于关系马尔可夫模型的枚举型缺失值估计被引量:2
- 2013年
- 针对数据质量中数据缺失问题,提出了基于关系马尔可夫模型(RMM)的枚举型缺失值估计方法.该方法充分考虑属性间的关联性,将动态属性选择(DAS)方法与RMM结合,最大限度地利用完整数据的信息,提高了该方法的估计能力;利用RMM计算源状态到目的状态的转移概率,采用MaxPost和ProProp 2种缺失值填充方法,对缺失值进行填充.采用公认数据集,进行了对比实验,验证了该方法的有效性和优越性.
- 陈爽宋金玉刁兴春曹建军