广东省科技攻关计划(2010B010600026) 作品数:6 被引量:36 H指数:3 相关作者: 邹先霞 潘久辉 贾维嘉 刘波 耿寅融 更多>> 相关机构: 暨南大学 中南大学 香港城市大学 更多>> 发文基金: 广东省科技攻关计划 教育部科学技术研究重点项目 广东省教育部产学研结合项目 更多>> 相关领域: 自动化与计算机技术 更多>>
视图增量计算的延迟部分补偿算法 被引量:1 2011年 为解决异步传播算法中视图增量计算时间过长、占用系统资源过多及某些错误补偿问题,提出了在数据源上进行延迟部分补偿的算法。该算法要求获取数据源的基表增量时记下增量的事务时间,在实化视图层记录已用于视图增量计算的基表增量的最大事务提交时间。当计算实化视图新的增量时,比较同一个数据源在实化视图层上的记录时间与增量子查询的执行时间,如果这段时间基表产生新的增量,则进行补偿查询。补偿过程采用单个数据源上的时间进行比较,避免了全局时间问题,也解决了现有部分补偿算法可能产生的错误。该算法利用基表之间的主外码约束来减少计算次数,提高计算效率。分析和实验表明,该算法在计算效率和正确性方面都有所提高。 邹先霞 潘久辉 贾维嘉关键词:实化视图 数据仓库 一种条件函数依赖挖掘算法的分析与实现 被引量:6 2012年 条件函数依赖(Conditional Functional Dependence,CFD)的挖掘是一种重要的数据库分析技术,它是在函数依赖(FunctionalDependence,FD)挖掘的基础上加入条件分析功能扩展而来,当前被应用于数据质量检测。CFD挖掘是在FD挖掘的基础上通过条件分析进行更细粒度的信息挖掘,其时间复杂度较高。文章详细介绍一种经典的CFD挖掘方法(即CTANE算法),对其实现方法提出了优化措施,并通过实验比较了不同实现方法的效率,得出了优化措施改进效率的结论。 周健昌 刘波关键词:数据挖掘 数据质量 数据清洗 条件函数依赖 基于数据库日志的变化数据捕获研究 被引量:19 2012年 变化数据捕获方法是数据集成基础设施的战略组成部分,不断推动ETL、EAI等技术的发展.许多数据库厂商都提供了自己的CDC(Change data capture)产品,但只限于针对本身的数据库系统,价格也比较昂贵.虽然通过扫描数据库日志文件可以捕获变化数据,但大多数数据库系统都不提供日志文件的内部格式而只是提供日志访问的程序接口,如Oracle,SQL Server和DB2等.这些提供的接口有的访问活动日志,有的访问稳定日志,有的访问归档日志,因此很难保证读取日志文件的可靠性.现有的研究主要是如何利用程序应用接口读取日志文件,忽略了对可靠性的分析.本文针对读取不同类型的日志文件的可靠性条件进行了分析,提出了可靠读取规则及读取算法;并提出了从日志文件中有效抽取变化数据算法,实验证明了可靠性分析模型. 邹先霞 贾维嘉 潘久辉关键词:数据库日志 可靠性 实化外连接视图的增量计算 被引量:1 2011年 针对实化外连接视图的增量维护问题,提出了利用独立计算表达式计算辅助增量的算法。该方法利用外连接运算的连接析取范式,为各个析取项建立独立计算表达式,然后利用多个独立表达式之间的公共子表达式来计算实化外连接视图的辅助增量。该方法对实化外连接SPOJ(select project outer-join)视图定义没有其他的限制条件,试验结果表明,与相同条件的算法比较起来,该算法有效地降低了计算代价。 邹先霞 贾维嘉 潘久辉面向企业信息集成的数据一致性修复方法 被引量:1 2013年 为了有效、自动地修复在企业多个信息源的数据库操作中产生的错误或不一致数据,基于数据库的函数依赖和包含依赖,提出新的修复算法。算法针对违背函数依赖的数据,计算相关属性的统计度量,根据元组的可信度选择需要修改的元组;针对违背包含依赖的数据,匹配不同数据集之间的部分属性值,确定如何修改或插入新元组。算法对数据库不实施删除操作,保证了原数据库信息的完整性,具有客观、准确、高效等特性,能够应用于解决企业信息集成中出现的数据不一致问题。 刘波 刘欢关键词:信息集成 一致性 数据库 数据质量检测规则挖掘方法 被引量:8 2012年 数据质量规则是检测数据库质量的关键.为从关系数据库中自动发现数据质量规则,并以其为依据检测错误数据,研究质量规则表示形式及其评估度量,提出以数据项分组及其可信度为依据的最小质量规则计算准则、挖掘算法以及采用质量规则检测错误数据的思路.该数据质量规则形式借鉴关联规则的可信度评估机制、条件函数依赖的表达能力,统一描述函数依赖、条件函数依赖、关联规则等,具有简洁、客观、全面、检测异常数据准确等特性.与相关研究相比,降低挖掘算法的时间复杂度,提高检错率.用实验证明该方法的有效性和正确性. 刘波 耿寅融