吴倩
- 作品数:5 被引量:24H指数:5
- 供职机构:华中师范大学计算机学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种快速挖掘top-k高效用模式的算法被引量:5
- 2017年
- 高效用模式挖掘是数据挖掘领域的一个基础研究方向,其中关于top-k高效用模式的挖掘算法也越来越多,k指的是用户需要挖掘的高效用模式的个数。它们可以归纳为二阶段top-k算法和一阶段top-k算法两类,两者的主要区别是,前者在挖掘的过程中会产生大量的候选模式,这是影响算法性能的主要因素;后者在挖掘的过程中不产生候选模式。为了更加高效地挖掘效用值最高的k个模式,一阶段算法TKHUP被提出,该算法在进行数据挖掘的过程中主要是通过四个有效策略来减少时间和空间的消耗。通过大量的实验数据表明,TKHUP在时间性能上优于其他top-k高效用模式挖掘算法。
- 吴倩王林平罗相洲崔建群王海
- 关键词:数据挖掘
- 动态数据库中增量Top-k高效用模式挖掘算法被引量:6
- 2017年
- 高效用模式的挖掘需要设定一个合适的阈值,而阈值设定对用户来说并非易事,阈值过小导致产生大量低效用模式,阈值过大可能导致无高效用模式生成。因而Top-k高效用模式挖掘方法被提出,k指效用值前k大的模式。并且大量的高效用挖掘研究仅针对静态数据库,但在实际应用中常常会遇到新事务的加入的情况。针对以上问题,提出了增量的Top-k高效用挖掘算法TOPK-HUP-INS。算法通过四个有效的策略,在增量数据的情况下,有效地挖掘用户所需数量的高效用模式。通过在不同数据集上的对比实验表明TOPK-HUP-INS算法在时空性能上表现优异。
- 吴倩王林平罗相洲崔建群
- 关键词:动态数据库
- 基于投影的高效用项集挖掘算法被引量:5
- 2016年
- 随着高效用模式挖掘算法在实际应用中的重要性逐步显著,因而其得到了越来越多的关注和研究,但是已知的一些算法存在着多遍数据集扫描以及会产生大量候选项集、时效性不高等问题.这些问题使得高效用模式的挖掘效率大大降低,故本文提出一种新的基于投影的高效用项集挖掘算法HUPMP(high utility pattern mining on projection).采用基于投影的方式将项集的信息存储在数组中,能有效的减少前人基于树结构建树所产生的耗时.同时HUPMP算法将多次数据集扫描减少为只需要进行两次数据集的扫描便可挖掘出所有的高效用模式.另外,针对会产生大量候选项集的问题,提出了一种不同于闭包属性的新性质.通过与多个算法的实验比较可以看出,HUPMP算法表现优异.
- 王敬华罗相洲吴倩
- 关键词:频繁项集
- 基于效用表的快速高平均效用挖掘算法被引量:5
- 2016年
- 高效用项集挖掘在数据挖掘领域中受到了广泛的关注,但是高效用项集挖掘并没有考虑项集长度对效用值的影响,所以高平均效用项集挖掘被提出;而目前的一些高平均效用项集挖掘算法需要耗费大量的时间才能挖掘出有效的高平均效用项集。针对此问题,给出了一个高平均效用项集挖掘的改进算法——FHAUI。FHAUI算法将效用信息保存到效用列表中,通过效用列表的比较来挖掘出所有的高平均效用值,同时FHAUI算法还采用了一个二维矩阵来有效减少二项效用值的连接比较次数。最后将FHAUI算法在多个经典的数据集上测试。实验结果表明,FHAUI算法在效用列表的连接比较次数上有了极大的降低,同时其时间性能也有非常大提高。
- 王敬华罗相洲吴倩
- 关键词:数据挖掘
- 基于MapReduce的top-k高效用模式挖掘算法被引量:7
- 2017年
- 高效用模式挖掘被广泛地应用于数据挖掘领域。为了挖掘指定数量的高效用模式,一些基于树结构和效用表结构的top-k高效用挖掘算法被提出,但前者在挖掘过程中产生了大量候选模式,后者在效用模式增长时需要进行多次比较;同时,由于在信息社会,数据量呈爆炸性增长,所以在数据集过大的情况下,挖掘高效用模式需以大量存储空间以及计算开销为代价。为了解决这两个问题,基于MapReduce的top-k高效用模式挖掘算法(TKHUP_MaR)被提出。该算法通过两次扫描数据库,利用三次MapReduce来实现并行top-k高效用模式的挖掘。通过实验表明TKHUP_MaR算法在并行挖掘top-k高效用模式的过程中是有效的。
- 吴倩王林平罗相洲崔建群王海
- 关键词:数据挖掘TOP-KMAPREDUCE