针对EB(extreme binning)算法重复数据删除率低,磁盘I/O开销大的缺陷,提出基于多特征匹配和Bloom filter的重复数据删除算法DBMB(deduplication based on multi-feature matching and Bloom filter).将小文件聚合为局部性文件单元,作为一个整体进行去重处理,采用最大、最小以及中间数据块ID的多重相似性特征进行匹配,并基于Bloom filter优化磁盘数据块的查找和匹配过程.结果表明,DBMB算法能有效提升重复数据删除率,降低算法执行时间,同时减少处理小文件的内存开销,性能提升显著.
为降低IT运维系统的实时监测数据量、提高数据存储效率,提出一种自适应的旋转门算法(adaptive swinging door trending,ASDT)。针对传统SDT算法存在抗噪性弱、参数选取困难等缺陷,ASDT首先通过最小二乘平滑处理,减小噪声数据对SDT趋势判断的影响;然后通过改进死区限值过滤算法,对经平滑处理后的数据进行压缩;最后基于相邻压缩区间标准差变化,自适应调整压缩精度参数。实验结果表明:在保证数据保真度的前提下,ASDT的仿真数据和真实数据上的压缩比分别提高60%和24%以上。
关联规则隐藏是隐私保护数据挖掘(privacy-preserving data mining,PPDM)的一种重要方法.针对当前的关联规则隐藏算法直接操作事务数据、I/O开销较大的缺陷,提出一种基于FP-tree快速关联规则隐藏的算法FP-DSRRC.算法首先对FP-tree的结构进行改进,增设事务编号索引并建立双向遍历结构,进而利用改进的FP-tree对事务信息进行快速处理,避免了遍历原始数据集产生的大量I/O时间;然后通过建立和维护事务索引表实现对敏感项的快速查找,并基于分簇策略对关联规则处理,以簇为单位进行敏感规则消除,同时采用规则支持度和置信度阈值区间的思想,减少了关联规则隐藏处理对原始数据集的影响;最后通过实验测试证明:相较于传统关联规则隐藏算法,FP-DSRRC算法在保证生成的数据集质量的同时,减少了50%~70%的算法执行时间,并在大规模真实数据集上有较好的可用性.