多尺度科学在数据挖掘领域的研究多见于图像和空间数据挖掘,对一般数据的多尺度特性研究较少。传统聚类算法只在单一尺度上进行,无法充分挖掘蕴藏在数据中的知识。引入粒计算思想,进行普适的多尺度聚类方法研究,对数据进行多层次、多角度分析,实现一次挖掘,多次应用。首先,介绍粒计算相关知识;然后,提出多尺度聚类尺度上推算法UAMC(upscaling algorithm of multi-scale clustering),以簇为粒子,簇心为粒子特征进行尺度转换,利用斑块模型得到大尺度知识,避免二次挖掘带来的资源浪费。最后,利用UCI公用数据集和H省全员人口真实数据集对算法性能进行实验验证,结果表明算法在准确性上优于K-means等基准算法,是有效可行的。
数据挖掘在多尺度研究方面取得了一些成果。然而,多尺度数据挖掘研究还不够深入和完善。目前针对空间和图像数据的研究较多,对于一般数据的多尺度数据挖掘的研究较少。随着大数据应用的不断发展,其研究显得尤为重要。针对上述问题,进行了普适的多尺度关联规则尺度转换方法的研究。首先,基于包含度的相似度理论提出频繁项集的处理方法;然后,以图像金字塔为理论基础,提出了多尺度关联规则尺度上推算法MSARSUA(Multi-Scale Association Rules Scaling Up Algorithm);最后,利用H省1)全员人口真实数据集、UCI公用数据集和IBM数据集对所提算法进行了实验验证与分析,结果表明MSARSUA具有较高的覆盖率、较高的F1-measure值和较低的平均支持度估计误差,在效率上比Apriori算法和FP-Growth算法有较大的提升,在性能上比SU-ARMA有更好的表现。