关联规则挖掘是数据挖掘中的一项核心任务,而由二元关系导出的概念格则是一种非常有用的形式化分析工具,它体现了概念内涵和外延的统一,反映了对象和特征间的联系以及概念间的泛化与例化关系。一个概念内涵与一个关联规则中的闭合项集可以一一对应。提出了一种新有基于概念格的关联规则挖掘算法Arca(Association Rule based Concept lAttice)。Arca算法通过概念矩阵构造部分概念格,使概念格中的每个概念对应一个闭合频繁项集。然后生成一些关联规则,在这些关联规则上通过定义了四个算子来生成了所有关联规则。
概念格作为形式概念分析理论中的核心数据结构,在机器学习和数据挖掘等领域有着广泛的应用。构造概念格十分重要,针对此引入了概念矩阵思想,提出了基于概念矩阵的概念格生成算法CMCG(Concept-Matrix Based Concepts Generation)。该算法从格的顶端节点开始构造,基于概念矩阵,利用属性的秩为每个节点生成它的所有子节点,完成子节点到父节点之间的链接,并生成哈斯图。给出了这种算法的理论依据。最后提供了这一算法的伪码,并通过实验证明了CMCG算法的时间性能优于Lattice算法。
在多线性主成分分析(Multi-linear principal component analysis,MPCA)的基础上提出了用于特征提取的稀疏张量主成分分析(STPCA)方法。该方法把MPCA中的特征值分解问题转化为线性回归问题,以此得到稀疏的投影矩阵,并通过该投影矩阵来降低遮挡对特征提取效果的影响。最后在Georgia tech和AR人脸库上进行对比实验,结果表明:本文方法无论在识别的精确度上还是在对遮挡的鲁棒性上都优于原有的MPCA算法。