袁婷
- 作品数:3 被引量:13H指数:2
- 供职机构:汕头大学工学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于熵权法的混合属性聚类算法被引量:5
- 2013年
- K-prototypes算法是处理混合数据的主要聚类算法,大部分针对混合型数据的聚类算法都是选择数据集中的一部分数据作为聚类对象,而忽略了这类数据的特殊性与整体性,为了改进了数据的距离衡量,文中提出了一种新的聚类方法,该方法采用信息熵作为属性的权值,进行高精度和更加稳定的聚类,最后通过Matlab编程实现,采用uci数据集中credit等数据集进行仿真实验,证明改进算法是正确和有效的.
- 孙浩军高玉龙闪光辉袁婷
- 关键词:混合数据信息熵
- 一种高维混合属性数据聚类算法被引量:6
- 2015年
- 在许多应用中,很多数据集都具有数值型和分类型数据的混合特征,k-prototype是针对这类数据聚类的经典方法之一,该方法是一种基于k-means和k-mode的聚类方法。在研究了现有的混合属性数据聚类方法之后,引入了一种新算法用于混合型数据聚类,不仅改进了prototype的选取方法,而且提出了一种新的针对混合型数据的相似度度量方式,基于此又提出了一种不同于k-prototype的数据到prototype的分配方式,采用类似层次聚类中凝聚聚类的思想进行聚类,通过在四个真实的混合型数据集上测试发现:与传统算法相比,算法提高了聚类的精度和稳定性。
- 孙浩军闪光辉高玉龙袁婷
- 关键词:聚类相似度计算层次聚类
- 高维分类型数据加权子空间聚类算法被引量:2
- 2014年
- 子空间聚类是高维数据聚类的一种有效手段,子空间聚类的原理就是在最大限度地保留原始数据信息的同时用尽可能小的子空间对数据聚类。在研究了现有的子空间聚类的基础上,引入了一种新的子空间的搜索方式,它结合簇类大小和信息熵计算子空间维的权重,进一步用子空间的特征向量计算簇类的相似度。该算法采用类似层次聚类中凝聚层次聚类的思想进行聚类,克服了单用信息熵或传统相似度的缺点。通过在Zoo、Votes、Soybean三个典型分类型数据集上进行测试发现:与其他算法相比,该算法不仅提高了聚类精度,而且具有很高的稳定性。
- 孙浩军闪光辉高玉龙袁婷吴云霞
- 关键词:高维数据聚类子空间信息熵层次聚类