代明
- 作品数:2 被引量:6H指数:2
- 供职机构:宁波大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于数据集属性相似性的聚类算法推荐被引量:4
- 2016年
- 由No Free Lunch理论可知,没有一种聚类算法可完美的解决所有问题.算法推荐是解决此问题的一种有效手段,其核心是数据集相似性的度量.因此提出了一种计算数据集相似性的新方法,通过提取能揭示数据集内在分布和结构的几种属性,然后计算数据集几个属性间的距离,从而得到相似性的度量.首先选择了统计特征向量和二值化向量,然后对数据集进行划分,并计算划分中点到中心点的距离和点对之间的robust path-based距离得到数据集的紧凑性和连接性.再通过BP网络训练得到4个属性的参数,进而得到了数据集的相似性度量.选择8种人工数据集和8种UCI上的数据集建立数据集库,并选择了7种具有代表性的聚类算法组成算法库.选择UCI上的部分数据集进行实验,结果表明本文提出的方法有较好的效果.
- 代明钟才明庞永明程凯
- 关键词:统计特征
- 基于K-means稳定划分和贝叶斯连接性的聚类被引量:2
- 2016年
- K-means只能处理球形或具有较好分离度的数据集,不能够处理任意形状的数据集.同时,因为初始中心点是随机选择的,所以K-means聚类结果是不稳定的.为此提出一个新的聚类算法.具体如下:首先用K-means对数据集进行多次划分,计算点对出现在同一个类的频数,辨识并丢弃噪声点,从而获得精炼的类.然后重新分配那些点个数较少的类及分割距离方差较大的类,得到稳定的类.再用基于贝叶斯的连接性准则合并稳定的类,以生成用户指定个数的类.最后,把丢弃的噪声点分配给其最近邻的类.在一些人工数据集上做了实验,提出的聚类方法准确率较原始的K-means及其他传统的方法,如DBSCAN,Single-linkage有显著的提高.
- 代明钟才明
- 关键词:K-MEANS