国家自然科学基金(61175054)
- 作品数:6 被引量:29H指数:4
- 相关作者:钟才明程凯庞永明代明纪政更多>>
- 相关机构:宁波大学河北汉光重工有限责任公司上海交通大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 聚类集成中基聚类的优化研究被引量:2
- 2017年
- 聚类集成是将一个数据集的多个划分(基聚类)合成一个新的聚类,该聚类最大程度地代表了所有输入基聚类对数据集的聚类信息。显而易见,初始基聚类的质量对于最终的集成划分至关重要。传统的聚类集成中的基聚类器使用最多的是K-means,因为K-means不仅实现简单,计算复杂度不高,而且其聚类机制符合机器学习关于局部数据的类别条件概率为常数的假设。但由于K-means通常直接使用高斯距离作为距离测度,其只能发现球形簇的类;而对于具有结构复杂、尤其是基于连接性且非球形分布的类结构的数据集,不能生成高质量(即同质性高)的基聚类。为此提出一个基聚类的优化方法,即:判定K-means所生成类的同质性,对同质性较差的类进行再次划分,以提高基聚类的同质性,从而提高整个聚类集成的质量。在8个数据集上的实验数据表明所提出的方法是有效的。
- 程凯钟才明庞永明
- 关键词:聚类集成K-MEANS同质性
- Covering Reduction of Tri-partition Neighborhoods
- Neighborhood Covering Reduction extracts rules for classification through formulating the covering of data spa...
- Xiaodong YueWei HuangCaiming ZhongYufei Chen
- 基于集成学习的无监督离散化算法被引量:5
- 2014年
- 模式识别与机器学习的一些算法只能处理离散属性值,而在现实生活中的很多数据具有连续的属性值,针对数据离散化的问题提出了一种无监督的方法。首先,使用K-means方法将数据集进行划分得到类别信息;然后,应用有监督的离散化方法对划分后的数据离散化,重复上述过程以得到多个离散化的结果,再将这些结果进行集成;最后,将集成得到的最小子区间进行合并,这里根据数据间的邻居关系选择优先合并的维度及相邻区间。其中,通过数据间的近邻关系自动寻求子区间数目,尽可能保持其内在结构关系不变。将离散后的数据应用于聚类算法,如谱聚类算法,并对聚类后的效果进行评价。实验结果表明,该算法聚类精确度比其他4种方法平均提高约33%,表明了该算法的可行性和有效性。通过该算法得到的离散化数据可应用于一些数据挖掘算法,如ID3决策树算法。
- 徐盈盈钟才明
- 关键词:分类数据谱聚类
- 基于数据集属性相似性的聚类算法推荐被引量:4
- 2016年
- 由No Free Lunch理论可知,没有一种聚类算法可完美的解决所有问题.算法推荐是解决此问题的一种有效手段,其核心是数据集相似性的度量.因此提出了一种计算数据集相似性的新方法,通过提取能揭示数据集内在分布和结构的几种属性,然后计算数据集几个属性间的距离,从而得到相似性的度量.首先选择了统计特征向量和二值化向量,然后对数据集进行划分,并计算划分中点到中心点的距离和点对之间的robust path-based距离得到数据集的紧凑性和连接性.再通过BP网络训练得到4个属性的参数,进而得到了数据集的相似性度量.选择8种人工数据集和8种UCI上的数据集建立数据集库,并选择了7种具有代表性的聚类算法组成算法库.选择UCI上的部分数据集进行实验,结果表明本文提出的方法有较好的效果.
- 代明钟才明庞永明程凯
- 关键词:统计特征
- 基于聚类集成的蚁群优化与受限解空间的TSP算法被引量:6
- 2016年
- 蚁群算法是一种元启发式搜索算法,能有效地解决TSP这类NP问题.针对该算法的信息素更新机制易导致陷入局部最优的缺点,提出了一种基于聚类集成的蚁群优化与受限解空间的TSP算法.其主要思想如下:先用三角形TSP算法生成初始TSP并构建蚁群的初始转移概率矩阵,以减少蚂蚁选择的随机性;然后运用k-means聚类集成生成关联矩阵,作为扰动因子以优化蚂蚁对城市的选择概率,即关联城市相互吸引,不关联城市相互排斥,以避免过早陷入局部最优;最后提出一种重组受限解空间的边的方法再次优化蚁群的解.实验结果表明,与同类算法相比,该算法具有较优的结果.
- 庞永明钟才明程凯
- 关键词:蚁群算法TSP关联矩阵
- 基于K-means稳定划分和贝叶斯连接性的聚类被引量:2
- 2016年
- K-means只能处理球形或具有较好分离度的数据集,不能够处理任意形状的数据集.同时,因为初始中心点是随机选择的,所以K-means聚类结果是不稳定的.为此提出一个新的聚类算法.具体如下:首先用K-means对数据集进行多次划分,计算点对出现在同一个类的频数,辨识并丢弃噪声点,从而获得精炼的类.然后重新分配那些点个数较少的类及分割距离方差较大的类,得到稳定的类.再用基于贝叶斯的连接性准则合并稳定的类,以生成用户指定个数的类.最后,把丢弃的噪声点分配给其最近邻的类.在一些人工数据集上做了实验,提出的聚类方法准确率较原始的K-means及其他传统的方法,如DBSCAN,Single-linkage有显著的提高.
- 代明钟才明
- 关键词:K-MEANS
- 复杂背景中的人脸识别技术研究被引量:11
- 2013年
- 针对复杂背景下的人脸图像,提出一种快速人脸检测识别方法。包括基于肤色模型和OpenCV的综合方法进行人脸检测定位,并对图像重新保存、预处理,用以克服光照因素的干扰,剔除复杂背景对人脸识别不利因素的影响。采用二维主成分分析算法,对同一个人多幅不同表情的人脸图像进行采集和特征提取并归类。对ORL人脸库及实际外场背景下的人脸图像进行测试,结果表明,该方法可有效解决复杂背景下的人脸识别问题,具有快速、高效的实用性,正确识别率可达90%以上。
- 王金云周晖杰纪政
- 关键词:肤色模型二维主成分分析人脸识别技术