中央高校基本科研业务费专项资金(N110618001) 作品数:9 被引量:30 H指数:4 相关作者: 曹鹏 赵大哲 栗伟 李博 刘鑫 更多>> 相关机构: 东北大学 教育部 更多>> 发文基金: 中央高校基本科研业务费专项资金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
面向不均衡数据集的ARSGOS算法 被引量:3 2014年 现实世界中广泛存在着类别分布不均衡的数据,其分类问题已成为数据挖掘领域中的研究热点.提出一种基于高斯混合模型,并结合自适应随机子空间的升采样算法(ARSGOS).该算法使用随机子空间的思想,在不同的子空间下对少数类的样本空间使用高斯混合模型进行参数估计,并根据估计的概率密度函数构造少数类样本数据,从而使新样本数据更加准确真实,避免了噪音数据的生成.该算法通过引入数据子集交叠率,增强数据采样和分类器学习的差异性,提升了在不均衡数据空间下少数类样本的识别能力.通过大量UCI数据集验证,并采用不同的基分类器,与其他常用的重采样算法进行比较.实验结果表明ARSGOS算法有效地提高了少数类的识别率以及整体的分类性能. 曹鹏 栗伟 赵大哲关键词:随机子空间 高斯混合模型 聚类核值相似区特征点的医学影像分类 2013年 针对传统方法通常选取角点或极值点作为特征点,忽略了局部纹理变化从而影响医学影像分类性能的问题,提出一种新的特征点检测和描述方法,并应用Bag-of-Keypoints模型实现医学影像分类。首先改进自适应的Kmeans对影像进行像素级聚类,构建核值相似区并选取邻域内聚类分布变化急剧的像素点作为特征点;然后在极坐标系中定义特征点描述符并生成视觉词典,通过视觉词直方图描述影像;最后利用直方图交集方法度量影像间的相似度来扩展KNN(K-nearest neighbor)完成分类。遵循IRMA(image retrival in medical appication)的医学影像类别编码标准,严格选择实验数据,结果表明该算法较传统方法 F1值平均提高4.5%,对于不同类别影像效果更加稳定鲁棒,从而更好地满足临床应用需求。 李博 曹鹏 栗伟 赵大哲关键词:影像分类 特征点 自适应聚类 基于粒子群优化的不均衡数据学习 被引量:5 2013年 为了提高重采样算法在不均衡数据学习的性能,提出一种基于粒子群优化的不均衡数据学习方法。通过粒子群优化,以不均衡数据分类评价准则作为目标函数,来优化重采样算法中最佳的采样率,同时对特征进行选择,从而达到最佳的数据分布。该算法在大量UCI数据集上进行了测试,与其他不均衡学习算法进行比较,结果表明该算法具有更高的分类性能;并验证了同时优化采样率和特征集合,可有效地改进不均衡数据分类效果。 曹鹏 李博 栗伟 赵大哲关键词:粒子群优化 群体智能 重采样 基于类别空间多示例学习的色情图像过滤算法 被引量:1 2013年 针对传统的不良图像自动过滤算法难以适用于复杂互联网环境的问题,提出一种通过构建类别空间进行多示例学习实现图像过滤的新算法.首先在YCgCr空间中扩展Hessian矩阵检测特征点作为图像的示例,然后定义YCgCr-LBP算子作为图像示例描述符,最后基于包示例频率统计原理提出类别空间模型,并利用余弦相似度完成图像识别.利用不同成分的数据集进行了多组实验对比,结果表明,所提出的算法克服了传统依靠皮肤比例方法对皮肤或类皮肤比例较大图像识别准确度较低的问题,同时也较一般的多示例学习方法对图像具有更好的描述能力,取得了较好的实验结果,具有实际应用价值. 李博 曹鹏 栗伟 赵大哲关键词:图像过滤 多示例学习 局部二值模式 HESSIAN矩阵 基于决策准则优化的不均衡数据分类 被引量:2 2014年 现实世界中广泛存在着类别分布不均衡的数据,而传统分类算法在数据失衡的情况下分类效果很不理想,为此提出一种基于决策准则优化的组合分类算法.该算法基于朴素贝叶斯模型输出的后验概率,以不均衡数据评价指标作为目标函数,对决策阈值(二类)或错分代价参数(多类)进行优化,得到最佳的分类决策准则;同时为了提高分类的泛化性,提出一种自适应随机子空间组合分类算法,增强基分类器之间的差异性,避免分类器学习和决策准则优化的过拟合,并可自动获得基分类器的最佳数量.通过大量UCI数据集的实验验证表明,与其它同类算法相比,该算法在精度和效率上都具有更好的处理不均衡数据的优势. 曹鹏 栗伟 赵大哲关键词:代价敏感学习 随机子空间 基于概率分布估计的混合采样算法 被引量:6 2014年 在类别不均衡的数据中,类间和类内不均衡性问题都是导致分类性能下降的重要因素.为了提高不均衡数据集下分类算法的性能,提出一种基于概率分布估计的混合采样算法.该算法依据数据概率分别对每个子类进行采样以保证类内的均衡性;并扩大少数类的潜在决策域和减少多数类的冗余信息,从而同时从全局和局部两个角度改善数据的平衡性.实验结果表明,该算法提高了传统分类算法在不均衡数据下的分类性能. 曹鹏 李博 栗伟 赵大哲关键词:混合采样 基于尺度空间中多特征融合的医学影像分类 被引量:7 2013年 针对现有医学影像分类方法对临床不同类别影像特征描述效果不一致,且尺度变化敏感的问题,提出一种基于尺度空间提取多特征进行融合的分类方法。首先构建高斯差分尺度空间,然后在尺度空间中分别从灰度、纹理、形状、频域四种互补的角度描述医学影像,最后基于最大似然估计理论构建决策级特征融合模型,实现医学影像分类。严格依照IRMA医学影像类别编码标准选择实验数据,结果表明所提方法相对已有方法分类的平均F1值得到了5%~20%不同程度的提高,更全面描述医学影像信息,避免了特征降维造成的信息损失,有效提高了分类的准确率,具有临床应用价值。 李博 曹鹏 栗伟 赵大哲关键词:图像分类 决策级融合 最大似然估计 结合X-means聚类的自适应随机子空间组合分类算法 被引量:5 2013年 针对大规模数据的分类准确率低且效率下降的问题,提出一种结合X-means聚类的自适应随机子空间组合分类算法。首先使用X-means聚类方法,保持原有数据结构的同时,把复杂的数据空间自动分解为多个样本子空间进行分治学习;而自适应随机子空间组合分类器,提升了基分类器的差异性并自动确定基分类器数量,提升了组合分类器的鲁棒性及分类准确性。该算法在人工和UCI数据集上进行了测试,并与传统单分类和组合分类算法进行了比较。实验结果表明,对于大规模数据集,该方法具有更好的分类精度和健壮性,并提升了整体算法的效率。 曹鹏 李博 栗伟 赵大哲关键词:大规模数据集 随机子空间 支持向量机 基于代价敏感SVM优化组合算法的微钙化簇识别 被引量:1 2013年 微钙化簇是乳腺癌一个重要的早期发现,现有的检测技术为了达到高敏感性要求,产生很多假阳性数据.根据微钙化簇特点,提出一种整体和局部相组合的分类识别策略,并根据真假阳性样本错分代价的不同,使用代价敏感SVM方法进行分类学习.在构造分类器模型过程中利用粒子群进行分类器的参数优化及特征集合的选择,以提升分类学习的泛化能力.该算法在保证高敏感性的同时,降低了过多的假阳性数据,并删除了冗余和不相关的特征.实验结果表明,基于粒子群优化的代价敏感SVM组合分类算法提高了传统方法的识别能力. 曹鹏 李博 刘鑫 赵大哲关键词:计算机辅助诊断 代价敏感学习 粒子群优化