安徽省高校省级自然科学研究项目(05010428)
- 作品数:4 被引量:11H指数:2
- 相关作者:方宏彬孙启林刘明术张健张建更多>>
- 相关机构:安徽大学更多>>
- 发文基金:安徽省高校省级自然科学研究项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 剪枝与欠采样相结合的不平衡数据分类方法被引量:4
- 2012年
- 通过剪枝技术与欠采样技术相结合来选择合适数据,以提高少数类分类精度,研究欠采样技术在不平衡数据集环境下的影响。结果表明,与直接欠采样算法相比,本文算法不仅在accuracy值上有所提高,更重要的是大大改善了g-means值,特别是对非平衡率较大的数据集效果会更好。
- 张健方宏彬
- 关键词:不平衡数据集剪枝技术欠采样技术
- 基于商空间理论的非平衡数据集分类算法被引量:2
- 2012年
- 在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。
- 张健方宏彬孙启林刘明术
- 关键词:非平衡数据集商空间理论支持向量机过采样
- 一种基于相似度量的离群点检测方法被引量:2
- 2012年
- 离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。
- 孙启林方宏彬张健刘明术
- 关键词:离群点网络入侵数据挖掘层次聚类
- 属性相似度在聚类算法中的有效性研究被引量:4
- 2012年
- 针对欧氏距离将个体的不同属性(即各指标或各变量)之间的差别等同看待,忽视了个体不同属性的重要性。考虑数据的几何结构特征和个体属性,结合马氏距离提出一种新的属性相似性度量方法及新的聚类有效性函数;对采用欧氏距离的分层聚类算法进行改进。改进的聚类算法能提高聚类的速度和质量,是一种有效的聚类方法。
- 刘明术方宏彬张建孙启林
- 关键词:聚类算法有效性