国家自然科学基金(60503017) 作品数:13 被引量:115 H指数:6 相关作者: 黄厚宽 林永民 田凤占 陈景年 石洪波 更多>> 相关机构: 北京交通大学 山西财经大学 河北理工大学 更多>> 发文基金: 国家自然科学基金 山西省自然科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
基于类信息的文本特征选择与加权算法研究 被引量:8 2008年 文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。 吕震宇 林永民 赵爽 陈景年 朱卫东关键词:文本分类 特征加权 基尼指数 产生式与判别式分类方法比较研究 被引量:1 2010年 分类是数据挖掘领域研究的热点,产生式与判别式是数据挖掘中两种不同的分类模型。产生式模型具有通用性、灵活性及清晰的分层结构,学习得到的模型很容易满足模型解释要求;判别式模型没有明显的对系统中变量的基本分布建模的企图,仅仅对输入到输出之间映射的最优化感兴趣,可以提供更好的分类性能。从准确率、建模时间及渐进误差等方面对产生式与判别式分类方法进行了分析与比较,为研究人员在分类模型的选择上提供了参考。 孔环环 石洪波关键词:支持向量机 朴素贝叶斯 因子分析降维对分类性能的影响研究 被引量:9 2007年 考虑因子数据的数据特征,采用连续属性服从正态分布的朴素贝叶斯分类方法,对因子分析降维前后数据集的分类性能变化进行了研究.实验结果表明:因子分析中的KM O(K a iser-M eyer-O lk in)统计值和变量共同度与分类性能紧密相关,当KM O统计值大于0.8,并且只有很少属性的变量共同度值小于80%时,采用因子分析作为分类之前的降维是适宜的. 石洪波 吕亚丽关键词:朴素贝叶斯 降维 基于KL距离的TAN分类器判别性学习方法 被引量:9 2008年 树增强朴素贝叶斯(TAN)分类器在模型的复杂性和分类精度之间实现较好折衷,成为当前分类器学习的一个研究热点.为了提高 TAN 分类器的分类准确率,本文提出一种基于 KL 距离的 TAN 分类器判别性学习方法.首先用 EAR 方法学习 TAN 分类器的结构,然后用基于 KL 距离的目标函数优化 TAN 的参数.在标准数据集上的实验结果表明,用该方法学习的 TAN 分类器具有较高的分类精度. 冯奇 田凤占 黄厚宽关键词:KL距离 EAR 缺失数据处理方法的比较研究 被引量:14 2006年 由于数据挖掘技术日益广泛地应用于各个领域,而大多数领域中数据都存在缺失值,因此基于缺失数据的数据挖掘方法的研究具有重要意义.利用直接删除、特殊值填充、平均值填充、Robust方法4种处理缺失值的方法建立4个缺失值处理模型以及相应的朴素贝叶斯分类器模型.通过在5个实际数据集上进行实验比较,并采用五重交叉验证来检验这些模型的性能.结果表明,用这些模型处理缺失值构建的朴素贝叶斯分类器是有效的. 乔珠峰 田凤占 黄厚宽 陈景年关键词:数据挖掘 缺失值 朴素贝叶斯分类器 ROBUST 基于协同聚类的多核学习 被引量:6 2008年 针对实际应用中经常出现的异类数据源,采用多核学习的支持向量机受到关注.然而随着核函数数量的增多,计算量也随之大大增加.为了解决这一问题,该提出了一种利用协同聚类对多核支持向量机的训练数据进行简化的方法,可以减少支持向量机的数目,从而减少计算量.实验结果显示,提出的方法可以提高多核支持向量机的效率,同时还不会影响分类精度. 牟少敏 田盛丰 尹传环关键词:协同聚类 多核学习 核函数 支持向量机 基于主成分分析朴素贝叶斯和决策树比较 被引量:3 2010年 朴素贝叶斯和决策树由于其较高的分类性能和简单性得到了广泛的使用,许多学者都在研究如何在分类前对数据进行处理以提升它们的分类性能。该文首先使用主成分分析提取特征数据,然后对处理后的数据上利用朴素贝叶斯和决策树进行分类,并对实验结果进行分析,比较主成分分析对它们分类性能的影响。 张林 石洪波关键词:朴素贝叶斯分类器 决策树 主成分分析 一种有效的不完整数据分类器 被引量:5 2008年 在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。虽有大量的分类器应运而生,但由于处理不完整数据的复杂性,它们大都是针对完整数据的。然而,由于各种原因,现实中的数据通常是不完整的。因此,对不完整数据分类器的研究具有重要意义。通过分析以往在分类过程中对不完整数据的处理方法,提出了一种不完整数据分类器:DBCI。在DBCI的训练过程中,将缺失值的频数按比例地分配到其它观测值的频数中。因此,不完整数据集所包含的信息可以得到充分利用。在12个标准的不完整数据集上的实验结果表明,与分类效果显著的不完整数据分类器RBC相比,DBCI具有更高的分类效率和更稳定的性能,并且它的分类准确率可以与RBC相媲美。 陈景年 黄厚宽 田凤占 邱桃荣关键词:贝叶斯方法 不完整数据 一种基于不完整数据的朴素贝叶斯分类器 被引量:9 2006年 贝叶斯网络因其对属性间因果关系的表达能力而成为处理不完整数据的强有力的工具。然而绝大多数的贝叶斯分类器都是基于完整数据的,并且在现实世界中数据往往是不完整的,因此利用不完整数据构建有效的贝叶斯分类器是一个重要而又具有挑战性的问题。通过分析著名的基于不完整数据的RBC分类器的不足,在BC(BoundandCollapse)方法和EM算法的基础上给出了一种基于不完整数据的分类器构建方法。实验结果表明了该算法的有效性。 陈景年 黄厚宽 田凤占 乔珠峰关键词:不完整数据 贝叶斯分类器 EM算法 文本分类中基于基尼指数的特征选择算法研究 被引量:49 2006年 随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小. 尚文倩 黄厚宽 刘玉玲 林永民 瞿有利 董红斌关键词:文本分类 文本特征选择 基尼指数 文本预处理