您的位置: 专家智库 > >

国家自然科学基金(60503017)

作品数:13 被引量:115H指数:6
相关作者:黄厚宽林永民田凤占陈景年石洪波更多>>
相关机构:北京交通大学山西财经大学河北理工大学更多>>
发文基金:国家自然科学基金山西省自然科学基金更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 12篇中文期刊文章

领域

  • 12篇自动化与计算...

主题

  • 7篇贝叶斯
  • 6篇朴素贝叶斯
  • 6篇分类器
  • 3篇朴素贝叶斯分...
  • 3篇朴素贝叶斯分...
  • 3篇文本分类
  • 3篇贝叶斯分类
  • 3篇贝叶斯分类器
  • 2篇预处理
  • 2篇支持向量
  • 2篇支持向量机
  • 2篇文本特征
  • 2篇文本特征选择
  • 2篇文本预处理
  • 2篇向量
  • 2篇向量机
  • 2篇基尼指数
  • 2篇不完整数据
  • 1篇多核
  • 1篇多核学习

机构

  • 9篇北京交通大学
  • 3篇山西财经大学
  • 2篇河北理工大学
  • 1篇山东财政学院

作者

  • 6篇黄厚宽
  • 4篇林永民
  • 4篇田凤占
  • 4篇陈景年
  • 3篇石洪波
  • 2篇吕震宇
  • 2篇瞿有利
  • 2篇乔珠峰
  • 2篇赵爽
  • 2篇朱卫东
  • 2篇尚文倩
  • 1篇孔环环
  • 1篇邱桃荣
  • 1篇尹传环
  • 1篇冯奇
  • 1篇牟少敏
  • 1篇吕亚丽
  • 1篇田盛丰
  • 1篇刘玉玲
  • 1篇张林

传媒

  • 2篇计算机研究与...
  • 2篇计算机工程与...
  • 1篇模式识别与人...
  • 1篇计算机工程
  • 1篇广西师范大学...
  • 1篇科技情报开发...
  • 1篇计算机科学
  • 1篇北京交通大学...
  • 1篇电脑知识与技...
  • 1篇中北大学学报...

年份

  • 2篇2010
  • 5篇2008
  • 1篇2007
  • 4篇2006
13 条 记 录,以下是 1-10
排序方式:
基于类信息的文本特征选择与加权算法研究被引量:8
2008年
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。
吕震宇林永民赵爽陈景年朱卫东
关键词:文本分类特征加权基尼指数
产生式与判别式分类方法比较研究被引量:1
2010年
分类是数据挖掘领域研究的热点,产生式与判别式是数据挖掘中两种不同的分类模型。产生式模型具有通用性、灵活性及清晰的分层结构,学习得到的模型很容易满足模型解释要求;判别式模型没有明显的对系统中变量的基本分布建模的企图,仅仅对输入到输出之间映射的最优化感兴趣,可以提供更好的分类性能。从准确率、建模时间及渐进误差等方面对产生式与判别式分类方法进行了分析与比较,为研究人员在分类模型的选择上提供了参考。
孔环环石洪波
关键词:支持向量机朴素贝叶斯
因子分析降维对分类性能的影响研究被引量:9
2007年
考虑因子数据的数据特征,采用连续属性服从正态分布的朴素贝叶斯分类方法,对因子分析降维前后数据集的分类性能变化进行了研究.实验结果表明:因子分析中的KM O(K a iser-M eyer-O lk in)统计值和变量共同度与分类性能紧密相关,当KM O统计值大于0.8,并且只有很少属性的变量共同度值小于80%时,采用因子分析作为分类之前的降维是适宜的.
石洪波吕亚丽
关键词:朴素贝叶斯降维
基于KL距离的TAN分类器判别性学习方法被引量:9
2008年
树增强朴素贝叶斯(TAN)分类器在模型的复杂性和分类精度之间实现较好折衷,成为当前分类器学习的一个研究热点.为了提高 TAN 分类器的分类准确率,本文提出一种基于 KL 距离的 TAN 分类器判别性学习方法.首先用 EAR 方法学习 TAN 分类器的结构,然后用基于 KL 距离的目标函数优化 TAN 的参数.在标准数据集上的实验结果表明,用该方法学习的 TAN 分类器具有较高的分类精度.
冯奇田凤占黄厚宽
关键词:KL距离EAR
缺失数据处理方法的比较研究被引量:14
2006年
由于数据挖掘技术日益广泛地应用于各个领域,而大多数领域中数据都存在缺失值,因此基于缺失数据的数据挖掘方法的研究具有重要意义.利用直接删除、特殊值填充、平均值填充、Robust方法4种处理缺失值的方法建立4个缺失值处理模型以及相应的朴素贝叶斯分类器模型.通过在5个实际数据集上进行实验比较,并采用五重交叉验证来检验这些模型的性能.结果表明,用这些模型处理缺失值构建的朴素贝叶斯分类器是有效的.
乔珠峰田凤占黄厚宽陈景年
关键词:数据挖掘缺失值朴素贝叶斯分类器ROBUST
基于协同聚类的多核学习被引量:6
2008年
针对实际应用中经常出现的异类数据源,采用多核学习的支持向量机受到关注.然而随着核函数数量的增多,计算量也随之大大增加.为了解决这一问题,该提出了一种利用协同聚类对多核支持向量机的训练数据进行简化的方法,可以减少支持向量机的数目,从而减少计算量.实验结果显示,提出的方法可以提高多核支持向量机的效率,同时还不会影响分类精度.
牟少敏田盛丰尹传环
关键词:协同聚类多核学习核函数支持向量机
基于主成分分析朴素贝叶斯和决策树比较被引量:3
2010年
朴素贝叶斯和决策树由于其较高的分类性能和简单性得到了广泛的使用,许多学者都在研究如何在分类前对数据进行处理以提升它们的分类性能。该文首先使用主成分分析提取特征数据,然后对处理后的数据上利用朴素贝叶斯和决策树进行分类,并对实验结果进行分析,比较主成分分析对它们分类性能的影响。
张林石洪波
关键词:朴素贝叶斯分类器决策树主成分分析
一种有效的不完整数据分类器被引量:5
2008年
在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。虽有大量的分类器应运而生,但由于处理不完整数据的复杂性,它们大都是针对完整数据的。然而,由于各种原因,现实中的数据通常是不完整的。因此,对不完整数据分类器的研究具有重要意义。通过分析以往在分类过程中对不完整数据的处理方法,提出了一种不完整数据分类器:DBCI。在DBCI的训练过程中,将缺失值的频数按比例地分配到其它观测值的频数中。因此,不完整数据集所包含的信息可以得到充分利用。在12个标准的不完整数据集上的实验结果表明,与分类效果显著的不完整数据分类器RBC相比,DBCI具有更高的分类效率和更稳定的性能,并且它的分类准确率可以与RBC相媲美。
陈景年黄厚宽田凤占邱桃荣
关键词:贝叶斯方法不完整数据
一种基于不完整数据的朴素贝叶斯分类器被引量:9
2006年
贝叶斯网络因其对属性间因果关系的表达能力而成为处理不完整数据的强有力的工具。然而绝大多数的贝叶斯分类器都是基于完整数据的,并且在现实世界中数据往往是不完整的,因此利用不完整数据构建有效的贝叶斯分类器是一个重要而又具有挑战性的问题。通过分析著名的基于不完整数据的RBC分类器的不足,在BC(BoundandCollapse)方法和EM算法的基础上给出了一种基于不完整数据的分类器构建方法。实验结果表明了该算法的有效性。
陈景年黄厚宽田凤占乔珠峰
关键词:不完整数据贝叶斯分类器EM算法
文本分类中基于基尼指数的特征选择算法研究被引量:49
2006年
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小.
尚文倩黄厚宽刘玉玲林永民瞿有利董红斌
关键词:文本分类文本特征选择基尼指数文本预处理
共2页<12>
聚类工具0