孙春明
- 作品数:9 被引量:149H指数:4
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金北京市自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 高性能特征选择及文本分类算法研究
- 从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一.特征选择和文本分类算法是文本分类的两个重要的研究方向,特征选择是为了选取最能表示文本内容的特征来对庞大的文本空间进行约...
- 孙春明
- 关键词:文本分类文本信息
- 文献传递
- 文本分类中特征选择的约束研究被引量:33
- 2008年
- 特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的.
- 徐燕李锦涛王斌孙春明张森
- 关键词:文本分类信息检索信息增益互信息
- 不均衡数据集上文本分类的特征选择研究
- 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择...
- 徐燕李锦涛王斌孙春明张森
- 关键词:不均衡数据集文本自动分类信息检索数据挖掘
- 文献传递
- 基于词条频率的特征选择算法研究
- 特征选择是解决文本分类中特征空间高维性的难题的有效方法。在文本分类中经常用到的自动特征选择方法都将词条在文档中出现一次和出现多次的情况同等对待,因而忽略了词条频率(TF)信息。本文提出了加入TF信息的改进的特征选择方法,...
- 徐燕孙春明王斌李锦涛
- 关键词:文本分类
- 文献传递
- 知识增益:文本分类中一种新的特征选择方法
- 特征选择在文本分类中起重要的作用。文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用。已有的实验结果表明,IG 是最有效的特征选择算法之一,该方法基于申农提出的信息论。本文基于粗糙集理论...
- 徐燕王斌李锦涛孙春明
- 关键词:文本分类粗糙集信息检索
- 文献传递
- 基于区分类别能力的高性能特征选择方法被引量:96
- 2008年
- 特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差,而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法.特征选择是选择部分最有区分类别能力的特征,为此,给出了两个特征选择函数需满足的基本约束条件,并提出了一种构造高性能特征选择的通用方法.依此方法构造了一个新的特征选择函数KG(knowledge gain).分析发现,IG和KG完全满足该构造方法,在Reuters-21578,OHSUMED和News Group这3个语料集上的实验表明,IG和KG性能最好,在两个语料集上,KG甚至超过了IG.验证了提出的构造高性能特征选择函数方法的有效性,同时也在理论上给出了一个评价高性能特征选择算法的标准.
- 徐燕李锦涛王斌孙春明
- 关键词:文本分类信息检索
- 不均衡数据集上文本分类的特征选择研究被引量:20
- 2007年
- 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进.
- 徐燕李锦涛王斌孙春明张森
- 关键词:不均衡数据集文本分类信息检索
- 一种新颖的基于粗糙集的特征选择方法(英文)
- 文本自动分类的主要困难之一是特征空间的维数很高,为此特征选择在文本分类中起重要的作用。特征选择方法,如文档频率(DF)在文本分类中广泛应用,它是一种最简单的词约简技术,并且可以和比较复杂的特征选择方法的性能相当,然而 D...
- 徐燕李锦涛王斌丁凡孙春明王小冷
- 文献传递