刘玉玲
- 作品数:1 被引量:49H指数:1
- 供职机构:北京交通大学计算机与信息技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 文本分类中基于基尼指数的特征选择算法研究被引量:49
- 2006年
- 随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小.
- 尚文倩黄厚宽刘玉玲林永民瞿有利董红斌
- 关键词:文本分类文本特征选择基尼指数文本预处理