周茜
- 作品数:1 被引量:236H指数:1
- 供职机构:清华大学信息科学技术学院电子工程系更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文文本分类中的特征选择研究被引量:236
- 2004年
- 本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%~ 5 %左右。
- 周茜赵明生扈旻
- 关键词:计算机应用中文信息处理文本分类