周通
- 作品数:2 被引量:4H指数:1
- 供职机构:武汉大学信息管理学院更多>>
- 发文基金:国家社会科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种基于聚类密度的文本分类算法研究
- 2016年
- 在现代信息技术领域,如何快速、准确和全面地找到用户真正所需要的信息,已经成为该领域的研究重点。在文本分类的理论基础之上,文章针对KNN算法存在的不足,设计了一种基于聚类密度的文本分类算法,通过计算待分类文本的相似度及其权重值的大小判断待分类文本的所属类别。并通过3个实验对该分类算法进行了验证,实验结果表明,基于聚类密度的分类算法在不同特征选择方法、不同特征词数下的分类效果都优于KNN分类算法,同时证明在多种相似度算法中,Jensen-Shannon散度更适合聚类密度算法。
- 谭学清张磊周通罗琳
- 关键词:文本分类向量空间模型K最近邻算法
- 一种基于类平均相似度的文本分类算法被引量:4
- 2014年
- 【目的】在KNN算法基础上,提高文本分类的分类性能和分类速度。【方法】提出一种基于类平均相似度的分类算法,通过计算待分类文本与训练集各类别中所有文本相似度的平均值判断待分类文本的所属类别。【结果】实验表明,本文方法在复旦、Sogou平衡、非平衡语料上的Macro_F1比KNN分类算法分别提高3.5%、3.2%和3.3%,分类时间分别为KNN算法的1/22、1/6和1/5。【局限】考虑到KNN算法的时间效率,实验数据的文本数较少。【结论】相对于KNN,基于类平均相似度是一种适用于大规模文本分类的实用分类算法。
- 谭学清周通罗琳
- 关键词:向量空间模型KNN文本分类