您的位置: 专家智库 > >

王建华

作品数:1 被引量:55H指数:1
供职机构:北京理工大学信息科学技术学院计算机科学工程系更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇停用词
  • 1篇中文
  • 1篇联合熵

机构

  • 1篇北京理工大学
  • 1篇中国人民公安...

作者

  • 1篇汪涛
  • 1篇樊孝忠
  • 1篇黄维金
  • 1篇顾益军
  • 1篇王建华

传媒

  • 1篇北京理工大学...

年份

  • 1篇2005
1 条 记 录,以下是 1-1
排序方式:
中文停用词表的自动选取被引量:55
2005年
通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传统方法选取的停用词表进行了对比,并比较了将各种方法用于文本分类的预处理时对分类效果的影响.实验结果表明,该方法更好地避免了语料的行文格式对停用词选取的影响,比传统方法更适用于文本分类的预处理.
顾益军樊孝忠王建华汪涛黄维金
关键词:停用词联合熵
共1页<1>
聚类工具0