您的位置: 专家智库 > >

国家自然科学基金(60871100)

作品数:2 被引量:8H指数:1
相关作者:江铭虎贺一帆王曼更多>>
相关机构:清华大学北京邮电大学更多>>
发文基金:模式识别国家重点实验室开放课题基金国家自然科学基金教育部人文社会科学研究重大课题攻关项目更多>>
相关领域:自动化与计算机技术生物学语言文字更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息瓶颈
  • 1篇特征提取
  • 1篇文本分类

机构

  • 1篇清华大学

作者

  • 1篇江铭虎
  • 1篇贺一帆

传媒

  • 1篇清华大学学报...

年份

  • 1篇2010
2 条 记 录,以下是 1-1
排序方式:
网络文本分类中基于信息瓶颈的特征提取被引量:7
2010年
针对网络文本特征关键词多、新词多的特点,提出了一种基于概念特征的文本分类提取方法。应用信息瓶颈法,根据关键词在不同类标号上的分布情况完成关键词聚类。在此基础上,结合概念抽取的方法,将词聚类结果映射到知网义原,并以此作为分类特征。在网络文本语料上的分类实验显示,该方法保留了基于概念特征提取方法的鲁棒性强、特征维数低的优点,但克服了概念词典中新词无定义,需要维护更新词典的不足。
贺一帆江铭虎
关键词:文本分类特征提取
共1页<1>
聚类工具0