您的位置: 专家智库 > >

蒋健

作品数:3 被引量:23H指数:3
供职机构:重庆大学计算机学院更多>>
发文基金:中国博士后科学基金重庆市自然科学基金重庆市科委基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文

领域

  • 3篇自动化与计算...

主题

  • 3篇文本分类
  • 2篇特征提取
  • 1篇语义
  • 1篇知网
  • 1篇特征加权
  • 1篇特征提取方法
  • 1篇评价函数
  • 1篇期望交叉熵
  • 1篇向量
  • 1篇向量空间
  • 1篇向量空间模型
  • 1篇结合语义
  • 1篇加权
  • 1篇降维
  • 1篇交叉熵

机构

  • 3篇重庆大学

作者

  • 3篇蒋健
  • 2篇熊忠阳
  • 2篇张玉芳
  • 1篇付玲玲

传媒

  • 2篇计算机应用

年份

  • 2篇2010
  • 1篇2009
3 条 记 录,以下是 1-3
排序方式:
文本分类中特征提取和特征加权方法研究
随着近年来互联网技术和信息技术的飞速发展,人们可获取的数据量迅速增长。如何快速、准确、全面地从浩瀚的信息资源中寻找到所要的狭小领域内的相关信息内容,已经成为了一项十分有意义的课题。文本分类技术作为解决这一问题的关键技术之...
蒋健
关键词:文本分类向量空间模型特征提取特征加权期望交叉熵
文献传递
结合语义的特征选择方法被引量:5
2010年
传统的基于词频统计的特征选择方法忽略了特征项本身的语义信息,特征项之间存在冗余使得维数有限的特征空间无法容纳更多的对分类有用的特征项。为此,利用《知网》(HowNet)的中英双语知识词典构建"概念—领域"表,对每个词语查询该表,如果在表中,则把该词语映射到"领域";否则保留原词。这样不仅可以将较低层概念泛化到较高层概念,还能在一定程度上消除特征项之间的冗余,而且从语义上加强它对所在"领域"的分类贡献度。分别应用信息增益和χ2统计利用该方法进行文本分类实验,结果表明该方法可以有效地提高分类准确率。
熊忠阳付玲玲张玉芳蒋健
关键词:文本分类语义知网
新的CDF文本分类特征提取方法被引量:11
2009年
对高维的特征集进行降维是文本分类过程中的一个重要环节。在研究了现有的特征降维技术的基础上,对部分常用的特征提取方法做了简要的分析,之后结合类间集中度、类内分散度和类内平均频度,提出了一个新的特征提取方法,即CDF方法。实验采用K-最近邻分类算法(KNN)来考查CDF方法的有效性。结果表明该方法简单有效,能够取得比传统特征提取方法更优的降维效果。
熊忠阳蒋健张玉芳
关键词:文本分类降维特征提取评价函数
共1页<1>
聚类工具0