您的位置: 专家智库 > >

熊大康

作品数:2 被引量:3H指数:1
供职机构:安徽大学更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 2篇主题模型
  • 2篇文本分类
  • 1篇特征提取
  • 1篇文本挖掘
  • 1篇向量
  • 1篇向量化

机构

  • 2篇安徽大学

作者

  • 2篇熊大康
  • 1篇郑诚
  • 1篇刘倩倩

传媒

  • 1篇电脑知识与技...

年份

  • 2篇2014
2 条 记 录,以下是 1-2
排序方式:
基于卡方特征选择和LDA主题模型的中文短文本分类被引量:3
2014年
中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。
郑诚熊大康刘倩倩
关键词:主题模型
中文短文本分类技术的研究与实现
文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文...
熊大康
关键词:文本挖掘主题模型特征提取
共1页<1>
聚类工具0