厉宇航
- 作品数:2 被引量:20H指数:2
- 供职机构:清华大学人文学院计算语言学研究室更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于概念层次的英文文本自动分类研究被引量:11
- 2004年
- 该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义之间的关系,尤其是上下位关系。该文提出的方法,在向量空间模型(VSM)的基础上,以“概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。
- 厉宇航罗振声程慕胜
- 关键词:自动文本分类VSMWORDNET
- 基于语义相关和概念相关的自动分类方法研究被引量:10
- 2003年
- 文章区别于传统的基于词的中文文本自动分类方法,在选取文本特征时,考虑了词语的语言学信息以及词语概念之间的相关性,提出基于语义的方法和基于概念属性的方法,建立了分类模型。实验表明,改进后的这两种方法使分类系统具有较高的精度。
- 李莼罗振声厉宇航
- 关键词:文本分类特征抽取语义