北京市教委科技计划面上项目(KM201411232014)
- 作品数:3 被引量:22H指数:3
- 相关作者:蒋玉茹张仰森郭正斌宋柔李景玉更多>>
- 相关机构:北京信息科技大学北京语言大学北京工业大学更多>>
- 发文基金:国家自然科学基金北京市教委科技计划面上项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种面向文本分类的特征向量优化方法被引量:13
- 2017年
- 对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先利用剔除近义词方法优化文本向量中的特征项;然后提出贡献率因子的概念,并利用其优化特征值。实验表明,相比朴素贝叶斯分类方法其效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。
- 郭正斌张仰森蒋玉茹
- 关键词:特征向量向量优化文本分类
- 基于细粒度特征的话题句识别方法被引量:6
- 2014年
- 话题句(TC)识别中采用穷举方法生成标点句的候选话题句(CTC)影响系统的执行效率和话题句识别的准确率。提出一种新的候选话题句生成方法,利用标点句在篇章中的位置特征、话题的语法特征以及话题串与说明的邻接性特征,指导候选话题句的生成过程。实验结果表明,该方法减少了候选话题句的个数,提高了系统效率。而且,通过与基于穷举式候选话题句生成策略的话题句识别工作进行对比,该方法使单个标点句话题句识别的准确率提高了0.96个百分点,使标点句序列话题句识别的准确率提高了1.31个百分点。
- 蒋玉茹宋柔
- 关键词:语法特征
- 基于多特征融合的中文微博评价对象抽取方法被引量:3
- 2016年
- 中文微博的评价对象抽取作为中文微博情感分析的基础任务,受到研究者的广泛关注,有着重要的研究价值。结合微博文本的特点,对微博文本进行预处理,利用句法分析构建包括名词、名词短语、微博话题在内的评价对象候选集,再分别利用SVM模型、加权模型实现多特征融合的筛选候选评价对象方法,所用特征包括语义角色信息、最小距离和词频。算法经实验证明有效,在对候选评价对象进行筛选后,采用SVM模型的F值达到0.357 3,加权模型的F值达到0.405 9。
- 李景玉张仰森蒋玉茹
- 关键词:句法分析语义角色标注支持向量机