山西高校科技研究开发项目(200611002)
- 作品数:7 被引量:105H指数:5
- 相关作者:王素格李德玉魏英杰杨安娜李伟更多>>
- 相关机构:山西大学上海大学科学出版社更多>>
- 发文基金:山西高校科技研究开发项目山西省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于支持向量机的文本倾向性分类研究被引量:6
- 2008年
- 文本倾向性分类可以广泛应用到信息检索,产品质量在线跟踪,民情民意调查分析以及聊天系统等.本文提出了基于限定词性词语与信息增益、基于情感倾向词汇与信息增益的两种混合特征选择方法,并设计了基于支持向量机的分类器.以汽车产品、篮球赛事以及中日关系3种中文评论文本为训练与测试语料,对本文所提方法进行了实验验证,结果表明:限定词性词语与信息增益的混合特征选择优于信息增益与情感倾向词汇混合特征选择方法.
- 王素格杨安娜李德玉魏英杰李伟张武
- 关键词:支持向量机信息增益
- 停用词表对中文文本情感分类的影响被引量:24
- 2008年
- 本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究。实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好。
- 王素格魏英
- 关键词:停用词文本情感分类支持向量机
- 面向特定领域产品评价对象自动识别研究
- 随着Internet技术的迅猛发展以及电子商务的不断普及,产品评价对象的识别已成为中文信息处理的一个研究热点。本文首先抽取候选评价对象。通过综合使用词形模板和词性模板以及在对候选评价对象评分之前进行预处理,提高了候选评价...
- 宋晓雷王素格李红霞
- 关键词:K均值聚类
- 文献传递
- 基于同义词的词汇情感倾向判别方法被引量:37
- 2009年
- 词汇的情感倾向直接影响短语、句子、段落、篇章等更高层次语言粒度的情感倾向。对于基准词选取问题,该文提出了基于类别区分能力与情感词词表相结合的方法。考虑到词汇与其同义词很大程度上具有相同的情感倾向,我们提出了基于同义词的词汇情感倾向判别方法,这种方法一定程度上避免了数据稀疏问题。实验结果表明,基于同义词的词汇情感倾向判别方法优于仅采用目标词与基准词的词汇情感倾向判别方法。
- 王素格李德玉魏英杰宋晓雷
- 关键词:计算机应用中文信息处理同义词
- 基于汉语情感词表的句子情感倾向分类研究被引量:35
- 2009年
- 提出了一种基于汉语情感词词表的加权线性组合的句子情感分类方法。该方法通过已有的五种资源构建了中文情感词词表,并采用加权线性组合的句子情感分类方法对句子进行情感类别判断。实验结果表明,直接利用词汇语言粒度的句子情感分类综合F值为78.62%,若加入了否定短语语言粒度后,句子情感分类的综合F值提高了4.14%。
- 王素格杨安娜李德玉
- 基于统计方法的面向旅游问句分类实验研究被引量:3
- 2009年
- 根据旅游领域知识的特点,设计了面向旅游问句的分类体系。利用信息增益、互信息、交叉熵和2χ统计四种特征选择方法及支持向量机分类器,对网上常见的旅游真实问句分类进行了实验研究,实验结果表明:在现有问句分类体系下,信息增益的特征选择方法在特征空间维数为550维时,分类旅游问句的结果是最佳的。
- 张雪芬李德玉王素格南瑞贤
- 关键词:支持向量机
- 面向中日关系论坛的情感分类问题研究被引量:6
- 2007年
- 针对中日论坛的情感分类问题,研究了特定领域(中日关系论坛)语料的特点,考察了不同特征维数、不同特征权重计算、不同特征选取方法以及限定词类词语对情感分类结果的影响。最后通过对2006年1月份到5月份的中日论坛语料的自动情感分类,推断出该阶段中日关系走势。
- 王素格李伟
- 关键词:情感分类支持向量机