教育部科学技术研究重点项目(2007018)
- 作品数:5 被引量:116H指数:5
- 相关作者:王素格宋晓雷李德玉杨安娜李红霞更多>>
- 相关机构:山西大学科学出版社更多>>
- 发文基金:山西省自然科学基金教育部科学技术研究重点项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向特定领域产品评价对象自动识别研究
- 随着Internet技术的迅猛发展以及电子商务的不断普及,产品评价对象的识别已成为中文信息处理的一个研究热点。本文首先抽取候选评价对象。通过综合使用词形模板和词性模板以及在对候选评价对象评分之前进行预处理,提高了候选评价...
- 宋晓雷王素格李红霞
- 关键词:K均值聚类
- 文献传递
- 基于同义词的词汇情感倾向判别方法被引量:37
- 2009年
- 词汇的情感倾向直接影响短语、句子、段落、篇章等更高层次语言粒度的情感倾向。对于基准词选取问题,该文提出了基于类别区分能力与情感词词表相结合的方法。考虑到词汇与其同义词很大程度上具有相同的情感倾向,我们提出了基于同义词的词汇情感倾向判别方法,这种方法一定程度上避免了数据稀疏问题。实验结果表明,基于同义词的词汇情感倾向判别方法优于仅采用目标词与基准词的词汇情感倾向判别方法。
- 王素格李德玉魏英杰宋晓雷
- 关键词:计算机应用中文信息处理同义词
- 基于混合语言信息的词语搭配倾向判别方法被引量:8
- 2010年
- 具有较强褒贬倾向的词语搭配对于文本的情感分析具有重要的价值。该文提出了一种混合语言信息的词语搭配的倾向判别方法。该方法首先根据词语搭配六种模式的特点,确定出各模式的概率潜在语义模型,然后利用这些语义模型判别搭配的情感倾向。最后对部分包含情感词的搭配再利用规则修正其先前标注的情感倾向。基于汽车语料的实验结果表明,基于混合语言信息的词语搭配情感倾向判别方法优于单纯基于概率潜在语义模型或规则的方法。
- 王素格杨安娜
- 关键词:计算机应用中文信息处理词语搭配
- 基于汉语情感词表的句子情感倾向分类研究被引量:35
- 2009年
- 提出了一种基于汉语情感词词表的加权线性组合的句子情感分类方法。该方法通过已有的五种资源构建了中文情感词词表,并采用加权线性组合的句子情感分类方法对句子进行情感类别判断。实验结果表明,直接利用词汇语言粒度的句子情感分类综合F值为78.62%,若加入了否定短语语言粒度后,句子情感分类的综合F值提高了4.14%。
- 王素格杨安娜李德玉
- 基于领域知识的问答对自动提取方法被引量:5
- 2010年
- 问答系统旨在用准确、简洁的答案回答用户用自然语言提出的问题。以旅游信息服务为应用背景,提出了基于领域知识的问答对自动提取方法。考察了常见旅游问题,建立了领域知识,在此基础上,设计了用户问题模式匹配算法和答案提取算法,对于不能匹配模式的问题,采用句子相似度计算得到相关的答案。实验结果表明,提出的方法是可行的,实现了旅游问题的自动问答。
- 王素格宋晓雷李红霞
- 关键词:问答系统领域知识库模式库
- 一种混合语言信息的词语搭配倾向判别方法
- 具有较强褒贬倾向的二元词语搭配对于文本的情感分析具有重要的价值。本文提出了一种融合语言信息的二元词语搭配的情感倾向判别方法。该方法首先根据六种模式的词语搭配特点,确定出各模式的潜在语义模型,然后采用了概率潜在语义模型判别...
- 王素格杨安娜
- 关键词:词语搭配
- 文献传递
- 面向特定领域的产品评价对象自动识别研究被引量:34
- 2010年
- 产品评价对象的自动识别是文本观点信息抽取和倾向性分析中的重要研究课题之一。该文针对汽车评论,提出了一种不依赖外部资源的无指导评价对象自动识别方法。该方法首先综合使用词形模板和词性模板,采用模糊匹配方法和剪枝法抽取候选评价对象。然后,从候选对象集中,采用双向Bootstrapping方法识别出产品评价对象。最后,通过采用K均值聚类方法对产品评价对象进行聚类,实现从评价对象中自动抽取产品名称和产品属性。实验结果表明,该方法对产品评价对象识别的F值达到58.5%,产品名称识别的F值达到69.48%。
- 宋晓雷王素格李红霞
- 关键词:计算机应用中文信息处理K均值聚类