山西省科技攻关计划项目(051129)
- 作品数:15 被引量:92H指数:6
- 相关作者:李德玉王素格张武杨军玲葛咏更多>>
- 相关机构:山西大学上海大学中国科学院更多>>
- 发文基金:山西省科技攻关计划项目国家自然科学基金山西省自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理社会学理学更多>>
- 基于支持向量机的文本倾向性分类研究被引量:6
- 2008年
- 文本倾向性分类可以广泛应用到信息检索,产品质量在线跟踪,民情民意调查分析以及聊天系统等.本文提出了基于限定词性词语与信息增益、基于情感倾向词汇与信息增益的两种混合特征选择方法,并设计了基于支持向量机的分类器.以汽车产品、篮球赛事以及中日关系3种中文评论文本为训练与测试语料,对本文所提方法进行了实验验证,结果表明:限定词性词语与信息增益的混合特征选择优于信息增益与情感倾向词汇混合特征选择方法.
- 王素格杨安娜李德玉魏英杰李伟张武
- 关键词:支持向量机信息增益
- 基于最大熵模型与投票法的汉语动词与动词搭配识别被引量:5
- 2007年
- 提出一种基于最大熵模型和投票法的汉语动词与动词搭配识别方法.该方法通过组合目标动词与候选搭配词的上下文词性信息以及关联程度的统计信息构成5种复合特征模板,然后利用最大熵方法获得它们对应搭配识别器,最后采用最好搭配识别器占优的投票法构造组合识别器.实验结果表明,同时包含上下文词性信息和统计信息的识别器优于单纯包含上下文词性信息或统计信息的识别器,但最好搭配识别器占优的组合识别器效果更佳.
- 王素格杨军玲张武
- 关键词:搭配最大熵模型特征函数投票法
- 自动获取汉语词语搭配被引量:16
- 2006年
- 作为一种词汇现象,词语搭配在自然语言处理的许多领域具有重要的应用。本文对4种词语相关性度量和3种词语结构分布度量分别进行了比较分析,并提出了一种基于互信息与熵融合的获取词语搭配的方法。实验结果表明:在同现频率较高情况下,互信息、Cosine系数、x2测试和似然比测试4种相关性度量对搭配判定有大致相同的效果;在度量词语的结构分布方面,熵要优于方差和离散度。本文所提方法依赖度量指标少,阈值容易选取,且与其他已有的方法具有同等效果。
- 王素格杨军玲张武
- 关键词:计算机应用中文信息处理词语搭配互信息
- 遥感信息处理不确定性的可视化表达被引量:8
- 2006年
- 如何全面、准确地度量和可视化表达遥感信息处理中不确定性的程度和空间分布方式,是遥感信息不确定性研究的关键问题之一。传统的度量方法(例如误差矩阵)是将以训练样本集为基础的度量作为总分类精度的度量,而我们需要估计模型对于“样本外数据”的性能。本文首先利用信息论和粗糙集理论等度量遥感分类影像属性信息的不确定性,提出基于像元、目标和影像的遥感信息不确定性度量指标;然后分别描述了基于不同度量指标的可视化表达方式,并对我国黄河三角洲地区的Landsat TM影像进行了分类信息不确定性度量和可视化表达实验。
- 李三平葛咏李德玉
- 关键词:不确定性可视化表达
- 基于统计方法的面向旅游问句分类实验研究被引量:3
- 2009年
- 根据旅游领域知识的特点,设计了面向旅游问句的分类体系。利用信息增益、互信息、交叉熵和2χ统计四种特征选择方法及支持向量机分类器,对网上常见的旅游真实问句分类进行了实验研究,实验结果表明:在现有问句分类体系下,信息增益的特征选择方法在特征空间维数为550维时,分类旅游问句的结果是最佳的。
- 张雪芬李德玉王素格南瑞贤
- 关键词:支持向量机
- 基于粗糙集的地学空间关系规则抽取和应用——以珠江三角洲土地利用为例被引量:6
- 2009年
- 空间关系反映了地理现象与其环境间的复杂的关联关系,对于地学问题的求解有着重要的作用。因此,有效地抽取地学现象内蕴的主要空间关系规则,将有利于提高地学问题求解的精度和效率。本文探讨了基于粗糙集的地学空间关系表达以及空间关系规则抽取流程。并以珠江三角洲2000年土地利用为例,抽取2000年深圳、香港城镇用地和农村居民点内蕴的空间关系规则。
- 曹峰杜云艳葛咏李德玉温伟
- 关键词:粗糙集土地利用
- 科技项目完成情况的模糊综合评价研究被引量:9
- 2008年
- 对照科技项目合同的预定目标,提出了一种评判科技项目完成情况的模糊综合评价方法.对定量指标,提出的改进对比打分公式(contrasl evaluation formula,CEF)不仅能体现超额工作的贡献,同时能够通过指标的互补性适度地体现额外贡献.本文还提出了指标赋权的动态调整方法以解决评价过程中遇到的指标不完整问题.通过对实际科研项目的评价,验证了该方法的有效性.
- 梁吉业褚成缘胡建龙李德玉
- 关键词:科技项目评价
- 面向中日关系论坛的情感分类问题研究被引量:6
- 2007年
- 针对中日论坛的情感分类问题,研究了特定领域(中日关系论坛)语料的特点,考察了不同特征维数、不同特征权重计算、不同特征选取方法以及限定词类词语对情感分类结果的影响。最后通过对2006年1月份到5月份的中日论坛语料的自动情感分类,推断出该阶段中日关系走势。
- 王素格李伟
- 关键词:情感分类支持向量机
- 停用词表对中文文本情感分类的影响被引量:24
- 2008年
- 本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究。实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好。
- 王素格魏英
- 关键词:停用词文本情感分类支持向量机