中国科学院学部咨询评议项目(Y129091211)
- 作品数:3 被引量:7H指数:2
- 相关作者:张全丁泽亚缪建明池毓焕韦向峰更多>>
- 相关机构:中国科学院中国科学院研究生院中国科学院大学更多>>
- 发文基金:中国科学院学部咨询评议项目国家高技术研究发展计划中国科学院声学研究所知识创新工程项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于语义块的事件倾向性分析研究被引量:4
- 2012年
- 事件的倾向性分析对网络舆情分析和事件趋势分析都具有重要意义。该文把影响倾向性分析的词语分为四类:对象词、褒贬词、逻辑词和程度词,建立了语句倾向性分析的二元模型和三元模型,在语句语义块分析的基础上实现对语句和篇章的倾向性获取。实验中首先确定三个事件实例的关键对象和立场,然后根据语句倾向性分析获得文章对于对象的褒贬态度和立场。实验表明语义块的范围限制有助于提高事件倾向性分析的准确性,立场分析则是事件倾向性分析的关键所在。
- 韦向峰张全缪建明池毓焕
- 关键词:语义块立场分析
- 利用概念知识的文本分类被引量:3
- 2013年
- 针对统计方法不能从语义理解的角度进行文本分类的问题,提出了利用概念层次网络概念知识进行文本分类的方法,包括两部分:依据概念进行特征选取以及根据类别关联度分类.在特征选取时,通过计算概念与类别的区分度挖掘出类别核心概念,并采用类别核心概念对特征项进行精选.依据类别核心概念相关的类别语义信息,提出了文档与类别关联度的计算方法,并根据类别关联度来判断文本类别.实验表明,该方法可有效降低特征空问维数,在提高分类效率的同时保证了分类效果,F_1值略有提高.与SVM、KNN和Bayes分类器对比,当特征项数目较少时,该方法的F_1值明显高于其他3种方法,综合分类效果与SVM相当,优于KNN和Bayes.
- 丁泽亚张全
- 关键词:文本分类概念层次网络
- 基于编辑距离的网页去重策略
- 2013年
- 互联网中存在着大量的重复网页,在进行信息检索或大规模网页采集时,网页去重是提高效率的关键之一。本文在研究"指纹"或特征码等网页去重算法的基础上,提出了一种基于编辑距离的网页去重算法,通过计算网页指纹序列的编辑距离得到网页之间的相似度。它克服了"指纹"或特征码这类算法没有兼顾网页正文结构的缺点,同时从网页内容和正文结构上进行比较,使得网页重复的判断更加准确。实验证明,该算法是有效的,去重的准确率和召回率都比较高。
- 丁泽亚张全
- 关键词:互联网网页去重指纹