福建省自然科学基金(2010J05133)
- 作品数:16 被引量:67H指数:5
- 相关作者:廖祥文雷志城郑敏洁陈国龙魏晶晶更多>>
- 相关机构:福州大学福建江夏学院中国科学院更多>>
- 发文基金:福建省自然科学基金福建省科技创新平台建设项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于N-gram超核的中文倾向性句子识别被引量:3
- 2011年
- 倾向性句子识别是文本倾向性分析的重要组成部分,其目的是识别文档中具有情感倾向的主观性句子。中文句子的倾向性不仅与倾向词有关,而且还跟句法、语义等因素有关,这使得倾向性句子识别不能简单地从词语的倾向性来统计得到。该文提出了一种基于N-gram超核的中文倾向性句子识别分类算法。该算法基于句子的句法、语义等特征构造N-gram超核函数,并采用基于该超核函数的支持向量机分类器识别中文倾向性句子。实验结果表明,与多项式核、N-gram核等单核函数相比,基于N-gram超核的中文倾向性句子识别算法在一定程度上能有效识别倾向性句子。
- 廖祥文李艺红
- 基于层叠CRFs的中文句子评价对象抽取被引量:19
- 2013年
- 中文句子评价对象抽取是指在中文句子中抽取评论所针对的对象或对象的属性。目前国内相关研究工作尚未能有效识别复合词评价对象和未登陆评价对象。针对以上两种情况,该文提出了一种基于层叠条件随机场的中文句子评价对象抽取方法。该方法首先通过低层条件随机场获得候选评价对象集,然后通过降噪模型对噪声进行过滤、补充模型对缺失的候选评价对象进行补充、合并模型对复合短语候选评价对象进行合并,最后由高层模型抽取出评价对象。实验结果显示,与基于线性链条件随机场的识别方法相比,该方法准确率、召回率和F1值分别提升1.62%、5.75%和4.17%,能有效地识别复合词评价对象和未登录评价对象,从而提高中文句子评价对象的识别精度。
- 郑敏洁雷志城廖祥文陈国龙
- 关键词:层叠条件随机场
- 结合领域知识的中文句子评价对象抽取被引量:2
- 2013年
- 针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.
- 雷志城廖祥文
- 关键词:评价对象抽取领域知识
- 基于网页内容相似度改进算法的主题网络爬虫被引量:6
- 2011年
- 主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。
- 魏晶晶杨定达廖祥文
- 关键词:搜索引擎主题网络爬虫相似度向量空间模型HTML标签
- 基于主题模型的主观性句子识别
- 2012年
- 主观性句子识别旨在发现文本集合中具有观点的句子。本文基于概率主题模型,提出融合主题的主观性句子识别模型。该模型通过考虑主题因素识别句子主观性,同时挖掘文本集合中的潜在主观性主题。提出的模型是一个弱监督生成模型,不需要大量的标记语料进行训练,仅需要一小部分领域独立的主观性词典修改模型的先验。实验证明,提出的模型能有效地提高句子识别召回率和F值,同时抽取的主观性主题具有较强的语义信息。
- 吴超荣廖祥文
- 基于CS-SVM的网络热点话题变化趋势预测被引量:3
- 2014年
- 为了提高网络热点话题变化趋势的预测精度,提出一种布谷鸟搜索(CS)算法优化支持向量机(SVM)参数的热点话题变化趋势预测模型(CS-SVM).首先获取热点话题的时间序列,然后将SVM参数作为一个鸟巢位置,通过CS算法模拟布谷鸟种群寄生繁衍机制找到最优参数,最后根据最优SVM参数建立热点话题变化趋势预测模型,并采用仿真实验对模型性能进行测试.结果表明,相对于对比预测模型,CS-SVM提高了热点话题变化趋势预测精度,可以准确刻画热点话题变化趋势,是一种理想的复杂、多变热点话题变化趋势预测工具.
- 邱仕坦
- 关键词:支持向量机参数优化
- 基于词内部模式的中文新词识别研究被引量:1
- 2011年
- 提出了一种基于支持向量机的中文新词识别算法.该算法结合新词内部模式以及词长等提出了基于词内部模式的改进字符位置似然概率,并综合新词的邻接类别等特征对新词进行识别.经过小说语料测试,实验结果表明:该算法的微F1值为0.583 3,宏F1值为0.775 7,分别比不考虑词内部模式的基准算法提高约63%和30%.
- 廖祥文林自芳陈水利
- 关键词:中文新词支持向量机
- 基于分隔符的中文论坛信息抽取被引量:1
- 2011年
- 论坛蕴含丰富的信息资源,如何获取并结构化这些信息被广泛研究。目前有多种信息抽取方法,但因各种方法的处理对象不同,以及中文论坛独有的特点,使得通用抽取方法应用于中文论坛信息抽取并不能取得理想的效果。因此本文在信息抽取方法softmealy的基础上,对中文论坛的特性进行分析,提出基于分隔符的中文论坛信息抽取方法,并以3个被广泛使用的中文论坛数据进行实验。实验结果表明,本方法可取得良好效果。
- 魏晶晶于然廖祥文
- 关键词:信息抽取分隔符
- 基于随机森林的产品垃圾评论识别被引量:12
- 2015年
- 目前的产品垃圾评论识别方法只考虑评论特征的选取,忽略了评论数据集的不平衡性。因此该文提出基于随机森林的产品垃圾评论识别方法,即对样本中的大、小类有放回的重复抽取同样数量样本或者给大、小类总体样本赋予同样的权重以建立随机森林模型。通过对亚马逊数据集的实验结果表明,基于随机森林的产品评论识别方法优于其他基线方法。
- 何珑
- 结合AB-SMOTE和C-SVM的中文倾向性句子识别被引量:2
- 2012年
- 提出一种结合AB-SMOTE和C-SVM的中文倾向性句子识别算法.该算法先利用AB-SMOTE方法合成新样本,降低不平衡程度的同时也使数据具有更好的代表性,再对不同类别赋予不同的惩罚系数形成代价敏感的C-SVM分类器,充分结合了数据层和学习算法层方法的优点.实验结果表明,对酒店、笔记本电脑和书籍3个不平衡语料处理时,本算法能较有效解决不平衡问题,提高倾向性句子的识别精度.
- 陈振伟廖祥文
- 关键词:中文C-SVM