徐雄飞
- 作品数:4 被引量:8H指数:2
- 供职机构:江西师范大学计算机信息工程学院更多>>
- 发文基金:国家自然科学基金江西省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向新闻的情感关键句抽取与判定
- 2015年
- 情感倾向的分析已经成为当前研究的热点.面向新闻的情感关键句抽取与判定主要运用的技术有对文本进行预处理、计算文本中词项权重、提取情感关键句、用SVM分类器对情感关键句进行情感倾向性分析.实验结果表明:JXNUIIP系统对情感关键句提取问题有良好的效果.
- 罗文兵徐雄飞王明文左家莉
- 关键词:新闻支持向量机
- 基于word2vec的大中华区词对齐库的构建
- 针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析.首先,抓取了维基百科以及简繁体新闻网站上的3,200,000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10,...
- 王明文徐雄飞徐凡李茂西
- 关键词:词对齐余弦相似度向量表示
- 中文微博句子倾向性分类中特征抽取研究被引量:2
- 2015年
- 针对中文微博句子倾向性分类问题,在充分降低由于情感词典的扩充工作带来系统开销的基础上,抽取了中文微博句子中标点符号、情感词权重、词汇级和句法级等新型平面和结构化特征,探索了有效的特征选择方法.在基准COAE和NLP&CC中文微博语料上进行双向交叉和独立实验,并研究了有效的不平衡性语料的处理方法.实验结果表明:采用该文提出的特征后,中文微博句子倾向性分类的性能得到显著提升.
- 徐雄飞徐凡王明文左家莉罗文兵
- 关键词:特征抽取
- 基于word2vec的大中华区词对齐库的构建被引量:6
- 2015年
- 该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。
- 王明文徐雄飞徐凡李茂西
- 关键词:词对齐最长公共子序列