巢文涵
- 作品数:16 被引量:123H指数:7
- 供职机构:北京航空航天大学计算机学院更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金国家重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于文本语义离散度的自动作文评分关键技术研究被引量:14
- 2016年
- 该文尝试从文本语义离散度的角度去提升自动作文评分的效果,提出了两种文本语义离散度的表示方法,并给出了数学化的计算公式。基于现有的LDA模型、段落向量、词向量等具体方法,提取出四种表征文本语义离散度的实例,应用于自动作文评分。该文从统计学角度将文本语义离散度向量化,从去中心化的角度将文本语义离散度矩阵化,并使用多元线性回归、卷积神经网络和循环神经网络三种方法进行对比实验。实验结果表明,在50篇作文的验证集上,在加入文本语义离散度特征后,预测分数与真实分数之间均方根误差最大降低10.99%,皮尔逊相关系数最高提升2.7倍。该表示方法通用性强,没有语种限制,可以扩展到任何语言。
- 王耀华李舟军何跃鹰巢文涵周建设
- 关键词:作文评分神经网络
- 基于话题自适应的中文微博情感分析被引量:10
- 2013年
- 近年来,随着社会网络的迅速兴起,面向社会网络的情感分析技术逐渐成为数据挖掘领域新的研究热点。中文微博以其语言简短、文法灵活的特点,给情感分析的研究工作带来了新的挑战。对数据预处理、情感词典构造、话题元素引入等中文微博情感分析技术进行了系统的研究,提出了给情感词分级的方法以提升情感分析的准确度;同时提出了面向话题的自适应方法以更准确地识别情感词;最后实验结果验证了以上方法的有效性。
- 任远巢文涵周庆李舟军
- 关键词:情感分析
- 一种基于LexRank算法的改进的自动文摘系统被引量:15
- 2010年
- 自动文摘是计算机语言学领域的一个研究重点,其研究和应用受到了计算机科学、语言学、情报信息学等相关学科的广泛关注。首先介绍了基于LexRank算法的自动文摘方法。针对该方法的不足,从句子相似度计算方法、句子权重计算方法以及冗余处理等方面对它进行了改进,从而可以根据输入文本内容动态地调整相关影响因子。实现的文摘系统,可以对中文和英文的单文本或多文本进行自动文摘。在哈工大和DUC的测评语料上进行了实验,结果表明该系统在一定程度上改进了文摘的质量,在多文本文摘中的抗噪声方面也有一定的优越性。最后讨论了自动摘要研究存在的问题,并指出了自动文摘的研究趋势。
- 纪文倩李舟军巢文涵陈小明
- 关键词:自动文摘句子相似度
- 基于增量型聚类的自动话题检测研究被引量:23
- 2012年
- 随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.
- 张小明李舟军巢文涵
- 关键词:话题检测与跟踪TDT
- 基于CFM的汉语小句语义分析
- 自然语言理解是AI领域的经典难题,目前国内外有大量的研究。但是总体来说,关于汉语理解的研究基础比较薄弱,尚未有比较成功的汉语语义分析系统,同时也没有比较完善的语义表示框架。因此,本课题寻求结合语言学知识和世界知识进行汉语...
- 巢文涵
- 基于触发词语义选择的Twitter事件共指消解研究被引量:2
- 2018年
- 随着社交媒体的发展与普及,如何识别短文本中事件描述的共指关系已成为一个亟待解决的问题。在传统的事件共指消解研究中,需要从NLP工具和知识库中获得丰富的语义特征,这种方式不仅限制了领域的扩展性,而且还导致了误差传播。为了打破上述局限,提出了一种新颖的基于事件触发词来选择性表达句子语义的方法,以判断短文本中事件的共指关系。首先,利用双向长短记忆模型(Bi-LSTM)提取短文本的句子级语义特征和事件描述级语义特征;其次,通过在句子级特征上应用一个基于事件触发词的选择门来选择性表达句子级语义,以产生潜在语义特征;然后,设计了触发词重叠词数和时间间隔两个辅助特征;最后,通过融合以上特征形成一个分类器来预测共指关系。为评估上述方法,基于Twitter数据标注了一个新的数据集EventCoreOnTweets(ECT)。实验结果表明,与两个基准模型相比,提出的选择性表达模型显著提升了短文本共指消解的性能。
- 魏萍巢文涵罗准辰李舟军
- 关键词:神经网络
- 基于双语主题模型和双语词向量的跨语言知识链接被引量:6
- 2019年
- 跨语言知识链接是指在描述相同内容的不同语言的在线百科文章之间建立联系。跨语言知识链接可分为候选集选择和候选集排序两部分。首先,把候选集选择问题转换为跨语言信息检索问题,提出一种将标题与关键词相结合从而生成查询的方法,该方法将候选集选择的召回率大幅提高至93.8%;在候选集排序部分,提出一种融合双语主题模型及双语词向量的排序模型,实现了英文维基百科和中文百度百科之间军事领域的跨语言知识链接。实验结果表明,该模型取得了75%的准确率,显著提高了跨语言知识链接的性能,并且提出的方法不依赖于语言特性和领域特性,因此可以很容易地扩展至其他语言和其他领域的跨语言知识链接。
- 余圆圆巢文涵何跃鹰李舟军
- 融合热点话题的微博转发预测研究被引量:12
- 2015年
- 微博转发行为是实现信息传播的重要方式,微博转发预测对微博影响力分析、微博话题分析具有重要价值。现有微博转发预测研究大多围绕消息属性、用户属性等微博自身特征,该文提出融合热点话题的微博转发预测方法,对背景热点话题内容和传播趋势对用户转发行为的影响进行量化分析,提出融合背景热点信息的转发兴趣、转发活跃度、行为模式等特征,并基于分类算法建立了面向热点话题相关微博的转发预测模型,在真实数据上的实验结果表明,该方法的预测准确性达到96.6%,提升幅度最高达到12.14%。
- 陈江刘玮巢文涵王丽宏
- 一种用于机器翻译的相似句对检索方法
- 2008年
- 在基于语料库的机器翻译系统中,相似句对的检索对于翻译的质量具有非常重要的作用。本文提出一种新颖的方法,可以利用双语例句来帮助度量待翻译句子与例句的相似度。为了提高检索的效率,我们还提供了一个双层的语料库索引方法。由于我们的相似度度量在计算相似度时考虑了例句对最终翻译结果的影响,因此在翻译实验中取得了较好的效果。
- 巢文涵李舟军陈跃新
- 关键词:机器翻译相似度度量语料库索引
- 一种面向开放域的事件抽取系统及方法
- 本发明涉及一种面向开放域的事件抽取系统及方法,包括:预处理模块、触发词识别模块、事件参数识别模块、事件图谱分析模块和事件抽取展示模块;预处理模块对原始数据信息进行预处理;触发词识别模块基于卷积神经网络进行触发词识别,事件...
- 张永强巢文涵李舟军
- 文献传递