闫蓉
所属机构: 内蒙古大学计算机学院 所在地区: 内蒙古 呼和浩特市 研究方向: 自动化与计算机技术 发文基金: 国家自然科学基金
相关作者
高光来 作品数:121 被引量:343 H指数:9 供职机构:内蒙古大学 研究主题:蒙古文 蒙古语 词干 语音合成 语言模型 张蕾 作品数:69 被引量:469 H指数:13 供职机构:西北大学信息科学与技术学院 研究主题:概念图 知识图 知网 知识表示 自然语言处理 刘玉林 作品数:17 被引量:12 H指数:2 供职机构:内蒙古大学 研究主题:PETRI网 面向对象 电子病历 UML 基于UML
基于检索结果排序的伪相关反馈 被引量:1 2016年 针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、并且各文档之间相似性最小化作为排序原则,将伪相关文档集中各文档进行重排序;最后,将排序后排名靠前的文档作为扩展源进行二次反馈。实验结果表明,与两种传统伪反馈方法相比,该排序模型能获得与用户查询意图相关的反馈文档,可有效地提高检索效果。 闫蓉 高光来关键词:主题模型 查询扩展 基于语义相关度计算的汉语词义消歧方法研究 被引量:3 2007年 词义消歧(WSD)一直是自然语言处理(NLP)研究的重点和难点之一.本文以语义资源—《知网》为基础,从语义角度出发,抽取《知网》中义原之间的多种复杂关系,结合词性、词语组合等信息,提出一种基于相关度计算的汉语词义消歧方法.实验结果表明,该方法对于处理汉语W SD是有效的. 闫蓉关键词:词义消歧 相关度 知网 基于伪文档的伪相关反馈方法 被引量:2 2016年 传统的伪相关反馈(Pseudo Relevance Feedback,PRF)方法通常是以文档作为扩展源单元提取扩展词,提取粒度过大造成扩展源质量下降,使得检索结果鲁棒性差。该文研究利用主题分析技术,尝试将文本语义内容作为扩展源单元,缓解扩展源质量不高的问题。提出并实现了对文本集中各文档内容的伪文档描述,通过对其进行隐式多样化处理,实现了从更细微的文本内容角度出发提取扩展词。通过在真实NTCIR8中文语料的检索结果表明,该方法可以有效地提升伪相关反馈的检索性能。 闫蓉 高光来关键词:主题分析 基于语义的汉语词义消歧方法研究 在自然语言处理(NLP)中,词义消歧(WSD)一直是研究的重点和难点。它是一项“中间任务”,对于自然语言处理中的许多应用领域具有重要的理论和实践意义,包括机器翻译、信息检索、句法分析、语音合成等,该问题解决的好坏将直接关... 闫蓉关键词:自然语言处理 词义消歧 文献传递 面向词义消歧的词语相关度计算 被引量:2 2012年 为解决词义消歧问题,引入了语义相关度计算。研究并设计了词语相关度计算模型,即在充分考虑语义资源《知网》中概念间结构特点、概念信息量和概念释义的基础上,利用概念词与实例词间的搭配所表征的词语间强关联来进行词语相关度的计算。实验结果表明,该模型得到的语义相关度结果对于解决WSD问题提供了良好的支撑依据。 闫蓉 高光来关键词:语义相关度 搭配 知网 词义消歧 基于遗传算法的汉语未登录词识别 被引量:3 2008年 针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法。该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别。实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率。 闫蓉 张蕾关键词:自然语言处理 未登录词识别 遗传算法 基于主题网络的伪主题分析 2018年 传统无监督的主题建模方法利用相互独立的主题变量抽象描述文本语义,忽略了各主题内部隐含的结构和联系,粗粒化的文本主题分析加剧了"强制主题"问题对文本建模的影响。该文通过研究主题网络社区内部结构,结合主题内部语义耦合关系与网络拓扑结构,提出伪主题分析方法来识别和解释主题,实现从网络结构角度描述文本语义特征,弥补统计主题分析方法对文本语义结构刻画的不足。 闫蓉 高光来关键词:主题网络 文本理解 基于伪文档的伪相关反馈方法 传统的伪相关反馈(Pseudo Relevance Feedback,PRF)方法通常是以文档作为扩展源单元提取扩展词,提取粒度过大造成扩展源质量下降,使得检索结果鲁棒性差。该文研究利用主题分析技术,尝试将文本语义内容作... 闫蓉 高光来关键词:主题分析 基于SoftLexicon和注意力机制的中文因果关系抽取 被引量:1 2023年 针对现有中文因果关系抽取方法对因果事件边界难以识别和文本特征表示不充分的问题,该文提出了一种基于外部词汇信息和注意力机制的中文因果关系抽取模型BiLSTM-TWAM+CRF。该模型使用SoftLexicon方法引入外部词汇信息构建词集,解决了因果事件边界难以识别的问题。通过构建的双路关注模块TWAM(Two Way Attention Module),实现了从局部和全局两个角度充分刻画文本特征。实验结果表明,与当前中文因果关系抽取模型相比较,该文所提方法表现出更优的抽取效果。 崔仕林 闫蓉一种新的汉语词义消歧方法 被引量:6 2006年 针对自然语言处理领域词义消歧这一难点,提出一种新的汉语词义消歧方法。该方法以《知网》为语义资源,充分利用词语之间的优先组合关系。根据优先组合库得到句中各个实词与歧义词之间的优先组合关系;将各实词按照优先组合关系大小进行排列;计算各实词概念与歧义词概念之间的相似度,以判断歧义词词义。实验结果表明该方法对于高频多义词消歧是有效的,可作为进一步结构消歧的基础。 闫蓉 张蕾关键词:词义消歧 相似度 知网