国家自然科学基金(60970053)
- 作品数:9 被引量:84H指数:5
- 相关作者:李茹李双红王智强刘海静李国臣更多>>
- 相关机构:山西大学中北大学太原工业学院更多>>
- 发文基金:国家自然科学基金山西省国际科技合作计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于社区问答的问题相关度检测研究
- 基于社区的问答是近几年来非常流行的一种有效搜索、获取信息的途径。这种交互式的问答技术近年来已经成为了国际上问答技术的研究热点。本文论述了社区问答的一些相关研究和基本特点,讨论了问题相关度算法,选取了三个最有效的特征,使用...
- 李宇翔李双红李茹
- 关键词:相关度
- 文献传递
- 基于FrameNet框架关系的文本蕴含识别被引量:9
- 2012年
- 文本蕴含识别是处理自然语言中广泛存在的同义异形现象的一种有效途径。该文基于FrameNet中框架及框架之间的八种关系,结合WordNet中词汇间的语义关系,提出了一种文本蕴含识别方法。在给定文本T和假设H中词元激起的框架基础上,该方法利用深度优先搜索,在FrameNet框架关系图中,查询T和H中框架之间的上下位关系;再使用WordNet中语义关系比较二者的框架元素是否一致或相似。实验对RTE2007中50个文本对进行了测试,达到了76.6%的准确率,略高于RTE2007评测的最优结果。
- 张鹏李国臣李茹刘海静石向荣Collin Baker
- 关键词:FRAMENET
- 基于词元语义特征的汉语框架排歧研究被引量:7
- 2013年
- 框架排歧指的是在一个给定的句子中,判断句中目标词激起的语义场景与该目标词可能激起的哪个框架一致,则将该框架分配给当前的目标词。框架排歧最重要的一个步骤就是特征选择,目前常用的方法是人工特征选择方法,但是这种方法不能有效地利用每个目标词的语义特征,而且大量实验表明,不同的目标词取得最好的结果时所用的特征模板是不同的。因此,该文为每个目标词设置一个特征模板,并提出了特征模板的自动选择算法,首先从语料中抽取特征构成特征集,然后利用打分机制,把特征集中得分最高的特征逐个加入到特征模板中,直到相邻两次的得分不再增加。该文借助汉语框架网语义资源,利用最大熵模型建模,使用自动特征选择算法选出特征模板,并进行5-fold交叉验证,平均精确率可达到84.46%。
- 李国臣张立凡李茹刘海静石佼
- 框架元素语义核心词自动识别研究
- 本文基于汉语框架网,用框架核心依存图形式化的表示一个汉语句子,使得对句子能够进行深层语义理解。为了得到框架核心依存图,需要提取框架元素的语义核心词。文中使用条件随机场模型和最大熵模型来识别框架元素语义核心词,并分别对两个...
- 康旭珍李双红李茹
- 关键词:条件随机场最大熵模型
- 基于FrameNet框架关系的文本蕴含识别
- 文本蕴含识别是处理自然语言中广泛存在的同义异形现象的一种有效途径。本文基于FrameNet中框架及框架之间的八种关系,结合WordNet中词汇间的语义关系,提出了一种文本蕴含识别方法。在给定文本T和假设H中词元激起的框架...
- 张鹏李国臣李茹刘海静石向荣
- 关键词:FRAMENET
- 文献传递
- 基于框架语义分析的汉语句子相似度计算被引量:47
- 2013年
- 句子相似度计算在自然语言处理的许多领域中发挥着重要作用.已有的汉语句子相似度计算方法由于考虑句子的语义不全面,使得相似度计算结果不够准确,为此提出一种新的汉语句子相似度计算方法.该方法基于汉语框架网语义资源,通过多框架语义分析、框架的重要度度量、框架的相似匹配、框架间相似度计算等关键步骤来实现句子语义的相似度量.其中多框架语义分析是从框架角度对句子中的所有目标词进行识别、框架选择及框架元素标注,从而达到全面刻画句子语义的目的;在此基础上根据句子中框架的语义覆盖范围对不同框架的重要度进行区分,能够使得相似度结果更准确.在包含多目标词的句子集上的实验结果显示,基于多框架语义分析的句子相似度计算方法相对传统方法获得了更好的测试结果.
- 李茹王智强李双红梁吉业Collin Baker
- FrameNet中有定的零形式识别被引量:7
- 2013年
- 在FrameNet,有定的零形式识别旨在发现框架语义标注语料中需要填充的零形式框架元素,有助于篇章理解能力的提高。针对该任务,该文提出一个简单的二级流水线的有定的零形式识别方法:第一级基于规则在语义角色标注的基础上检测出语料中的零形式,第二级使用最大熵分类器预测检测出来的零形式类别,以达到有定的零形式识别的目的。实验在SemEval-2010Task 10的测试集中的结果显示,零形式检测的召回率和分类准确率分别为60.1%和53.5%,接近于评测给出的最好结果。
- 雷章章王宁李茹王智强
- 关键词:FRAMENET最大熵
- 改进的基于文本节点的XML文档查询方法
- 2011年
- 随着XML相关标准和技术的不断推广和应用,网络上出现了大量的XML数据,XML已成为网络数据表示和交换的标准。在海量XML文档中进行精确快速地查询成为当前XML研究的主要方向。由于XML文档自身的半结构化特性,对存储在其中的数据进行查询就需要建立相应的索引并制定特殊的查询算法。对基于文本节点的XML索引进行改进,在原索引的基础上增加文本节点的数据类型标识,得到一种新的查询方法。该方法结合索引中的数据类型标识,不仅可以支持原有查询算法中的字符串匹配查询,还能支持算术查询及比较查询。由于采用了关系数据库与原始XML文档相结合的查询方式,新的查询方法以增加较少的外存储空间为代价换取了减少大量内存空间及CPU时间的占用,与原方法相比,查询效率得到了显著提升。
- 王齐刘全明
- 关键词:XML查询处理器
- 基于融合特征的微博主客观分类方法被引量:3
- 2014年
- 针对现有微博主客观分类方法特征冗余度高和未考虑特征选择方法之间的互补关系问题,该文提出了一种基于融合特征的微博主客观分类方法。通过对多种不同特征选择方法进行有效组合,利用特征融合算法对词特征、内容特征、微博特征等基本特征进行了选择和融合,以获取更加有效的主客观分类特征。在新浪微博数据上的实验结果表明,该特征融合算法能够获得比最优单一特征选择方法更好的分类效果。
- 张晓梅李茹王斌吴迪高俊杰
- 基于多词块的框架元素语义核心词自动识别研究被引量:4
- 2010年
- 抽取一个句子的核心依存图是对句子进行语义理解的有效途径。在CFN自动标注的基础上,只能得到框架依存图,为了把框架依存图转换成框架核心依存图需要提取每个框架元素的语义核心词。该文提出了基于多词块标注的框架元素语义核心词识别和提取方法,通过对比分析,给出了多词块和框架元素的融合策略,并建立了在多词块标注基础上提取框架元素语义核心词的规则集。在6 771个框架元素上的实验结果显示,采用该文的方法和规则集提取框架元素核心词的平均准确率和覆盖率分别为95.58%和82.91%。
- 李双红李茹钟立军郭伟昱
- 关键词:计算机应用中文信息处理