国家社会科学基金(07BYY050)
- 作品数:19 被引量:120H指数:6
- 相关作者:陈小荷曲维光李斌唐旭日王东波更多>>
- 相关机构:南京师范大学北京大学金陵科技学院更多>>
- 发文基金:国家社会科学基金国家自然科学基金江苏省社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字天文地球更多>>
- CLUCENE在语料库建设中的应用
- 2008年
- 深入分析了现有语料库的构建模式和语料库应具备的功能模块,提出基于文件系统和Clucene全文检索引擎工具包的语料库建设方案.实验证明,Clucene具有丰富的接口设计和良好的扩展性,为语料库建设提供了一种较好的技术实现方式.
- 贺胜曲维光卢亚军
- 关键词:CLUCENE语料库语料库建设
- 树库中双词搭配的自动获取和识别研究
- 2011年
- 大规模语料中的搭配自动获取和识别技术是自然语言处理领域的基础性工作之一。句子中的搭配和句法结构密切相关,从句法对搭配进行约束的角度,分别提出了一种保留结构中心词的搭配获取方法和一种添加了句法规则约束的搭配识别方法。实验结果表明,保留结构中心词的搭配获取方法能够较为有效地从树库中抽取搭配;添加了句法规则约束的搭配识别方法较之简单查表的搭配识别方法有10%~15%的效果提升。
- 徐润华冯敏萱陈小荷
- 关键词:句法结构
- 基于动词的汉语复合名词短语释义研究被引量:9
- 2010年
- 复合名词短语的语义解释的主要目的是恢复修饰语和中心词之间隐含的语义关系。该文针对汉语复合名词短语的语义解释,首次采用动态的策略,提出了"基于动词的短语释义"的方法,利用语料库及Web数据,自动获取复合名词短语的释义短语,实验结果表明,该方法不仅可以为复合名词短语提供多种可能的语义解释,而且能够反应相似的复合名词短语之间细微的语义差别。此外,该文的研究结果可以服务于问答系统、信息检索、词典编纂等多个应用领域。
- 王萌黄居仁俞士汶李斌
- 关键词:语义解释
- 多语料库中汉语四字格的切分和识别研究被引量:4
- 2013年
- 汉语四字格的能产性和派生性极强,利用四字格模式创造出的新词数量在现代汉语词汇中一直呈上升趋势。该文将研究的目光投向分词语料库中的四字格,对语料库中的四字格进行了系统的分类和归纳,并对语料库内部和语料库之间的四字格切分不一致现象进行了详细的调查统计。最后,针对四字格的切分不一致数据引入条件随机场(CRF)模型,对多语料库中的汉语四字格进行识别实验,封闭测试和开放测试的识别精度均达到93%以上。
- 徐润华曲维光陈小荷王东波
- 关键词:四字格CRF模型
- 汉语褒贬词语的褒贬指向问题
- 2009年
- 本文着重探讨汉语中带有褒贬色彩的词语的褒贬指向问题。在句法成分、配价、语义角色、褒贬态度三元组〈评价者—褒贬态度—褒贬对象〉的框架下,分析了992个褒贬词语(包括名词、动词、形容词、副词)的褒贬指向,重点区分了二价词语的说话人对施事的态度和施事对受事的态度。该分析可以应用于句子或语篇的态度计算,也可以应用于机器翻译中的译词选择、语言教学和词典编纂等领域。
- 李斌陈小荷
- 关键词:语义分析配价
- VN结构识别的一种概率分布模型
- 2009年
- 正确识别汉语里的VN结构等基本名词短语可以帮助提高句法分析的准确率。提出并验证了如果动名组合的上下文词语的分布类似,那么它们的结构也类似的假设。结合动词、名词本身,构造了一种基于概率分布的结构向量空间模型,用于VN结构的识别。实验结果表明,虽然没有使用其他外部资源,该方法仍取得了理想的识别效果,精确率和召回率分别达到了95.2%和93.0%。
- 陈丽江陈小荷
- 关键词:自然语言处理向量空间模型上下文
- 中文文本的地名解析方法研究被引量:42
- 2010年
- 讨论了中文文本的地名解析流程,提出基于条件随机场和篇章地名关系的地名识别方法、基于局部模糊匹配的地名标准化方法以及基于认知显著度的地理编码方法,并构建了地名解析原型系统。实验显示,该系统可以获得较为满意的精确率、召回率和F-1值,同时讨论了地名词典的完备性、地名识别精度以及地名语义歧义消除等影响地名解析性能的主要因素。
- 唐旭日陈小荷张雪英
- 关键词:地名识别地理编码
- 名词转喻的自动理解
- 转喻是汉语文本中常见的语言现象。在主宾语位置上,名词会出现转喻用法。该用法往往是用凸显特征转喻本体,而凸显特征则蕴含在世界知识和人类主观体验之中,计算机自动识别转喻特别是找出转喻的本体难度很大。对此,我们提出了两点策略来...
- 李斌曲维光陈小荷
- 关键词:转喻词语相似度相关词
- 文献传递
- 基于词频和语义信息的组合型歧义消解
- 组合型歧义切分是汉语自动分词的难点之一。本文挖掘歧义字段上下文的相对词频信息和语义信息,建立语境计算模型。首先基于相对词频比,建立RFRUM模型,其次采用类似K近邻的分类思想,利用知网,建立语义相似度计算模型,最后尝试两...
- 丁德鑫曲维光于丽丽陈小荷李惠
- 关键词:中文自动分词语境信息语义计算
- 文献传递
- 现代汉语“V+N”序列关系的平行处理被引量:1
- 2010年
- 目前,在英汉平行语料中,对汉语文本的深加工多局限于只利用单语分析的成果,没有充分利用双语资源。以现代汉语v+n序列的结构关系为研究对象,设计出在英汉平行语料中识别v+n结构关系的平行处理算法:首先利用各种单语资源,提取出构成不同结构关系的动词和名词相互间的制约规则,再分别依据v+n中汉语名词、动词的语义在英语译文中的具体形式及上下文模板来判断v+n的结构关系类型。实验证明,在自动分词和词性标注的PCCE1000文本中,v+n单语处理的F值为72.14%,而进一步利用汉英词典和英语译文信息,F值到达了88.81%,提高了16.67个百分点。
- 冯敏萱
- 关键词:平行语料词语搭配自动识别中文信息处理