山西省忻州师范学院科研基金(200307)
- 作品数:3 被引量:14H指数:2
- 相关作者:陈惠明冯素琴更多>>
- 相关机构:忻州师范学院更多>>
- 发文基金:山西省忻州师范学院科研基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于语境信息的汉语组合型歧义消歧方法被引量:9
- 2007年
- 组合型歧义切分字段一直是汉语自动分词的难点,难点在于消歧依赖其上下文语境信息。本文采集、统计了组合型歧义字段的前后语境信息,应用对数似然比建立了语境计算模型,并考虑了语境信息的窗口大小、位置和频次对消歧的影响而设计了权值计算公式。在此基础上,1.使用语境信息中对数似然比的最大值进行消歧;2.使用语境信息中合、分两种情况下各自的对数似然比之和,取值大者进行消歧。对高频出现的14个组合型分词歧义进行实验,前者的平均准确率为84.93%,后者的平均准确率为95.60%。实验证明使用语境信息之和对消解组合型分词歧义具有良好效果。
- 冯素琴陈惠明
- 关键词:中文信息处理汉语自动分词对数似然比语境信息
- 利用上下文信息解决汉语组合型歧义被引量:2
- 2007年
- 汉语自动分词问题是制约中文信息处理发展的瓶颈之一,歧义切分又是影响分词系统切分精度的重要因素。在对已有方法深入分析的基础上,提出利用上下文信息的消歧策略。结果显示,经多次学习后搭配信息显示的消歧参数逐渐趋于稳定,且消歧准确率有大幅度提高。
- 冯素琴陈惠明
- 关键词:汉语自动分词消歧
- 一种自组织的汉语组合型歧义消歧方法被引量:4
- 2007年
- 组合型歧义切分字段一直是汉语自动分词的难点。用人工校验后的分词语料提供的搭配实例作为组合歧义字段的初始搭配知识,提出使用搭配统计表的多元最大对数似然比进行消歧;继而根据实验确定了歧义字段的上下文窗口、窗口位置区分、权值估计等要素;在此基础上采用自组织方法自动扩充搭配集,使消歧信息趋于稳定;最后,对提出的方法进行了实验,实验表明,该算法能有效提高消歧准确率。
- 冯素琴陈惠明
- 关键词:自然语言处理汉语自动分词消歧