郑家恒
- 作品数:92 被引量:671H指数:13
- 供职机构:山西大学计算机与信息技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划山西省自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学理学更多>>
- 分词及词性标注一致性校对系统的设计与实现被引量:10
- 2001年
- 针对真实语料中分词、词性标注结果前后不一致的现象提出了基于规则库的校对方法与策略 ,设计了一致性校对系统 ,进一步提高分词、词性标注的正确率。
- 杜永萍郑家恒
- 关键词:分词词性标注一致性自动分词中文信息处理
- 利用支持向量机实现动词-动词搭配的自动标注被引量:5
- 2005年
- 动词是中文信息处理的核心,是计算机对汉语进行分析和处理的基础。文章给出利用支持向量机法(SVM)进行动词-动词搭配的研究。首先构造训练特征库和学习特征库,然后利用高斯核函数将训练特征库中的样本映射为高维空间中的向量,使样本线性可分,求得超平面,最终实现SVM机的构造。通过对待测的1000句汉语句子应用SVM进行了动词搭配的自动识别分析,获得了开放测试抽取正确率为69.6%,召回率为67.8%的理想结果。
- 白妙青郑家恒
- 关键词:语料搭配支持向量机
- 时间关系识别研究进展被引量:6
- 2011年
- 时间关系识别是自然语言中语义处理的一个重要任务,近年来得到了广泛的关注和快速的发展。该文参考大量的文献资料,总结了当前时间关系识别在标准、资源和评测中的进展,分析了研究中采用的多种方法和技术,探讨了研究中存在的问题和未来研究的重点。
- 谭红叶郑家恒梁吉业
- 关键词:自然语言处理
- 动词与动词搭配方法的研究被引量:6
- 2004年
- 搭配是汉语自动句法分析的重要环节,而动词是句法分析的核心。论文面向中文信息处理,通过对真实文本的统计分析归纳了搭配自动获取规则,结合统计模型,研究了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征,在此基础上成功地抽取出所选语料中的动词—动词搭配。其中抽取正确率为75%,召回率为64%。
- 白妙青郑家恒
- 关键词:词语搭配语料库中文信息处理
- 基于Bootstrapping的交通工具名识别
- 工具名的正确识别对信息抽取、自动问答等信息处理任务意义重大。为了解决获取标注语料困难这个问题,本文实现了一种基于Bootstrapping的交通工具名识别方法,其特点是:(1)通过手工标记小部分语料逐渐学习得到大量标注信...
- 王振宇谭红叶郑家恒
- 关键词:交通工具相似度计算信息抽取
- 一种基于实例学习的人名识别方法
- 人名识别是自然语言处理领域的一个重要的子任务。实例学习是机器学习中的一种常见的方法。本文在对大量语料的语言现象的统计与分析的基础上,提出了一种用实例描述语言现象,用相似度计算识别人名的方法。实验表明, 该方法具有一定的可...
- 朱丽丽郑家恒
- 关键词:人名识别相似度计算
- 文献传递
- 基于最大熵方法进行动词搭配的自动标注
- 2009年
- 搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。通过对已标注真实文本的分析,构造了动词搭配对的上下文变量信息特征模板,给出利用最大熵方法抽取动词—动词搭配,对待测的1000句汉语句子应用最大熵方法自动识别出搭配,其中封闭测试抽取正确率为85.6%,召回率达到70.6%。
- 白妙青郑家恒
- 关键词:语料搭配最大熵
- 中文文本语料库分词一致性检验技术的初探被引量:10
- 2005年
- 对大规模语料库中的分词不一致现象进行分析,提出了语料库分词一致性检查和校对的新方法。该方法提取词与词之间语法、语义搭配信息,利用支持向量机的理论对候选序列进行判断,给出一个切分结果,进而提高汉语语料库切分的准确率。
- 刘江郑家恒张虎
- 关键词:支持向量机搭配
- 基于语料库的中文姓名识别方法研究被引量:81
- 2000年
- 本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95 .23 % ;精确率为87 .31 % 。
- 郑家恒李鑫谭红叶
- 关键词:中文姓名识别自动分词
- 基于改进的隐马尔科夫模型的汉语词性标注被引量:12
- 2006年
- 基于传统隐马尔科夫(HMM)模型的基础上,对词语的词汇发射概率做出了新的假设,从而更好地体现了该词语与上下文依赖关系。还利用指数线性插值平滑算法对参数进行了有效平滑,并且给出了未登录词词汇发射概率估计模型。实验结果证明,改进后的模型明显优于传统HMM词性标注模型的效果。
- 王敏郑家恒
- 关键词:中文信息处理词性标注隐马尔科夫模型未登录词