中国科学院声学研究所知识创新工程项目(0654091431)
- 作品数:4 被引量:15H指数:2
- 相关作者:张全贾宁李诺李娟臧翰芬更多>>
- 相关机构:中国科学院中国科学院研究生院更多>>
- 发文基金:中国科学院知识创新工程青年人才领域前沿项目中国科学院声学研究所知识创新工程项目国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 利用地名用字分析的中文地名识别处理被引量:7
- 2009年
- 对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。
- 李诺张全
- 关键词:中文地名识别最大熵
- 面向汉英机器翻译的大句范式初探
- 在大句的范围内小句的组织结构会呈现某些特定的模式,即大句范式。而范式的运用存在着语种间的有无或常用罕用之别,需要在翻译时予以变换。本文初步探讨了汉英机器翻译面临的几个常用大句范式,描述其辨识特征,并提出转换规则,以期对现...
- 池毓焕李颖
- 关键词:汉英机器翻译
- 文献传递
- 利用语言概念表示的作者写作风格分类研究
- 文本分类是文本信息自动处理的重要研究领域,文本作者风格的识别处理可以作为一类特殊的文本分类处理。本文针对自然语言表层信息特征的数据稀疏缺陷,引入了 HNC 的概念基元表述体系作为特征载体,以 KNN 算法作为基础,进行了...
- 张全张运良袁毅
- 关键词:语言概念空间文本分类
- 基于HNC理论的汉语辅语义块自动辨识研究被引量:2
- 2009年
- 全自动的语义分析一直是自然语言处理的主要目标之一,通过深层语义的分析,自然语言可以转化为形式语言。因此,可以实现人机之间的交互。为达到此目的人们在语义分析和标注方面做了长期的努力。本文在借鉴前人工作的基础上,为提高辅语义块的自动识别,进行了大量的语料分析,总结提出了比较有效的计算机处理规则。经真实文本实验测试,利用这些规则处理,可以达到较好的准确率和召回率。
- 臧翰芬韦向峰张全
- 基于语义结构平行的汉语人称代词消解
- 如何让计算机根据自然语言的语义表示消解句子乃至段落篇章中的人称代词,一直是自然语言处理的一大难题。本文依据HNC理论的句类表达式和语义块构成的相关知识,提出了一种基于语义结构平行的人称代词消解算法,通过定义句子语义块的层...
- 臧翰芬韦向峰张全
- 关键词:人称代词指代消解HNC理论
- 文献传递
- 基于概念属性特征的中文地名识别处理
- 在最大熵等统计机器学习模型当中,特征函数的选择可以说是对系统整体性能影响最大的部分。本文不仅使用了传统的词、词性等作为特征,同时基于HNC语言概念理论体系,以语义概念为特征进行训练。通过对语义概念符号的正确表示,把语义分...
- 李诺张全
- 关键词:最大熵模型特征函数HNC理论
- 文献传递
- 中文词语倾向性分析处理被引量:6
- 2009年
- 意见挖掘是自然语言处理研究领域的一个新热点。词语倾向性的判定是意见挖掘的基础和重要环节。该文进行了中文词语倾向性的自动判定实验。实验中采用了《现代汉语褒贬用法词典》中的词语做为褒贬判定的核心词汇,以同义词词典扩展了褒贬义词典的词语,并使用二元语法模型来判定多倾向性词语的倾向。实验结果褒义词的F-Score为79.31%,贬义词的F-Score为78.18%。
- 李娟张全贾宁
- 关键词:二元语法
- 使用句间关系恢复人名和机构名称省略
- 2009年
- 语义块是句子的语义构成单位,句子内发生的省略现象可以归结为语义块的省略。在句类分析的基础上,从小句间语义块共享关系的角度分析语义块中人名和机构名称的省略。将省略现象分为语义块整块共享形成的省略和语义块部分共享形成的省略,分析了两种情况的特点,并给出了相应的处理算法。测试表明,该算法对于两种省略均有很好的处理效果。
- 贾宁张全
- 关键词:省略