张孝飞
- 作品数:15 被引量:80H指数:5
- 供职机构:中国科学院计算机语言信息工程研究中心更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 一种基于HMM的词性标注算法(英文)
- 词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有着很大的难度。文章通过将生词的词性标注问题转化为求解词汇发射概率,提出了一种基于隐马尔科夫模型 (HMM)的词性标注新方法,较好地解决了...
- 张孝飞张道秧黄河燕
- 关键词:自然语言处理词性标注语料库
- 文献传递
- 基于锚点词对的双语词对齐算法被引量:13
- 2006年
- 双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及英汉语言间的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率达77.3%,F值达84.2%,基本上满足了有关应用的实际要求.
- 张孝飞陈肇雄黄河燕王建德
- 关键词:自然语言处理语料
- 多策略机器翻译系统IHSMTS中类比译文构造算法
- 译文生成是任何机器翻译系统所要解决的重要问题之一,也是机器翻译的最终目的.从本质上来讲,不管采用何种翻译方法,译文生成都要完成两个任务:一是源语与目标语之间的句法结构转换;二是目标语的表层线性化.论文在多策略机器翻译系统...
- 张孝飞陈肇雄黄河燕张亮
- 关键词:语料库方法
- 文献传递
- 多策略机器翻译系统IHSMTS中实例模式泛化匹配算法被引量:1
- 2005年
- 基于精确匹配的EBMT,由于翻译覆盖率过低,导致其难以大规模实际应用。本文提出一种实例模式泛化匹配算法,试图改善EBMT的翻译覆盖率:以输入的待翻译句子为目标导向,对候选翻译实例有针对性地进行实时泛化,使得算法既能满足实时文档翻译对速度的要求,又能充分利用系统使用过程中用户新添加和修改的翻译知识,从而总体上提高了系统的翻译覆盖率和翻译质量。实验结果表明,在语料规模为16万句对的情况下,系统翻译覆盖率达到了75%左右,充分说明了本文算法的有效性。
- 张孝飞陈肇雄黄河燕胡春玲
- 关键词:人工智能机器翻译
- 基于本体的专业机器翻译术语词典研究被引量:12
- 2007年
- 在专业机器翻译系统的设计和实现中,要解决的一个关键问题是如何有效地组织面向不同专业领域的专业术语,以及如何根据当前所处理的文本选择相应的术语定义。本文首先分析现有专业机器翻译系统在术语词典组织和建设方面存在的主要问题,以及基于本体(Ontology)的领域知识概念体系的特点;其次,探讨面向专业机器翻译的术语词典研究的几个重要方面,包括通用领域本体的设计、专业术语的描述和向本体的映射、双语或多语MT专业词库的组织和应用等;最后,介绍我们初步已完成的工作,主要包括机器翻译专业领域分类系统设计、专业词典向专业分类系统的映射I、CS标准向专业领域分类系统的映射等。映射实验结果表明,专业领域分类系统对于机器翻译专业词典具有良好的覆盖性。
- 黄河燕张克亮张孝飞
- 关键词:人工智能机器翻译本体
- 跨语言信息检索中查询关键词翻译转换算法
- 跨语言信息检索中,输入的查询语句往往是一系列关键词组合,而不是一个完整的句子。这样一来,查询关键词序列由于缺乏必要的语境、语法信息,给查询语句的翻译转换得来了很大的困难。本文基于大规模双语语料库,以向量空间模型和词汇同现...
- 张孝飞代六玲黄河燕陈肇雄
- 关键词:跨语言信息检索翻译转换双语语料库
- 文献传递
- 多策略机器翻译系统IHSMTS中类比译文构造算法
- 译文生成是任何机器翻译系统所要解决的重要问题之一,也是机器翻译的最终目的。从本质上来讲,不管采用何种翻译方法,译文生成都要完成两个任务:一是源语与目标语之间的句法结构转换:二是目标语的表层线性化.论文在多策略机器翻译系统...
- 张孝飞陈肇雄黄河燕张亮
- 关键词:语料库方法
- 文献传递
- 一种面向机器翻译的双语组块识别方法
- 指出双语组块最重要的特点是语义自足性、结构合法性和翻译转换的充分性,即识别出来的“双语组块”包含有确定的语义信息和双语对译信息,并且符合一定的语法规范。为此,相应地提出了一种双语组块分析方法。其基本思路是:通过规则与统计...
- 张孝飞黄河燕陈肇雄
- 关键词:机器翻译语料库
- 文献传递
- 大规模句子相似度计算方法被引量:6
- 2006年
- 如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明,当语料规模为20万英汉句对时,系统提取相似句子的召回率达96%。准确率达90%,充分说明了本文算法的有效性。
- 黄河燕陈肇雄张孝飞张克亮
- 关键词:句子相似度
- 跨语言信息检索中查询关键词翻译转换算法
- 跨语言信息检索中,输入的查询语句往往是一系列关键词组合,而不是一个完整的句子。这样一来,查询关键词序列由于缺乏必要的语境、语法信息,给查询语句的翻译转换得来了很大的困难。本文基于大规模双语语料库,以向量空间模型和词汇同现...
- 张孝飞代六玲黄河燕陈肇雄
- 关键词:跨语言信息检索关键词翻译转换双语语料库
- 文献传递