中国科学院西部行动计划项目(KGCX2-YN-507)
- 作品数:4 被引量:10H指数:2
- 相关作者:董兴华陈丽娟周喜周俊林张小燕更多>>
- 相关机构:中国科学院新疆理化技术研究所中国科学院新疆分院中国科学院研究生院更多>>
- 发文基金:中国科学院西部行动计划项目更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 联合式多引擎维汉机器翻译系统被引量:4
- 2011年
- 根据维吾尔语形态变化丰富的特殊性,搭建一个基于Factored的维汉机器翻译系统,将Factored系统和基于层次短语的Joshua翻译系统以及Moses中基于句法的翻译模型进行系统融合,构建混淆网络。提出一种词级和句子级联合融合的维汉机器翻译方法,利用一致性网络进行词级融合,并采用最小贝叶斯算法进行句子级融合。实验结果表明,联合式多引擎方法能提高1.72%个BLUE-SBP值。
- 宿建军张小燕吐尔洪.吾司曼李晓
- 关键词:机器翻译多引擎
- 基于统计的词素切分算法
- 这篇论文描述了一种基于统计的词素切分算法,算法构建了一种数据结构,在该结构中语料库中的每个词都可以表示为它的词素的二叉树。因为每个词有不同的词素分割,算法选择使整体概率最高的分割,从而找到最优的词素词典和词的分割。我们用...
- 董兴华杨雅婷陈丽娟周喜吐尔洪·吾司曼
- 关键词:词素二叉树维语
- 文献传递
- 多语言在线机器翻译研究被引量:2
- 2012年
- 描述了通过使用外部知识库和基于短语的翻译模型,利用多线程、任务分发的技术实现了一个在线的、高性能的多语言翻译引擎,已初步实现了维汉、哈汉、柯汉三种语言间的翻译。翻译引擎很容易扩展到其他语言对,具有翻译词、短语、句子、文件和网页的功能。
- 董兴华徐春王磊周喜
- 关键词:多线程
- 汉维统计机器翻译中的形态学处理被引量:5
- 2011年
- 针对汉语和维吾尔语语序差别(前者是主-谓-宾结构,后者是主-宾-谓结构)及形态差别较大的问题,通过编写调序规则将汉语调整为主-宾-谓结构,将维吾尔语单词切分为词干、词缀等更小的词素单元来训练统计模型,同时测试词素的切分粒度对翻译性能的影响。实验结果表明,对汉语句法结构的调整及以词干、词缀等更小的词素形式参与训练可以有效提高翻译质量。
- 董兴华陈丽娟周喜周俊林吐尔洪.吾司曼
- 关键词:统计机器翻译词素
- 基于句法调序的汉维统计机器翻译被引量:2
- 2012年
- 在汉语到维语的统计机器翻译中,2种语言在形态学及语序上差异较大,导致未知词较多,且产生的维语译文语序混乱。针对上述问题,在对汉语和维语的语序进行研究的基础上,提出一种汉语句法调序方法,进而对维语进行形态学分析,采用基于因素的统计机器翻译系统进行验证。实验结果证明,该方法在性能上较基线系统有显著改进,BLEU评分由15.72提高到19.17。
- 陈丽娟张恒董兴华吐尔洪.吾司曼周俊林
- 关键词:统计机器翻译形态学翻译模型
- 基于短语的汉维(维汉)统计机器翻译研究
- 描述了利用电话录音的汉维平行语料库构建了一个基于短语的统计机器翻译系统。我们对词级的语料库进行了切分,得到了词素级的语料库,进行了词一级的实验和词素级的实验,实验表明,词素级的实验能得到更好的效果。
- 董兴华周俊林郭树盛吐尔洪·吾司曼
- 文献传递