您的位置: 专家智库 > >

中国科学院西部行动计划项目(KGZD-EW-501)

作品数:5 被引量:27H指数:4
相关作者:米成刚杨雅婷周喜李晓周玉更多>>
相关机构:中国科学院大学中国科学院新疆理化技术研究所中国科学院自动化研究所更多>>
发文基金:中国科学院西部行动计划项目中国科学院战略性先导科技专项中国科学院西部之光基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 5篇自动化与计算...

主题

  • 3篇机器翻译
  • 3篇翻译
  • 2篇字符
  • 2篇字符串
  • 2篇最大熵
  • 2篇维吾尔
  • 2篇维吾尔语
  • 2篇相似度
  • 1篇登录
  • 1篇形态学
  • 1篇译文
  • 1篇有限自动机
  • 1篇语料
  • 1篇语言模型
  • 1篇语义
  • 1篇语义关系
  • 1篇粘着性
  • 1篇树库
  • 1篇篇章
  • 1篇篇章结构

机构

  • 4篇中国科学院新...
  • 4篇中国科学院大...
  • 1篇中国科学院自...

作者

  • 4篇杨雅婷
  • 4篇米成刚
  • 3篇周喜
  • 2篇李晓
  • 1篇宗成庆
  • 1篇周玉
  • 1篇张磊
  • 1篇李响
  • 1篇陈科海

传媒

  • 2篇计算机应用研...
  • 1篇北京大学学报...
  • 1篇计算机应用与...
  • 1篇中文信息学报

年份

  • 1篇2015
  • 2篇2014
  • 2篇2013
5 条 记 录,以下是 1-5
排序方式:
基于粘着性模糊规则的维汉机器翻译最大熵调序研究被引量:2
2013年
针对维汉机器翻译中未登录词和译文乱序问题严重的现象,结合维吾尔语粘着性语言特点以及最大熵分类算法,提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础,在维吾尔语词级别构建粘着性规则约束,从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明,与当前主要MSD(mono、swap、discontinuous)等调序方法相比,该方法较好地体现了维吾尔语的粘着性特点,提高了译文质量。
陈科海周喜杨雅婷米成刚
关键词:形态学粘着性模糊规则最大熵
泛化语言模型在汉维机器翻译中的应用被引量:4
2014年
针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象,提出了一种基于泛化的维吾尔语语言模型。该模型借助维吾尔语语言模型的训练过程中生成的文本,结合字符串相似度算法,取相似的维文字符串经过归一化处理抽取规则,计算规则的参数值,利用规则给测试集在解码过程中生成nbest译文重新评分,将评分最高的译文作为最佳译文。实验结果表明,泛化语言模型减少了存储空间,同时,规则的合理使用有效地提高了翻译译文的质量。
李响南江杨雅婷周喜米成刚
维吾尔语数词类命名实体的识别与翻译被引量:6
2015年
针对维吾尔语数词类命名实体(时间、日期、货币、百分比)在维汉机器翻译中翻译不准确的问题,分析其构成规律及边界信息,设计基于维汉平行语料的维吾尔语数词类命名实体的识别与翻译系统。通过有限自动机结合触发词识别并翻译维语基本数词,从平行语料中自动抽取出翻译模板,匹配模板并实现翻译。实验表明,维吾尔语数词类命名实体的识别F值达到了91%,有效提高了维汉机器翻译的质量。
张磊杨雅婷米成刚李晓
关键词:平行语料有限自动机
基于最大熵的汉语篇章结构自动分析方法被引量:9
2014年
在标有复句逻辑语义关系的清华汉语树库上,研究汉语篇章语义片段自动切分以及篇章关系的自动标注方法。通过比较不同序列标注模型对汉语篇章语义单元切分的性能,提出基于最大熵模型的汉语篇章结构分析方法。实验结果表明,篇章语义单元自动切分的F值能达到89.1%,当篇章语义结构树的高度不超过6层时,篇章语义关系标注的F值为63%。
涂眉周玉宗成庆
关键词:篇章结构分析逻辑语义关系树库
基于字符串相似度的维吾尔语中汉语借词识别被引量:6
2013年
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。
米成刚杨雅婷周喜李晓杨明忠
关键词:借词未登录词字符串相似度
共1页<1>
聚类工具0