陈科海
- 作品数:2 被引量:9H指数:2
- 供职机构:中国科学院新疆理化技术研究所更多>>
- 发文基金:中国科学院战略性先导科技专项中国科学院西部之光基金中国科学院西部行动计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 维汉机器翻译未登录词识别研究被引量:9
- 2013年
- 针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。
- 米成刚王磊杨雅婷陈科海
- 关键词:未登录词
- 基于粘着性模糊规则的维汉机器翻译最大熵调序研究被引量:2
- 2013年
- 针对维汉机器翻译中未登录词和译文乱序问题严重的现象,结合维吾尔语粘着性语言特点以及最大熵分类算法,提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础,在维吾尔语词级别构建粘着性规则约束,从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明,与当前主要MSD(mono、swap、discontinuous)等调序方法相比,该方法较好地体现了维吾尔语的粘着性特点,提高了译文质量。
- 陈科海周喜杨雅婷米成刚
- 关键词:形态学粘着性模糊规则最大熵