您的位置: 专家智库 > >

米成刚

作品数:13 被引量:43H指数:4
供职机构:中国科学院新疆理化技术研究所更多>>
发文基金:中国科学院西部之光基金国家自然科学基金中国科学院战略性先导科技专项更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 13篇中文期刊文章

领域

  • 12篇自动化与计算...
  • 2篇语言文字

主题

  • 9篇机器翻译
  • 9篇翻译
  • 4篇维吾尔
  • 4篇维吾尔语
  • 4篇相似度
  • 3篇语言模型
  • 3篇字符
  • 3篇字符串
  • 2篇登录
  • 2篇短语
  • 2篇神经网
  • 2篇神经网络
  • 2篇统计机器
  • 2篇统计机器翻译
  • 2篇网络
  • 2篇未登录词
  • 2篇相似度算法
  • 2篇向量
  • 1篇单文档
  • 1篇对齐

机构

  • 13篇中国科学院新...
  • 13篇中国科学院大...
  • 1篇新疆警察学院

作者

  • 13篇杨雅婷
  • 13篇米成刚
  • 4篇王磊
  • 3篇李晓
  • 3篇周喜
  • 3篇李晓
  • 2篇董瑞
  • 2篇陈科海
  • 1篇张磊
  • 1篇王亚娟
  • 1篇李响
  • 1篇朱少林

传媒

  • 4篇厦门大学学报...
  • 3篇计算机应用研...
  • 1篇中国科学技术...
  • 1篇计算机工程
  • 1篇计算机应用与...
  • 1篇计算机应用
  • 1篇中文信息学报
  • 1篇计算机工程与...

年份

  • 6篇2019
  • 1篇2018
  • 1篇2017
  • 1篇2015
  • 1篇2014
  • 3篇2013
13 条 记 录,以下是 1-10
排序方式:
维吾尔语数词类命名实体的识别与翻译被引量:6
2015年
针对维吾尔语数词类命名实体(时间、日期、货币、百分比)在维汉机器翻译中翻译不准确的问题,分析其构成规律及边界信息,设计基于维汉平行语料的维吾尔语数词类命名实体的识别与翻译系统。通过有限自动机结合触发词识别并翻译维语基本数词,从平行语料中自动抽取出翻译模板,匹配模板并实现翻译。实验表明,维吾尔语数词类命名实体的识别F值达到了91%,有效提高了维汉机器翻译的质量。
张磊杨雅婷米成刚李晓
关键词:平行语料有限自动机
基于字符串相似度的维吾尔语中汉语借词识别被引量:6
2013年
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。
米成刚杨雅婷周喜李晓杨明忠
关键词:借词未登录词字符串相似度
基于短语汉维机器翻译解码的研究及实现被引量:2
2019年
针对汉、维翻译中维语形态变化复杂、汉维语句法结构不同等造成的解码局限性问题,将解码中语言模型的评分调整为重点考虑短语衔接处的单词串的得分,引入词向量进行短语相似度计算,利用词向量将单词间隐含的语义关系加入到解码评分;调整解码的调序距离限制方法,设计一个限制解码中短语扩展的方法,使解码的调序更符合汉维翻译的实际;在此基础上,按优化的方案实现解码器。实验结果表明,优化能使译文BLEU值在基线方案基础上提升3.46,最终方案解码器的译文BLEU值为29.18。
杨世勤王磊杨雅婷杨雅婷
关键词:解码语言模型
基于粘着性模糊规则的维汉机器翻译最大熵调序研究被引量:2
2013年
针对维汉机器翻译中未登录词和译文乱序问题严重的现象,结合维吾尔语粘着性语言特点以及最大熵分类算法,提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础,在维吾尔语词级别构建粘着性规则约束,从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明,与当前主要MSD(mono、swap、discontinuous)等调序方法相比,该方法较好地体现了维吾尔语的粘着性特点,提高了译文质量。
陈科海周喜杨雅婷米成刚
关键词:形态学粘着性模糊规则最大熵
泛化语言模型在汉维机器翻译中的应用被引量:4
2014年
针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象,提出了一种基于泛化的维吾尔语语言模型。该模型借助维吾尔语语言模型的训练过程中生成的文本,结合字符串相似度算法,取相似的维文字符串经过归一化处理抽取规则,计算规则的参数值,利用规则给测试集在解码过程中生成nbest译文重新评分,将评分最高的译文作为最佳译文。实验结果表明,泛化语言模型减少了存储空间,同时,规则的合理使用有效地提高了翻译译文的质量。
李响南江杨雅婷周喜米成刚
基于词对向量的中文新闻话题检测方法被引量:3
2019年
针对传统话题检测方法得到的结果和实际话题个数相差较大的缺点,根据话题所包含的文本数对话题之间的相似度进行衰减,进而优先合并粒度较小类,并根据文档话题频率和权重对较大的话题向量进行降维,通过这两方面对传统的层次聚类方法进行改进.同时为了更好地表达话题的语义信息,使用在句子中共现的词对向量来取代传统的向量空间模型.实验结果表明,使用词对模型和改进的方法可以取得更好的效果,而且得到的聚类结果和实际话题个数相近.
张文博米成刚杨雅婷
关键词:降维相似度
基于语义空间的抽取式单文档摘要方法
2019年
目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统.
杨山杨雅婷温正阳米成刚
关键词:文本摘要
基于释义信息的维汉机器翻译系统融合研究被引量:7
2019年
针对维汉机器翻译中单个翻译模型翻译效果差且多个翻译模型间翻译差异较大的问题,提出一种基于释义信息的系统融合方法。通过提取汉语端释义信息对汉语翻译假设进行词对齐,利用词对齐信息构建并解码混淆网络,从而得到维汉机器翻译系统融合结果。实验结果表明,与单个翻译系统HPSTW相比,该方法能够有效提高翻译质量。
王亚娟王亚娟李晓米成刚
面向汉维机器翻译的神经网络语言模型被引量:3
2019年
针对传统神经网络语言模型方法只关注词语之间关系或者词语内部信息而导致维吾尔语语言模型困惑度(PPL)过高的问题,提出了融入词素信息的维吾尔语神经网络语言模型.该方法在传统神经网络语言模型的基础上添加了词内结构建模层及合并层,利用双向长短时序记忆网络来捕捉词内结构信息,并与word2vec训练好的词向量相结合作为神经网络语言模型的输入;同时还采用重构N元语法(N-gram)语言模型的方式将神经网络模型应用到汉维统计机器翻译中.实验表明该模型的PPL降低了19.93,在汉维统计机器翻译任务中机器双语互译评估(BLEU)值提升了0.28个百分点.
李毓杨雅婷李晓米成刚董瑞
关键词:维吾尔语机器翻译语言模型
基于子词信息的维吾尔语词项规范化
2019年
拉丁化的维吾尔语在使用过程中具有文本不规范的特点,这种不规范是造成歧义等现象的最主要原因,严重制约着与维吾尔语相关的自然语言处理应用.由此提出了一种无监督的基于子词信息的文本规范化方法,该方法在词向量构建过程中将词的内部信息考虑进去.这种方法可以对罕见词进行向量表示,也可以将词内部的形态信息融入词的表示,丰富词向量的表达,进而用于改进无监督学习中规范化词候选集生成质量的不足.实验表明,相比于传统词向量构建方法,该方法在文本规范化任务中可以提高规范化词的召回率.
张新路王磊杨雅婷米成刚
关键词:维吾尔语自然语言处理
共2页<12>
聚类工具0