您的位置: 专家智库 > >

董兴华

作品数:12 被引量:37H指数:5
供职机构:中国科学院新疆理化技术研究所更多>>
发文基金:中国科学院西部行动计划项目更多>>
相关领域:自动化与计算机技术自然科学总论电子电信语言文字更多>>

文献类型

  • 8篇期刊文章
  • 4篇会议论文

领域

  • 9篇自动化与计算...
  • 1篇电子电信
  • 1篇语言文字
  • 1篇自然科学总论

主题

  • 7篇翻译
  • 6篇统计机器
  • 6篇词素
  • 4篇统计机器翻译
  • 4篇切分
  • 4篇机器翻译
  • 3篇短语
  • 3篇维吾尔
  • 3篇维吾尔语
  • 2篇切分算法
  • 2篇维语
  • 2篇基于统计
  • 2篇二叉树
  • 2篇翻译研究
  • 1篇电话信道
  • 1篇对齐
  • 1篇多线程
  • 1篇多语
  • 1篇多语言
  • 1篇信道

机构

  • 12篇中国科学院新...
  • 5篇中国科学院新...
  • 4篇中国科学院研...
  • 2篇新疆财经大学
  • 1篇新疆师范大学
  • 1篇中国科学院大...

作者

  • 12篇董兴华
  • 3篇王磊
  • 3篇周俊林
  • 3篇周喜
  • 2篇周俊林
  • 2篇徐春
  • 2篇杨雅婷
  • 2篇李晓
  • 2篇薛化建
  • 2篇陈丽娟
  • 1篇杨勇
  • 1篇蒋同海
  • 1篇郭树盛
  • 1篇王磊
  • 1篇张恒

传媒

  • 4篇计算机工程
  • 3篇计算机工程与...
  • 1篇计算机工程与...
  • 1篇第三届全国少...

年份

  • 2篇2012
  • 6篇2011
  • 4篇2010
12 条 记 录,以下是 1-10
排序方式:
基于短语的汉维(维汉)统计机器翻译研究
描述了利用电话录音的汉维平行语料库构建了一个基于短语的统计机器翻译系统。我们对词级的语料库进行了切分,得到了词素级的语料库,进行了词一级的实验和词素级的实验,实验表明,词素级的实验能得到更好的效果。
董兴华周俊林郭树盛吐尔洪·吾司曼
文献传递
基于子字单元的维吾尔语语音识别研究被引量:5
2011年
为提高维吾尔语语音识别的识别率,在分析维吾尔语特点的基础上,设计一种基于子字单元的维吾尔语语音识别总体结构,指出维吾尔语单词的发音模型,给出构建子字发音字典的方法,及其以子字单元为基础构建语言模型与声学模型的方法。在一个语音库上进行实验,采用一种非监督的词切分方法对维吾尔语单词进行词切分,生成子字。实验结果表明,基于子字单元的维吾尔语语音识别可以获得更好的识别结果。
薛化建董兴华周喜吐尔洪.吾司曼李晓
关键词:维吾尔语隐马尔科夫模型连续语音识别
基于统计的词素切分算法
这篇论文描述了一种基于统计的词素切分算法,算法构建了一种数据结构,在该结构中语料库中的每个词都可以表示为它的词素的二叉树。因为每个词有不同的词素分割,算法选择使整体概率最高的分割,从而找到最优的词素词典和词的分割。我们用...
董兴华杨雅婷陈丽娟周喜吐尔洪·吾司曼
关键词:词素二叉树维语
文献传递
基于统计的词素切分算法
这篇论文描述了一种基于统计的词素切分算法,算法构建了一种数据结构,在该结构中语料库中的每个词都可以表示为它的词素的二叉树。因为每个词有不同的词素分割,算法选择使整体概率最高的分割,从而找到最优的词素词典和词的分割。我们用...
董兴华杨雅婷陈丽娟周喜吐尔洪·吾司曼
关键词:词素二叉树维语
多语言在线机器翻译研究被引量:2
2012年
描述了通过使用外部知识库和基于短语的翻译模型,利用多线程、任务分发的技术实现了一个在线的、高性能的多语言翻译引擎,已初步实现了维汉、哈汉、柯汉三种语言间的翻译。翻译引擎很容易扩展到其他语言对,具有翻译词、短语、句子、文件和网页的功能。
董兴华徐春王磊周喜
关键词:多线程
汉维/维汉统计机器翻译中若干问题研究被引量:6
2011年
针对汉语和维吾尔语形态差别较大的特点,借助开源的Moses工具箱,通过各种翻译模型的对比及相关实验结果的分析,深入探讨了对汉维/维汉翻译有影响的各种因素,包括词对齐问题,汉维翻译中主语、谓语中心词、时态等的一致性问题,维汉翻译中OOV的问题,汉维句法结构差异问题。最后给出了提高汉维/维汉统计翻译性能的一些建议。
徐春杨勇董兴华
关键词:词对齐一致性句法结构
电话信道维吾尔语口语语料库设计与研究被引量:2
2011年
在分析一般语音语料库建设方法的基础上,结合实际语料库需求和地域语言特点,提出了适用于电话信道维吾尔语口语语料库建设的设计规范及语音采集、标注方法,建立了时长300小时的电话信道维吾尔语口语语料库,并就电话信道对线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)、自适应成分加权特征(ACW)倒谱等语音特征参数的影响进行分析研究。
杨雅婷董兴华王磊吐尔洪.吾司曼李晓
关键词:电话信道维吾尔语口语语料库特征参数
基于词缀库的非监督维吾尔语词切分方法被引量:7
2011年
在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。
薛化建董兴华王磊王磊蒋同海
关键词:维吾尔语粘着语最大后验概率
汉维统计机器翻译中的形态学处理被引量:5
2011年
针对汉语和维吾尔语语序差别(前者是主-谓-宾结构,后者是主-宾-谓结构)及形态差别较大的问题,通过编写调序规则将汉语调整为主-宾-谓结构,将维吾尔语单词切分为词干、词缀等更小的词素单元来训练统计模型,同时测试词素的切分粒度对翻译性能的影响。实验结果表明,对汉语句法结构的调整及以词干、词缀等更小的词素形式参与训练可以有效提高翻译质量。
董兴华陈丽娟周喜周俊林吐尔洪.吾司曼
关键词:统计机器翻译词素
基于短语的汉维/维汉统计机器翻译被引量:15
2011年
利用电话录音的汉维平行语料库和开源的Moses系统构建一个基于短语的统计机器翻译系统。针对汉维平行语料库规模较小和维吾尔语形态变化比较丰富的特点,通过对词级的语料库进行切分得到词素级的语料库,并分别进行词一级的实验和词素级的实验。实验表明,词素级的实验能降低无法识别的词的概率,提高翻译的质量。
董兴华周俊林郭树盛吐尔洪.吾司曼
关键词:词素预处理后处理
共2页<12>
聚类工具0