董瑞
- 作品数:42 被引量:36H指数:4
- 供职机构:中国科学院新疆理化技术研究所更多>>
- 发文基金:国家自然科学基金中国科学院西部之光基金新疆维吾尔自治区重点实验室开放课题基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 基于语种相似性挖掘的神经机器翻译语料库扩充方法
- 2021年
- 针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。
- 李灿杨雅婷马玉鹏马玉鹏
- 关键词:机器翻译
- 基于思维链的动态语义检索方法、装置、设备及介质
- 提供了一种基于思维链的动态语义检索方法,可应用于自然语言处理、检索增强生成和大模型技术领域。该方法包括以下步骤:获取复杂问题、大模型和向量检索库;将复杂问题输入大模型中,利用大模型对复杂问题进行分解,得到回复复杂问题的子...
- 周喜杨奉毅杨雅婷马博董瑞艾比布拉·阿塔伍拉鲁凯文蒋同海
- 基于深度学习的维汉口语机器翻译研究
- 深度神经网络是深度学习技术的代表,是一种模拟人脑的计算模型,已经在人工智能的很多领域取得了突破性的成果。基于神经网络的机器翻译是利用深度神经网络进行源语言到目标语言转换的技术,与传统的统计机器翻译技术有着很大的差别。虽然...
- 孔金英杨雅婷董瑞王磊袁扬李晓
- 关键词:神经网络机器翻译维吾尔语
- 多层级信息增强异构图的篇章级话题分割模型
- 2024年
- 话题分割是自然语言处理领域的基础任务之一,按照话题相关性原则将文本分割为多个话题相关的文本块。针对现有话题分割模型提取句子深层语义信息方面明显不足,并且忽略了篇章中的层次信息和上下文交互等问题,提出了一种多层级信息增强异构图的篇章级话题分割模型MHG-TS。该方法利用篇章中的句子和关键词构建异构图网络,引入BERT预训练语言模型捕获图中节点的深层语义特征,在句子节点一阶邻域层级,利用图注意力机制为语义关联的节点分配更大的边权重,增强了一阶邻域中语义关联节点的信息交互;在关键词节点层级,引入关键词信息加强句子语义特征表示;在句子高阶邻域层级,利用关键词节点作为中介,构建了句子节点高阶邻域中的跨句信息交互,丰富了句子节点之间的非序列关系,最终通过融合多层级信息实现包含全局语义信息的句子表示。相较于当下流行的模型,在多个数据集上,三个评价指标性能平均值分别提高了3.08%、2.56%、5.92%,取得了最佳的实验结果。
- 张洋宁朱静董瑞尤泽顺王震
- 基于回译和集成学习的维汉神经机器翻译方法被引量:4
- 2022年
- 从高效利用现有资源的角度出发,针对维汉平行语料匮乏导致维汉神经机器翻译效果欠佳的问题,提出一个基于回译和集成学习的方法.首先,利用回译和大规模汉语单语语料构造出维汉伪平行语料,并利用伪平行语料进行训练得到中间模型;其次,使用自助采样法对原始平行语料进行N次重采样,得到N个近似同一分布但具有差异性的子数据集;基于N个子数据集分别对中间模型进行微调,得到N个具有差异性的子模型;最后,将这些子模型集成.在CWMT2015和CWMT2017的测试集上的实验证明,该方法比基线系统的BLEU值分别提升了2.37和1.63.
- 冯笑杨雅婷董瑞董瑞马博
- 关键词:回译
- 基于非自回归方法的维汉神经机器翻译
- 2020年
- 现有的基于循环神经网络、卷积神经网络和Transformer的自回归翻译模型,虽然都具有良好的翻译性能,但由于解码并行性较低导致了翻译速度慢的问题,针对这个问题提出一种基于非自回归模型的优化学习率策略的方法。在基于迭代优化的非自回归序列模型的基础上,改变学习率调节方法,即把warm up替换为liner annealing方法。首先评估出liner annealing优于warm up方法,然后将liner annealing应用于非自回归序列模型以得到翻译质量和解码速度的最优平衡,最后将该方法与自回归模型的方法作对比。实验结果表明该方法相较于自回归模型Transformer,当解码速度提升1.74倍时,翻译质量的双语评估替换(BLEU)分数值为41.31,可达到Transformer的95.34%。由此可见,采用liner annealing的非自回归序列模型,在降低少许翻译质量的条件下,能够有效地提升解码速度,适用于对翻译速度需求迫切的平台。
- 朱相荣王磊杨雅婷杨雅婷张俊
- 关键词:维吾尔语机器翻译翻译质量
- 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
- 本发明公开了一种基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质,具体实现方案为:获取训练样本数据集;对所述的样本数据集进行预处理。针对已有的源语言或目标语言语料,分别训练基于Transformer...
- 杨雅婷陈玺董瑞马博王磊周喜
- 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
- 本发明公开了一种基于注意力机制多特征融合的虚信息检测方法、装置、电子设备及存储介质,获取微博和推特数据集,对所述微博和推特数据集中文本和图片进行预处理;将预处理得到的文本数据输入到BERT预训练模型中获取语义信息提取文本...
- 马博地力夏提·阿布都热依木杨雅婷王磊周喜董瑞
- 文献传递
- 面向低资源神经机器翻译的回译方法被引量:2
- 2021年
- 神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据,并通过回译方法分段利用不同的单语数据训练翻译模型,然后借助模型平均和模型集成等方法进一步提升维汉和蒙汉翻译质量.使用第16届全国机器翻译大会(CCMT 2020)的评测数据进行实验,结果表明该方法可以有效地提升维汉和蒙汉翻译的翻译质量.
- 张文博张新路杨雅婷董瑞董瑞
- 关键词:回译
- 一种小样本槽值提取方法、装置、设备及存储介质
- 本发明公开了一种小样本槽值提取方法、装置、设备及存储介质,该方法获取槽值提取数据集,对数据集进行处理,构建小样本槽值提取数据集;利用辅助集上的全部数据,训练基础领域上的槽值提取模型,获得历史信息编码器;将生成的历史信息特...
- 周喜杨奉毅杨雅婷马博董瑞艾比布拉·阿塔伍拉