熊德意
- 作品数:77 被引量:248H指数:8
- 供职机构:苏州大学更多>>
- 发文基金:国家自然科学基金江苏省自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学机械工程更多>>
- 主动学习平行语料构建方法
- 本发明涉及一种主动学习平行语料构建方法,应用于低资源语言神经机器翻译,而且,应用在基于注意力机制且采用encoder‑decoder框架的NMT模型,包括:获取原始平行语料和源端单语;获取所述原始平行语料的embeddi...
- 熊德意张培
- 基于数据扩充的翻译记忆库与神经机器翻译融合方法被引量:6
- 2020年
- 神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标签向量拼接翻译记忆。该文在中英与英德数据集上进行了实验,实验表明,该方法可以使翻译性能获得显著提升。
- 曹骞熊德意
- 关键词:翻译记忆
- 一种统计机器翻译中的翻译方法和装置
- 本申请公开了一种统计机器翻译中的翻译方法和装置,在统计机器翻译的训练阶段,生成包含源端短语语义向量的翻译模型,并在解码阶段,计算待翻译短语的语义向量,然后再计算待翻译短语的语义向量与候选翻译规则源端短语语义向量的相似度,...
- 熊德意唐海庆
- 基于数据增强技术的神经机器翻译被引量:21
- 2018年
- 神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模只有10万平行句对时,相较于基准系统,在两种语言对上均获得了4个BLEU值的提高。实验表明,数据增强技术可以有效地解决神经机器翻译因为训练数据太少而导致的泛化能力不足问题。
- 蔡子龙杨明明熊德意
- 关键词:泛化
- 面向神经机器翻译的长句切分方法及装置
- 本申请提供了一种面向神经机器翻译的长句切分方法,在使用NMT模型进行语句翻译前,并非直接将源语句输入NMT模型中,而是将语句切分为较短的子句,将各个子句依次输入NMT模型,以使NMT模型分别依次翻译各个切分后的子句,然后...
- 熊德意邝少辉
- 面向神经机器翻译的数据缩减方法
- 本发明涉及一种面向神经机器翻译的数据缩减方法,包括:利用完整的初始语料进行第一轮训练;把上一轮平行句对的训练损失选择保留一部分损失最小的训练语料留到下一轮继续训练,其中,下一轮训练语料的大小与上一轮训练语料的大小的比值β...
- 熊德意许雪莹
- 文献传递
- 句对齐研究综述被引量:2
- 2021年
- 神经机器翻译是目前机器翻译领域的主流方法,拥有足够数量的双语平行语料是训练出一个好的翻译模型的前提。双语句对齐技术作为一种从不同语言端单语语料中获取双语平行句对的技术,因此得到广泛的研究。该文首先简单介绍句对齐任务及其相应的评测标准,然后归纳总结前人在句对齐任务上的研究进展,以及句对齐任务的相关信息,并简单概括参加团队所提交的系统,最后对当前工作进行总结并展望未来的工作。
- 黄佳跃熊德意
- 翻译一致性的方法和装置及统计机器翻译方法和系统
- 本发明提供一种评价术语领域翻译一致性的方法,该方法以双语平行语料库的文档‑主题分布信息作为术语翻译的领域信息,构建双语术语库,并计算每个源语言术语的翻译一致性强度来客观地评价在领域内术语翻译的一致性。该方法充分利用领域信...
- 孟凡东熊德意姜文斌刘群
- 文献传递
- 融和丰富语言知识的汉语统计句法分析
- 我们的汉语统计句法分析模型从3个方面融合丰富的语言特征知识:1)利用非递归名词短语界的相对确定性重新标注树库中的名词短语;2)设计新的中心词映射表;3)引进上下文配置框架。这些语言特征知识使模型的性能提高了10%。
- 熊德意刘群
- 文献传递
- 基于子字单元的神经机器翻译未登录词翻译分析被引量:10
- 2018年
- 神经机器翻译为机器翻译提供了一种全新的方法,在多对语言之间的翻译质量上,已超过了统计机器翻译,并逐渐成为当前机器翻译的主流方向。未登录词翻译是神经机器翻译的主要难点之一。为了消解未登录词,一种可行的方案是采用Byte Pair Encoding(BPE)方法。该方法在翻译前将原有的单词拆解为更小粒度的高频子字单元。该文主要探究BPE方法在中英神经机器翻译中的应用,分析BPE方法在多大程度上可以解决中英未登录词翻译缺失的问题。实验表明,与Baseline系统相比,BPE方法获得了1.02BLEU值的提升,对未登录词的翻译精准度达到了45%,与统计机器翻译系统翻译精准度相似。
- 韩冬李军辉熊德意周国栋
- 关键词:未登录词