贡正仙
- 作品数:51 被引量:127H指数:7
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏省高技术研究计划项目江苏省教育厅自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字更多>>
- 融合目标端上下文的篇章神经机器翻译
- 2024年
- 神经机器翻译在句子级翻译任务上取得了令人瞩目的效果,但是句子级翻译的译文会存在一致性、指代等篇章问题,篇章翻译通过利用上下文信息来解决上述问题。不同于以往使用源端上下文建模的方法,该文提出了融合目标端上下文信息的篇章神经机器翻译。具体地,该文借助推敲网络的思想,对篇章源端进行二次翻译,第一次基于句子级翻译,第二次翻译参考了全篇的第一次翻译结果。基于LDC中英篇章数据集和WMT英德篇章数据集的实验结果表明,在引入较少的参数的条件下,该文方法能显著提高翻译性能。同时,随着第一次翻译(即句子级译文)质量的提升,所提方法也更有效。
- 贾爱鑫李军辉贡正仙张民
- 关键词:篇章翻译
- 融合指代消解的神经机器翻译研究
- 2024年
- 篇章中的同一实体经常会呈现出不同的表述,形成一系列复杂的指代关系,这给篇章翻译带来了很大的挑战。该文重点探索指代消解和篇章神经机器翻译的融合方案,首先为指代链设计相应的指代表征;其次使用软约束和硬约束两种方法在翻译系统中实现指代信息的融合。该文建议的方法分别在英语-德语和中文-英语语言对上进行了实验,实验结果表明,相比于同期最好的句子级翻译系统,该方法能使翻译性能获得明显提升。此外,在英语-德语的代词翻译质量的专门评估中,准确率也有显著提升。
- 冯勤贡正仙李军辉周国栋
- 一种分类器训练方法、分类器和情感分类系统
- 本申请提供一种分类器训练方法、分类器和情感分类系统,上述方法包括:获取主题集合中至少一个主题的已标注的评论文本,作为训练样本;获取主题集合中至少一个主题的未标注的评论文本,作为未标注样本;采用标签传播算法预测所述未标注样...
- 李寿山张栋周国栋贡正仙
- 文献传递
- 基于擦除和生成式模型的情感可解释性分析
- 2024年
- 情感可解释性分析是近年来比较新颖的研究方向,其目标是在预测文本的情感极性的同时给出决定情感极性的证据片段。该文在仅有情感分类任务数据集的基础上,提出了基于擦除的情感可解释性片段抽取方法,通过被擦除单词对情感极性逻辑判断的波动影响来决定证据的抽取。随后,利用擦除的方法使用模型对公开情感分析数据集中的部分数据进行片段抽取并人工过滤得到有监督数据,再使用T5序列生成式模型进行有监督训练,从而进一步提升证据抽取的性能。最终在“百度2022语言与智能技术竞赛:情感可解释评测”中获得第三名的成绩。
- 陈世男葛东来沈力行徐东钦贡正仙
- 基于交叉层级注意机制的篇章神经机器翻译方法及系统
- 本发明公开一种基于交叉层级注意机制的篇章神经机器翻译方法,包括:将未处理的语料生成包含文档结构信息的训练语料;使用训练语料训练基础结构的篇章神经机器翻译模型;利用翻译模型获取具有句子边界信息的源端文档句向量集合;将句向量...
- 李军辉陈林卿贡正仙周国栋
- 增强依存结构表达的零样本跨语言事件论元角色分类
- 2024年
- 事件论元角色分类是事件抽取中的子任务,旨在为事件中的候选论元分配相应的角色。事件语料标注规则复杂、人力耗费大,在很多语言中缺少相关标注文本。零样本跨语言事件论元角色分类可以利用源语言的丰富语料建立模型,然后直接应用于标注语料匮乏的目标语言端。围绕不同语言的事件文本在依存结构上的表达共性,提出了使用BiGRU网络模块对触发词到候选论元的依存路径信息进行额外编码的方法。本文设计的编码模块能灵活地与当前主流的基于深度学习框架的事件论元角色分类模型相联合。实验结果表明,本文提出的方法能更有效地完成跨语言迁移,提高多个基准模型的分类性能。
- 张远洋贡正仙孔芳
- 融合篇章上下文有效识别的篇章级机器翻译被引量:1
- 2021年
- 篇章翻译是近来兴起的研究热点,如何在翻译文档时充分利用篇章信息一直是该研究的关键点和难点.在篇章级机器翻译中,如何选取当前句的篇章上下文是非常关键的.虽然相关研究使用的篇章上下文不尽相同,但是却少有在选取之前对上下文信息进行识别筛选.本文提出了一种融合篇章上下文有效识别的篇章级翻译模型,引入判别篇章上下文是否有效的分类任务,并根据判别结果来控制目标端对篇章上下文的利用.在中英、英德翻译任务上,与基准系统相比,本模型的翻译性能都得到了显著的提升.
- 汪浩贡正仙李军辉
- 关键词:篇章翻译
- 一种简单的神经机器翻译的动态数据扩充方法被引量:2
- 2021年
- 反向翻译作为一种用于神经机器翻译的数据扩充方法,被广泛应用于单语数据的训练.然而,这些方法通常需要大规模源端或目标端单语数据、双语词典等.基于此,提出了一种在不引入外部资源情况下的简单数据扩充方法.该方法在每次加载目标端句子时,按照一定策略对句子中单词进行随机噪声化,以实现原始平行数据目标端的动态数据扩充,从而提高目标端语言模型对句子的表达能力.不同于需要大量单语数据的反向翻译,该方法只使用平行语料.这一策略意味着不需要训练额外的逆向模型.在英德和中英翻译任务上的实验结果表明,该方法使标准Transformer系统的双语互译评估(BLEU)值分别提高了0.69和0.66个百分点.
- 刘志东李军辉贡正仙
- 利用Package & Development向导制作高级安装程序被引量:1
- 2003年
- 贡正仙
- 关键词:VB语言程序设计WINDOWS应用程序
- 基于网格的Web信息抽取技术的研究与实现
- Web文档往往用各种复杂的HTML标记来包装内部数据,但这种方式给应用系统直接使用Web文档中的数据带来了困难。Web信息抽取是处理海量数据且需要各种复杂算法支持的一种技术,因此它在一般平台上的工作效率不是很好。网格能为...
- 贡正仙
- 关键词:WEB信息抽取噪声处理网格应用GT4
- 文献传递