您的位置: 专家智库 > >

国家自然科学基金(61370130)

作品数:18 被引量:51H指数:4
相关作者:徐金安张玉洁陈钰枫郭振苏晨更多>>
相关机构:北京交通大学创新工场广东外语外贸大学更多>>
发文基金:国家自然科学基金国际科技合作与交流专项项目中央高校基本科研业务费专项资金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 18篇期刊文章
  • 3篇学位论文

领域

  • 20篇自动化与计算...
  • 2篇文化科学

主题

  • 9篇翻译
  • 6篇复述
  • 5篇机器翻译
  • 4篇分词
  • 3篇知识
  • 3篇中文
  • 3篇中文分词
  • 3篇自适
  • 3篇自适应
  • 3篇领域自适应
  • 2篇短语
  • 2篇短语翻译
  • 2篇对齐
  • 2篇多任务
  • 2篇多任务学习
  • 2篇知识库
  • 2篇神经网
  • 2篇神经网络
  • 2篇统计机器
  • 2篇统计模型

机构

  • 21篇北京交通大学
  • 1篇广东外语外贸...
  • 1篇创新工场
  • 1篇联想研究院

作者

  • 16篇徐金安
  • 15篇张玉洁
  • 9篇陈钰枫
  • 2篇王志海
  • 2篇苏晨
  • 2篇赵紫玉
  • 2篇郭振
  • 1篇杨晓晖
  • 1篇原继东
  • 1篇刘海洋
  • 1篇黄丹
  • 1篇单华
  • 1篇马军

传媒

  • 7篇北京大学学报...
  • 4篇中文信息学报
  • 2篇情报工程
  • 1篇计算机应用
  • 1篇计算机工程与...
  • 1篇计算机科学
  • 1篇山东大学学报...
  • 1篇中国科学:信...

年份

  • 1篇2023
  • 1篇2022
  • 1篇2021
  • 4篇2020
  • 3篇2019
  • 1篇2017
  • 1篇2016
  • 4篇2015
  • 4篇2014
  • 1篇2013
18 条 记 录,以下是 1-10
排序方式:
使用源语言复述知识改善统计机器翻译性能被引量:4
2015年
为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下,此框架不仅可以增大短语翻译表对源语言现象的覆盖率,也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明,在训练语料规模最小的情况下(10 K句对),系统性能有明显提升(BLEU+1.4%);在训练语料规模最大的情况下(1 M句对),系统性能也取得一定提升(BLEU+0.32%)。
苏晨张玉洁郭振徐金安
关键词:解码器
融合格框架的基于语块的依存树到串日汉统计机器翻译模型被引量:1
2014年
该文提出了一种融合格框架的日汉基于语块的依存树到串统计机器翻译模型。其基本思想是从日语依存分析树获取格框架,在翻译模型的规则抽取及解码中,以日语格框架作为约束条件,指导依存树的句法结构重排,调整日语和汉语的句法结构差异,实现格框架与日汉依存树到串模型的融合。实验结果表明,该文提出的方法可有效改善日汉统计机器翻译的句法结构调序和词汇翻译,同时,还可有效提高日汉统计机器翻译的译文质量。
吴培昊徐金安谢军张玉洁
关键词:句法结构
融合知识的领域自适应方法综述
2023年
训练基于数据驱动的模型时,常假设源域和目标域的数据分布相同,但是,在实际场景中,这一假设通常不成立,因此容易造成模型的泛化能力较差的问题。为提高模型的泛化能力,领域自适应方法应运而生,其通过学习源域和目标域的数据特征来对齐两域数据分布,使得在源域数据上训练好的模型在有少量数据标签或者没有数据标签的目标域上也具有较好表现。为了进一步提高模型的泛化能力,现有研究探索将知识融入领域自适应方法中,该技术具有较高的实用价值。文中首先概述了融合知识的领域自适应方法的发展背景和相关综述的研究现状;其次对领域自适应的问题定义和理论基础进行了介绍;然后给出了一种融合知识的领域自适应方法的分类体系,并对其中的一些代表性方法进行了概述;最后,通过对该领域挑战性问题的分析,预测了融合知识的领域自适应方法未来的研究方向,以期为相关的研究提供一定的参考。
崔福伟吴璇璇陈钰枫刘健徐金安
关键词:泛化能力领域自适应
基于多翻译引擎的汉语复述平行语料构建方法被引量:3
2020年
复述指同一语言内相同意思的不同表达,复述生成指同一种语言内意思相同的不同表达之间的转换,是改进信息检索、机器翻译、自动问答等自然语言处理任务不可或缺的基础技术。目前,复述生成模型性能都依赖于大量平行的复述语料,而很多语言并没有可用的复述资源,使得复述生成任务的研究无法开展。针对复述语料十分匮乏的问题,我们以汉语为研究对象,提出基于多翻译引擎的复述平行语料构建方法,将英语复述平行语料迁移到汉语,构建大规模高质量汉语复述平行语料,同时构建有多个参考复述的汉语复述评测数据集,为汉语复述生成的研究提供一定的基础数据。基于构建的汉语复述语料,我们进一步对汉语复述现象进行总结和归纳,并进行复述生成研究。我们构建基于神经网络编码-解码框架的汉语复述生成模型,采用注意力机制、复制机制和覆盖机制解决汉语复述生成中的未登录词和重复生成问题。为了缓解复述语料不足导致的神经网络复述生成模型性能不高的问题,我们引入多任务学习框架,设计联合自编码任务的汉语复述生成模型,通过联合学习自编码任务来增强复述生成编码器语义表示学习能力,提高复述生成质量。我们利用联合自编码任务的复述生成模型进行汉语复述生成实验,在评测指标ROUGE-1、ROUGE-2、BLEU、METEOR上以及生成汉语复述实例分析上均取得了较好性能。实验结果表明所构建的汉语复述平行语料可以有效训练复述生成模型,生成高质量的汉语复述句。同时,联合自编码的汉语复述生成模型,可以进一步改进汉语复述生成的质量。
王雅松刘明童马彬彬张玉洁徐金安陈钰枫
关键词:多任务学习
基于语义概念的神经机器翻译方法研究
机器翻译是利用计算机将一种语言转换为另一种语言的过程,是自然语言处理研究领域的核心任务之一,有非常重要的科学理论研究价值。神经机器翻译(Neural Machine Translation,NMT)因其性能优越已经成为主...
刘方旭
关键词:语义概念相似度计算
基于稀疏矩阵面向论文索引排名的启发式算法被引量:1
2015年
为了提高学术论文检索的精准性,进而为学术研究提供便利,提出了针对学术论文检索问题的排名策略。首先,介绍了基于网页排名算法面向论文索引排名的启发式方法,其中利用Hash索引技术有效地减少了稀疏矩阵计算对内存的消耗;其次,定义了论文间引用关系图的密集度均衡值,并通过大量实验阐明了不同排名算法的迭代次数与图密集度均衡值之间的关系;最后,将所提出的基于论文索引排名的启发式算法应用于科学引文索引(SCI)数据库中,并与原被引频次降序的排序结果进行比较与分析。实验结果表明:在三种基于网页排名技术的算法中,基于链接结构分析的随机过程算法比较适合于按关键词搜索得到的相关领域学术论文的排名。
万晓松王志海原继东
关键词:SCI数据库
规则与统计相结合的日语时间表达式识别被引量:3
2013年
该文提出了一种基于自定义知识库强化获取规则集,以及规则与统计模型相结合的日语时间表达式识别方法。在按照Timex2标准对时间表达进行细化分类的基础上,我们结合日语时间词的特点,渐进地扩展重构日语时间表达式知识库,实现基于知识库获取的规则集的优化更新,旨在不断提高时间表达式的识别精准度。同时,融合CRF统计模型提高日语时间表达式识别的泛化能力。实验结果显示开放测试F1值达0.898 7。
赵紫玉徐金安张玉洁刘江鸣
关键词:知识库规则集统计模型
融合门控机制的远程监督关系抽取方法被引量:3
2020年
提出一种融合门控机制的远程监督关系抽取方法。首先在词级别上自动选择正相关特征,过滤与关系标签无关的词级别噪声;然后在门控机制内引入软标签的思想,弱化硬标签对噪声过滤的影响;最后结合句子级别的噪声过滤,提升模型的整体性能。在公开数据集上的实验结果表明,相对于句子级别噪声过滤方法,所提方法的性能有显著提高。
李兴亚陈钰枫徐金安张玉洁
关键词:关系抽取卷积神经网络
基于句法结构的神经网络复述识别模型被引量:3
2020年
为解决已有复述语义计算方法未考虑句法结构的问题,提出基于句法结构的神经网络复述识别模型,设计基于树结构的神经网络模型进行语义组合计算,使得语义表示从词语级扩展到短语级。进一步地,提出基于短语级语义表示的句法树对齐机制,利用跨句子注意力机制提取特征。最后,设计自注意力机制来增强语义表示,从而捕获全局上下文信息。在公开英语复述识别数据集Quora上进行评测,实验结果显示,复述识别性能得到改进,达到89.3%的精度,证明了提出的基于句法结构的语义组合计算方法以及基于短语级语义表示的跨句子注意力机制和自注意力机制在改进复述识别性能方面的有效性。
刘明童张玉洁徐金安陈钰枫
关键词:句法结构
联合自编码任务的多机制融合复述生成模型
2020年
基于神经网络编码–解码框架的复述生成模型存在两方面的问题:1)生成的复述句中存在实体词不准确、未登录词和词汇重复生成;2)复述平行语料的有限规模限制了编码器的语义学习能力。针对第一个问题,本文提出在解码过程中融合注意力机制、复制机制和覆盖机制的多机制复述生成模型,利用复制机制从原句复制词语来解决实体词和未登录词生成问题;利用覆盖机制建模学习注意力机制的历史决策信息来规避词汇重复生成。针对第二个问题,基于多任务学习框架,提出在复述生成任务中联合自编码任务,两个任务共享一个编码器,同时利用平行复述语料和原句子数据,共同增强复述生成编码器的语义学习能力。在Quora复述数据集上的实验结果表明,提出的联合自编码的多机制融合复述生成模型有效地解决了复述生成的问题,并提高了复述句的生成质量。
刘明童张玉洁张姝孟遥徐金安陈钰枫
关键词:多任务学习
共3页<123>
聚类工具0