您的位置: 专家智库 > >

国家科技支撑计划(2012BAH14F03)

作品数:12 被引量:51H指数:4
相关作者:史晓东陈毅东苏劲松胡金铭罗凌更多>>
相关机构:厦门大学更多>>
发文基金:国家科技支撑计划国家自然科学基金国家教育部博士点基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 12篇中文期刊文章

领域

  • 12篇自动化与计算...

主题

  • 4篇机器翻译
  • 4篇翻译
  • 3篇统计机器
  • 3篇统计机器翻译
  • 3篇复述
  • 2篇语言
  • 2篇神经网
  • 2篇神经网络
  • 2篇汉语
  • 2篇翻译模型
  • 1篇动画
  • 1篇动画生成
  • 1篇动画自动生成
  • 1篇短语
  • 1篇断句
  • 1篇断句方法
  • 1篇多语
  • 1篇多语言
  • 1篇循环神经网络
  • 1篇语料

机构

  • 12篇厦门大学

作者

  • 11篇史晓东
  • 9篇陈毅东
  • 5篇苏劲松
  • 2篇胡金铭
  • 2篇罗凌
  • 1篇董槐林
  • 1篇郑旭玲
  • 1篇周昌乐
  • 1篇曾华琳
  • 1篇郭瑛媚
  • 1篇苏畅
  • 1篇吴清强
  • 1篇陈怡疆
  • 1篇高燕
  • 1篇徐海波

传媒

  • 4篇北京大学学报...
  • 2篇厦门大学学报...
  • 2篇中文信息学报
  • 1篇软件学报
  • 1篇浙江大学学报...
  • 1篇电脑知识与技...
  • 1篇智能系统学报

年份

  • 1篇2019
  • 1篇2017
  • 1篇2016
  • 4篇2015
  • 3篇2014
  • 2篇2013
12 条 记 录,以下是 1-10
排序方式:
基于树形条件随机场的跨语言时态标注被引量:1
2015年
提出时态树的概念和构造方法,从而将汉英时态转换问题转换为时态树标注的问题.而后,使用树形条件随机场为未标注时态树的结点标注英语时态.提出的特征函数的模板较好地满足了模型推断的需要.实验结果表明:与基于线性条件随机场模型的时态标注方法相比,基于时态树方法的准确率有大幅度的提高,说明使用时态树能够更好地表达子句间时态的依赖关系.
陈怡疆徐海波史晓东苏畅
引入复述技术的统计机器翻译研究综述被引量:6
2013年
基于对引入复述技术的统计机器翻译研究现状的分析,提出具有研究价值的课题方向.首先归纳了复述的概念,总结了引入复述技术的统计机器翻译各类方法.然后对复述知识在统计机器翻译中的模型训练、参数调整、待译语句改写和机器翻译自动评测等方面应用的主流方法进行了概括、比较和分析,说明了复述与统计机器翻译是紧密相关的,强调了复述在统计机器翻译应用中的关键问题是复述的正确性和多样性.最后指出提高复述资源的精确度、建立复述与机器翻译的联合模型、采用新方法解决稀疏问题等是有待进一步研究的课题.
胡金铭史晓东苏劲松陈毅东
关键词:机器翻译统计机器翻译
引入基于主题复述知识的统计机器翻译模型被引量:1
2014年
针对传统的基于双语平行语料的复述获取方法在复述获取和应用的过程中忽视文档上下文的缺点,引入基于主题模型的上下文信息来改善复述获取—主要致力于如何计算上下文无关的复述生成概率和上下文相关的复述生成概率.研究如何将上述2种概率融入统计机器翻译建模,以提高翻译系统的性能.多个测试集上的实验结果证明了该方法的有效性.
苏劲松董槐林陈毅东史晓东吴清强
关键词:统计机器翻译复述主题模型
引入集成学习的最大熵短语调序模型被引量:3
2014年
基于最大熵的括号转录语法模型具有翻译能力强、模型训练简单的优点,成为近些年统计机器翻译研究的热点。然而,该模型存在短语调序实例样本分布不平衡的缺点。针对该问题,该文提出了一种引入集成学习的短语调序模型训练方法。在大规模数据集上的实验结果表明,我们的方法能有效改善调序模型的训练效果,显著提高翻译系统性能。
何钟豪苏劲松史晓东陈毅东黄研洲
关键词:最大熵
基于话题分布相似度的无监督评论词消歧方法被引量:2
2013年
基于话题信息、词的位置关系和互信息等特征,提出一种无监督的跨语言词义消歧算法。该算法仅利用在线词典和web搜索引擎,通过上下文信息选择评论句中多义评论词的词义。实验结果表明,所提出的词义消歧算法具有较高准确率,对于具有较多候选词义的评论词仍能表现出较好的性能。
郭瑛媚史晓东陈毅东高燕
基于增量式自学习策略的多语言翻译模型被引量:6
2019年
针对源语言到目标语言缺乏平行语料的情况,提出了一种基于增量式自学习策略的多语言翻译模型,即利用中介语双语语料训练源语言到目标语言的翻译模型.在Transformer架构下,相比于基于中介语和直接在伪平行语料上训练的普通双语翻译模型,使用该方法在第十四届全国机器翻译研讨会(CWMT 2018)多语言翻译评测数据集上的机器双语互译评估(BLEU)值提升了0.98个百分点.在此基础上,还对比了不同的预处理方法、训练策略以及多模型的平均和集成策略,其中多模型集成策略的BLEU值上可在多模型策略的基础上进一步提升0.53个百分点.
周张萍黄荣城王博立胡金铭史晓东陈毅东
基于复述技术的汉语成语翻译方法研究被引量:3
2015年
汉语成语是汉语的精华,拥有特有的语言形式,并经常出现在汉语中。但是由于汉英统计机器翻译训练语料中成语的稀疏性和现今大多机器翻译系统并没有对成语进行特殊的处理和研究,在汉英机器翻译中成语的翻译并不理想。针对该问题,本文提出了基于复述技术的两种方法来提高汉英统计机器翻译系统中成语翻译的能力。方法1:测试集成语复述替换;方法2:训练集成语复述替换。实验结果表明,方法1可以解决成语未登录词问题,提高成语翻译能力。方法2可以解决训练语料中成语稀疏问题,改善翻译训练模型。
罗凌陈毅东史晓东苏劲松
关键词:统计机器翻译成语翻译复述
基于特征自动选择方法的汉语隐喻计算被引量:1
2016年
汉语隐喻计算是中文信息处理中的棘手难题之一.已有的隐喻识别研究多以人工方式分析和抽取隐喻特征,存在着主观性强、难以扩充的缺点,并且对于专业背景知识要求比较严格.本文基于大规模语料库的机器学习,利用最大熵分类模型,提出了一种最优特征模板自动抽取的隐喻识别算法,讨论了3种不同层次的特征模板,既包含了经典的简单特征,又将跨多个词的远距离上下文信息,以及描述语义信息的词语相似性引入特征模板进行考察.实验结果表明,该算法提高了隐喻识别准确率,是一种对于汉语隐喻计算行之有效的机器学习方法.
曾华琳周昌乐陈毅东史晓东
微博观点句识别的话题影响研究被引量:2
2014年
为了从海量的网络信息中迅速准确地获取评价信息,观点句识别已经成了自然语言处理的一个研究热点。现在观点句识别系统大都是基于机器学习的方法,一般使用机器学习的方法来进行分类会受到领域差异性影响。针对这个问题,该文对微博观点句识别系统是否会受到微博话题影响做了经验性研究,同时为了弥补训练数据的不足,该文通过规则方法自动标注网络数据进行了训练集的扩充。实验结果表明,微博话题间存在差异,进行分话题模型训练可以提升微博观点句识别系统的性能。
罗凌陈毅东曹茂元
语料库语言学视角下的台湾汉字简化研究被引量:2
2015年
采用语料库语言学的研究方法,论证台湾存在汉字简化的现象,并分析台湾汉字简化的特点和影响因素。首先,通过爬取台湾的新闻媒体、政府网站和博客,建立台湾汉语语料库。然后,借助语料库统计数据,论证台湾民间存在对简笔俗字的使用偏好,即台湾存在汉字简化的现象,并进一步分析台湾汉字简化的若干特点。最后,讨论台湾汉字简化的影响因素,包括大陆简体字、汉字编码、中文输入法等。
王博立史晓东陈毅东任文瑶阎思瑶
关键词:语料库语言学汉字汉字简化俗字
共2页<12>
聚类工具0