您的位置: 专家智库 > >

肖桐

作品数:14 被引量:55H指数:5
供职机构:教育部更多>>
发文基金:国家自然科学基金中央高校基本科研业务费专项资金辽宁省自然科学基金更多>>
相关领域:自动化与计算机技术语言文字文化科学更多>>

文献类型

  • 9篇期刊文章
  • 5篇会议论文

领域

  • 13篇自动化与计算...
  • 2篇语言文字
  • 1篇文化科学

主题

  • 8篇机器翻译
  • 8篇翻译
  • 7篇统计机器
  • 7篇统计机器翻译
  • 2篇对齐
  • 2篇人名消歧
  • 2篇系统整合
  • 2篇消歧
  • 2篇覆盖度
  • 2篇BOOTST...
  • 2篇词对齐
  • 1篇短语
  • 1篇语料
  • 1篇语言处理
  • 1篇中间语言
  • 1篇人名
  • 1篇人名识别
  • 1篇社会媒体
  • 1篇视域
  • 1篇特岗教师

机构

  • 13篇东北大学
  • 5篇教育部
  • 1篇辽宁大学
  • 1篇中国中文信息...

作者

  • 14篇肖桐
  • 10篇朱靖波
  • 3篇王会珍
  • 2篇陈如山
  • 2篇李天宁
  • 2篇郑妍
  • 2篇李强
  • 1篇朱慕华
  • 1篇胡明涵
  • 1篇姚树杰
  • 1篇邬志辉
  • 1篇栾爽
  • 1篇陈麒
  • 1篇马骥
  • 1篇时迎超

传媒

  • 5篇中文信息学报
  • 2篇计算机学报
  • 1篇教育理论与实...
  • 1篇人工智能
  • 1篇第四届全国学...

年份

  • 2篇2018
  • 1篇2017
  • 1篇2016
  • 1篇2014
  • 1篇2012
  • 2篇2011
  • 3篇2010
  • 1篇2009
  • 2篇2008
14 条 记 录,以下是 1-10
排序方式:
基于Bootstrapping的领域多词串自动获取
在构建领域知识库过程中,领域多词串比词携带了更多的语义信息,对于文本的主题分析和文本的内容分析明显的效果。本文首先利用C-Value方法从大规模无标注的真实语料中获取大量的多词串,然后采用Bootstrapping的机器...
郑妍肖桐朱靖波
关键词:文字处理
文献传递
面向人名消歧任务的人名识别系统被引量:4
2011年
CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档。所以对于这个任务,首要问题是判定查询词是否是人名,是完整人名还是人名的一部分。为此该文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的人名,特别是查询词所涉及的人名的识别。在CLP2010的评测方给的训练集上的实验表明,查询词涉及的人名的识别正确率达到98.89%。
时迎超王会珍肖桐胡明涵
关键词:人名识别人名消歧系统整合启发式规则
基于句对质量和覆盖度的统计机器翻译训练语料选取
本文研究的目的是在待翻译文本未知的情况下,从已有的大规模平行语料中选取一个高质量的子集作为统计机器翻译系统的训练语料,以降低训练和解码代价。本文综合覆盖度和句对翻译质量两方面因素,提出一种从已有平行语料中获取高质量小规模...
姚树杰肖桐朱靖波
关键词:覆盖度统计机器翻译
文献传递
基于Bootstrapping的领域多词串自动获取
在构建领域知识库过程中,领域多词串比词携带了更多的语义信息,对于文本的主题分析和文本的内容分析明显的效果。本文首先利用C-Value方法从大规模无标注的真实语料中获取大量的多词串,然后采用Bootstrapping的机器...
郑妍肖桐朱靖波
关键词:领域知识BOOTSTRAPPINGC-VALUE
文献传递
深度学习时代下的机器翻译被引量:3
2018年
利用机器翻译打破现今语言交流的隔阂一直是机器学习领域的重要课题。机器翻译的研究历经基于语法规则、实例数据、统计方法的机器翻译时代,发展到现在,成为利用以编码解码为基本框架而设计的、利用神经网络对翻译过程建模的神经机器翻译。编码解码结构设计的诞生,不仅缓解了神经机器翻译的网络框架选择问题,还使翻译过程无需依赖隐藏结构.
肖桐李垠桥陈麒陈麒
关键词:机器翻译翻译问题
稀缺资源机器翻译中改进的语料级和短语级中间语言方法研究被引量:8
2017年
该文以英语作为中间语言的方式对在没有直接的外国语至汉语平行训练数据条件下构建统计机器翻译系统的问题进行研究.文中将基于中间语言的机器翻译方法分为系统级、语料级以及短语级中间语3种方法.在文中提出的改进的语料级中间语方法中,通过扩大生成训练数据的规模以及优化词对齐质量的方式来提高翻译系统的翻译性能.在传统的短语级中间语方法中,由于存在无法进行融合的中间语短语从而导致很多高质量短语对无法生成的问题,该文提出的改进方法通过解码生成的方式来扩大短语翻译表,继而提高翻译质量.该文系统地比较了3种中间语方法的优缺点,通过人工分析发现,任何一种方法无法在所有的翻译任务上取得最佳的翻译性能,故文中提出了语料级-短语级融合的中间语方法,该方法在所有翻译任务上取得了最优的翻译性能.最终,文中成功构建了孟加拉语、泰米尔语、乌兹别克语、匈牙利语至汉语的机器翻译系统.与基线系统相比,文中提出的方法在4种外国语的测试集上获得了0.8至2.8个BLEU点的上涨.
李强王强肖桐朱靖波
关键词:统计机器翻译中间语言
面向统计机器翻译的重对齐方法研究被引量:5
2010年
词对齐是统计机器翻译中的重要技术之一。该文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,该文提出的方法还可以利用大规模单语语料来强化对齐结果。实验结果表明,相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,该文提出的方法可以使统计机器翻译系统得到更高的翻译准确率。
肖桐李天宁陈如山朱靖波王会珍
关键词:人工智能机器翻译统计机器翻译词对齐
基于多阶段的中文人名消歧聚类技术的研究
人名消歧任务被很多的研究者看作为一个聚类任务,任务是将指向实际生活中同一个人的文档聚为同一个类。本文针对人名消歧任务提出一种新的文档聚类策略,该策略采用多阶段的聚类方式来对多个文档进行聚类,并对各种特征在每个阶段中对系统...
丁海波肖桐朱靖波
关键词:人名消歧聚类算法
文献传递
统计机器翻译删词问题研究被引量:2
2014年
该文对基于短语的统计机器翻译模型的删词问题进行研究与分析,使用人工评价的方式将删词错误分为3类。该文通过两种方法,即基于频次的方法和基于词性标注的方法,对源语言句子中关键词汇进行识别。通过对传统的短语对抽取算法中引入源语言对空关键词汇的约束来缓解删词错误问题。自动评价方法以及人工评价方法证明,该方法在汉英翻译任务以及英汉翻译任务中显著的缓解了删词错误问题,同时得到一个精简的短语翻译表。
李强何燕龙栾爽肖桐朱靖波
关键词:统计机器翻译
基于句对质量和覆盖度的统计机器翻译训练语料选取被引量:12
2011年
该文研究的目的是在待翻译文本未知的情况下,从已有的大规模平行语料中选取一个高质量的子集作为统计机器翻译系统的训练语料,以降低训练和解码代价。该文综合覆盖度和句对翻译质量两方面因素,提出一种从已有平行语料中获取高质量小规模训练子集的方法。在CWMT2008汉英翻译任务上的实验结果表明,利用本文的方法能够从现有大规模语料中选取高质量的子集,在减少80%训练语料的情况下达到与Baseline系统(使用全部训练语料)相当的翻译性能(BLEU值)。
姚树杰肖桐朱靖波
关键词:覆盖度统计机器翻译
共2页<12>
聚类工具0