国家科技支撑计划(2009BAH41B06)
- 作品数:2 被引量:17H指数:2
- 相关作者:李淼张健朱泽德陈雷曾新华更多>>
- 相关机构:中国科学技术大学中国科学院更多>>
- 发文基金:国家自然科学基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于短语统计机器翻译模型蒙古文形态切分被引量:4
- 2011年
- 该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示:基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。
- 李文李淼梁青朱海应玉龙乌达巴拉
- 关键词:形态学机器翻译统计模型
- 统计机器翻译中的源语言重排序方法研究
- 为了更好地解决统计机器翻译中的调序问题,本文提出了基于句法信息、词性标注信息和规则相结合的源语言重排序模型作为统计机器翻译的预处理模块。该模型分为两种,一种是基于依存信息、词性标注信息和规则相结合的模型,另一种是基于短语...
- 梁芳丽李淼李文陈雷乌达巴拉
- 关键词:统计机器翻译
- 文献传递
- 基于文本密度模型的Web正文抽取被引量:13
- 2013年
- 为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容.该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练.实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型.
- 朱泽德李淼张健陈雷曾新华
- 关键词:WEB挖掘正文抽取高斯平滑