国家自然科学基金(61070099)
- 作品数:7 被引量:43H指数:4
- 相关作者:李淼张健曾伟辉陈雷朱泽德更多>>
- 相关机构:中国科学院中国科学技术大学内蒙古大学更多>>
- 发文基金:国家自然科学基金国家科技支撑计划模式识别国家重点实验室开放课题基金更多>>
- 相关领域:自动化与计算机技术更多>>
- CRF和词典相结合的蒙古文地名识别研究被引量:4
- 2016年
- 蒙古语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究。首次实现了基于条件随机场模型的蒙古文地名识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙古语语料库中地名的特点,在词汇特征、指示词特征、特征词特征等特征基础上引入了词性特征。之后通过地名词典补召了未识别的地名。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的地名识别性能达到了94.68%的准确率、84.40%的召回率和89.24%的F值。
- 吴金星丽丽杨振新
- 关键词:CRF词典
- 基于CRF的蒙古文人名自动识别研究被引量:3
- 2016年
- 以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和指示词特征等基本特征基础上引入了汉语姓氏特征、人名词典特征、兼类人名特征以及双词根特征。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的人名识别性能达到了94.56%的准确率,90.60%的召回率和92.54%的F值。该方法比起以往的基于规则的系统取得了较好的结果。
- 吴金星那顺乌日图杨振新
- 关键词:条件随机场
- 有限语料汉蒙统计机器翻译调序方法研究被引量:2
- 2013年
- 自统计机器翻译技术出现以来,调序一直是语序差异显著的语言对互译系统中的关键问题,基于大规模语料训练的调序方法得到了广泛研究。目前汉蒙双语语料资源十分有限,使得现有的依赖于大规模语料和语言学知识的调序方法难以取得良好效果。该文对已有的相关研究进行了分析,提出了在有限语料条件下的汉蒙统计机器翻译调序方法。该方法依据语言学知识获取对译文语序影响显著的短语类型,研究这些短语类型的调序方案,并融入已有的调序模型实现调序的优化。实验表明该方法在有限语料条件下的效果提升显著。
- 陈雷李淼张健曾伟辉
- 关键词:统计机器翻译动词短语
- 结合局部歧义词网格与条件随机场的双层分词法被引量:2
- 2013年
- 本文提出了一种结合局部歧义词网格与条件随机场的双层中文分词模型。首先在底层使用局部歧义词网格对文本进行粗切分,并将切分结果作为一项特征提供给高层的条件随机场模型;然后使用条件随机场模型对文本进行标注分词。局部歧义词网格方法能够检测分词过程中产生的歧义问题,条件随机场模型能够平衡对待词表词和未登录词。两种方法的结合能够较好地解决分词中的分词歧义和未登录词问题。本文在国际ee文分词评测活动Bakeoff2005提供的PKU和MSRA语料上对该双层分词模型进行了系统封闭测试,并进行了四字位标注集与六字位标注集的对比。实验结果的最佳F值分别达到了95.1%和97.1%,优于单独使用条件随机场的分词效果。此外,开放测试的实验结果表明该模型也具有一定的实际意义。
- 陈雷李淼张健曾伟辉
- 关键词:条件随机场分词
- 统计机器翻译中的源语言重排序方法研究
- 为了更好地解决统计机器翻译中的调序问题,本文提出了基于句法信息、词性标注信息和规则相结合的源语言重排序模型作为统计机器翻译的预处理模块。该模型分为两种,一种是基于依存信息、词性标注信息和规则相结合的模型,另一种是基于短语...
- 梁芳丽李淼李文陈雷乌达巴拉
- 关键词:统计机器翻译
- 文献传递
- 一种基于LDA模型的关键词抽取方法被引量:15
- 2015年
- 为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。
- 朱泽德李淼张健曾伟辉曾新华
- 关键词:信息抽取关键词抽取LDA模型
- 基于短语统计机器翻译模型蒙古文形态切分被引量:4
- 2011年
- 该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示:基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。
- 李文李淼梁青朱海应玉龙乌达巴拉
- 关键词:形态学机器翻译统计模型
- 基于文本密度模型的Web正文抽取被引量:13
- 2013年
- 为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容.该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练.实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型.
- 朱泽德李淼张健陈雷曾新华
- 关键词:WEB挖掘正文抽取高斯平滑