淑琴 作品数:9 被引量:23 H指数:3 供职机构: 内蒙古大学图书馆 更多>> 发文基金: 国家自然科学基金 国家社会科学基金 国家高技术研究发展计划 更多>> 相关领域: 语言文字 自动化与计算机技术 更多>>
蒙古语构形附加成分重叠使用特征及其模型 词法形态分析是蒙古文信息处理诸多应用系统的一个不可或缺的模块。传统蒙古语语法学在这方面取得了一定的成果。然而,面向计算机的语言知识颗粒度极细、颗粒数量极大,在本质上不同于面向人的语言知识。本文根据“100万”语料查询统计... 淑琴 艳花关键词:蒙古语 《蒙古语语法信息词典构形附加成分分库》的设计与实现 《蒙古语语法信息词典》是面向计算机的,为实现自动分析和自动生成蒙古语语句而研制的一部电子词典,是蒙古文信息处理领域重要基础工程之一。《蒙古语语法信息词典构形附加成分分库》是根据蒙古语自身语法特点和规律的最具特色的成果。研... 淑琴关键词:蒙古语语法信息词典 文献传递 蒙古文信息熵和拉丁转写研究 本文主要是对26万多词的蒙古文拉丁转写语料中的蒙古文名义字符进行信息熵的计算,并给出蒙古文名义字符的信息熵和蒙古文语料中使用拉丁转写存在的问题。 那日松 淑琴关键词:蒙古文 信息熵 面向信息处理的蒙古语规范化研究 被引量:7 2007年 语言文字规范化、标准化研究,尤其是面向信息处理的蒙古语言文字规范化、标准化研究是社会对语言学提出的迫切要求,也是每一个语言文字工作者所面临的亟待解决的重大问题。蒙古文信息处理工作在制定各种规范、标准方面非常滞后,这不仅直接影响目前正在进行的很多工作,而且对将来进行更高、更深层次的研究和开发必将带来诸多困难。从蒙古文信息处理目前的情况看,研制出一套面向信息处理的、具有较强通用性的蒙古语词语分类及标注规范是当务之急。 那顺乌日图 淑琴关键词:语言信息处理 蒙古语 “蒙古文同音同形同类词”知识库的构建 被引量:2 2010年 "同音同形同类词"是蒙古文词汇的重要组成部分。据统计,"蒙古文同音同形同类词"在静态环境中占词典词条总数的5.1%,动态环境中占语料总词数的11.6%。"蒙古文同音同形同类词"知识库包括"同音同形同类词信息词典"及其管理维护工具、人工识别与标注"同音同形同类词"的"100万词级现代蒙古语文数据库"、"同音同形同类词"的搭配库、共现库、类语库、共现成分的统计工具、"同音同形同类词"的自动识别与标注工具等。本文基于共现库在测试集中自动识别标注了"同音同形同类词",其识别标注召回率为99.8%,准确率为81.7%。 淑琴 那顺乌日图关键词:蒙古文 知识库 基于CRF模型的蒙古文分词及词性标注的研究 被引量:3 2016年 为了探讨蒙古文自动词切分及词性标注的问题,可以首先对20万词级蒙古文语料的词切分和词性标注情况进行统计和分析,并对其切分和标注错误进行二次修正,然后再采用条件随机场模型(CRF),进行自动"分词"、"词性标注"、分词及词性标注"统一实现"的研究。开放测试的结果表明,蒙古文自动分词准确率在98%以上,蒙古文分词和词性标注"统一实现"实验结果的准确率比分词和词性标注"两步走"实验结果的准确率高出3.55%,"统一实现"实验在考虑"上下文"和特征"连写的附加成分"后所得准确率可以达到93.38%,这在一定程度上解决了蒙古文分词及词性标注问题。 那日松 淑琴 齐力格尔关键词:条件随机场 蒙古文词性标注研究 2015年 笔者基于条件随机场(Conditional Random Field,CRF)和支持向量机(Support Vector Machine,SVM)模型,通过增加上下文、附加成分和蒙古文字母等特征,对蒙古文句长为8到25的将近4万个句子进行了词性标注的研究。研究表明,CRF模型和SVM模型在标注蒙古文词性方面都有比较好的结果,其中在考虑上下文和特征"连写的构形附加成分"的情况下,SVM模型标注蒙古文词性的准确率可以达到99%以上。 那日松 淑琴关键词:蒙古文 词性标注 CRF模型 SVM模型 面向EBMT系统的汉蒙双语语料库的构建 被引量:5 2006年 汉蒙对照双语语料库是建设综合型语言知识库的有机组成部分,又是基于实例的机器翻译系统的基础。因为双语语料库中包含两种语言互译信息特征,能够提供两种语言之间丰富的匹配信息,所以不仅在翻译知识的获取、双语词典的编纂、基于语料库的词义消歧等方面起到关键作用,而且在跨语言文献检索、跨语言信息提取、语言教学、双语对比研究等领域都有着广泛的应用前景。作为语言信息处理所需要的语言资源,并行语料库必须有一套统一的标准和规范才能实现资源共享。早日制定蒙古语语料库切分、标注规范对后续工作意义重大。同时实现不同层次的对齐是双语语料库建设的一项重要内容。 淑琴 那顺乌日图关键词:词语对齐 蒙古文同形词知识库的构建 据统计,蒙古文同形词在静态环境中占词典词条总数的18%,动态环境中占语料总词数的55%。全面、系统、形式化地研究同形词,不仅对蒙古语文教学、词典编纂有重要意义,而且对语料的读音识别、词法分析、词性标注、语义标注意义也是重... 淑琴关键词:蒙古文 同形词 知识库 语言资源 文献传递