国家自然科学基金(71163029)
- 作品数:6 被引量:21H指数:3
- 相关作者:鲍玉来白淑霞阿拉坦仓索娅张晖更多>>
- 相关机构:内蒙古大学呼和浩特民族学院吉林大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:文化科学自动化与计算机技术语言文字更多>>
- 蒙古文信息检索系统的设计与研究
- 2017年
- 文章结合蒙古文的独特性,研究蒙古文信息检索系统。首先搭建一个用于评价检索性能的蒙古文文档测试集,建立一套蒙古文信息检索系统。实验对比分析检索模型、平滑算法、蒙古文停用词表、词干还原和伪相关反馈等技术对蒙古文信息检索系统关键技术对检索性能的影响。实验结果表明,蒙古文信息检索系统选择结构化语言模型、Dirichlet平滑方法、停用词表、以词根做检索单元和伪相关反馈可以更好地提升检索性能。
- 鲍玉来白淑霞李广华
- 关键词:信息检索
- 一种基于马尔科夫随机场的蒙古文古籍图像恢复方法被引量:1
- 2017年
- 针对蒙古文古籍图像检索领域中对同一查询关键词,不同的二值化算法对整体检索性能影响问题,提出一种基于马尔科夫随机场的蒙古文古籍图像二值化方法,从而提高蒙古文古籍图像的检索性能。利用马尔科夫随机场模型在灰度图像和二值图像之间建模,通过训练码本估计隐藏层的先验概率,并分析灰度图像的直方图估计可观察层的概率密度。利用这两种先验知识实现图像二值化。实验数据集为100页蒙古文《甘珠尔经》,为了验证本文所提方法的性能,实验采用R-Precision作为评价指标。实验结果表明,基于马尔科夫随机场的二值化方法不仅可以有效修复受损图像,还可以进一步提高其检索性能。
- 白淑霞鲍玉来敖权
- 关键词:遗传算法小生境图像分割阈值
- 基于词向量包的自动文摘方法被引量:5
- 2017年
- [目的]利用向量空间描述语义信息,研究基于词向量包的自动文摘方法;[方法]文摘是文献内容缩短的精确表达;而词向量包可以在同一个向量空间下表示词、短语、句子、段落和篇章,其空间距离用于反映语义相似度。提出一种基于词向量包的自动文摘方法,用词向量包的表示距离衡量句子与整篇文献的语义相似度,将与文献语义相似的句子抽取出来最终形成文摘;[结果]在DUC01数据集上,实验结果表明,该方法能够生成高质量的文摘,结果明显优于其它方法;[结论]实验证明该方法明显提升了自动文摘的性能。
- 白淑霞鲍玉来张晖
- 关键词:自动文摘
- 蒙古文音乐领域的语义检索初探被引量:1
- 2016年
- 【目的】在蒙古文信息资源急剧增长的背景下,探索将基于本体的语义检索应用到蒙古文领域,提高蒙古文信息资源检索效果。【方法】利用本体技术重视推理、互联的优势,借助语义解析与推理工具Jena的规则推理引擎,设计并实现了基于蒙古文音乐领域本体的蒙古文语义检索系统。【结果】相较于关键词匹配检索,语义检索系统查全率达到95.6%、查准率达到93.2%,明显高于关键词匹配检索。【局限】仅以蒙古族多声部音乐为研究对象,实验对象数据有限,检索具有一定的局限性。【结论】对基于蒙古文领域本体的语义检索进行了完整的研究,为蒙古文语义网应用研究打下良好的理论和技术基础。
- 鲍玉来毕强
- 关键词:语义推理语义检索
- 基于蒙古文数字图书馆建设蒙古文文献共享域之探讨被引量:7
- 2015年
- 民族文献共享域建设是网络环境下亟待解决的问题。基于蒙古文文献数字化已有的成果,建立蒙古文文献共享域,在理论和实践上都是一次探索和挑战。该文在充分发挥蒙古文文献共享域建设有利条件的同时,针对蒙古文共享域建设的必要性、成果及其不足提出相应的对策。
- 索娅阿拉坦仓
- 关键词:民族文献蒙古文文献数字化
- LDA单词图像表示的蒙古文古籍图像关键词检索方法被引量:7
- 2017年
- [目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于LDA的表示方法可以高效、准确地解决蒙古文古籍的关键词检索问题。[结论 ]同时,该方法的性能比Bo VW方法有显著提高。
- 白淑霞鲍玉来
- 关键词:主题模型关键词检索