国家自然科学基金(61032008)
- 作品数:19 被引量:112H指数:6
- 相关作者:于洪志李亚超加羊吉海银花江涛更多>>
- 相关机构:西北民族大学新疆大学内蒙古大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字电子电信更多>>
- 融合音节特征的最大熵藏文词性标注研究被引量:15
- 2013年
- 藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词性标注问题,音节特征可以显著提高藏文词性标注的效果,与基准系统相比使错误率降低了6.4%。
- 于洪志李亚超汪昆冷本扎西
- 关键词:藏文词性标注最大熵
- 低数据资源条件下基于结构信息共享的无切分维文文档识别字符建模被引量:4
- 2015年
- 无切分维吾尔文文档识别技术能够有效避免字符切分错误,但是对于低数据资源的新样本类型,原有模型往往难以获得较高的识别性能。为此,该文提出共享常用维文字体间相对稳定的字符结构信息,并用Bootstrap方法提高样本利用效率的解决方法。通过在实际书籍样本上的实验表明,仅利用规模约原始训练样本1/5的新类型样本,该方法在测试集上的平均字符识别准确率就可以达到95.05%;而与常用的最大后验概率估计方法相比,也能使识别错误率相对降低55.76%-63.84%。因此,该方法能够有效解决低数据资源条件下的维文字符建模问题,实现对新样本类型的高性能识别。
- 姜志威丁晓青彭良瑞刘长松
- 关键词:文字识别隐马尔可夫模型统计学习维吾尔文
- 一种提高维吾尔语-汉语词语对齐的方法研究被引量:9
- 2012年
- 维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示方法,使得词缀呈现相同的形式.通过以上方法欲达到抑制维汉词语对齐中数据稀疏现象.本文利用此方法处理了新疆多语种信息技术重点实验室提供的维汉双语语料,再利用GIZA++进行对齐,试验结果表明,此方法对词语对齐效果起到了明显的积极作用,而且对维汉机器翻译的质量也有显著的提高.
- 麦热哈巴·艾力王志洋吐尔根·依布拉音
- 关键词:词对齐维吾尔语形态分析
- 蒙古语熟语资源库的初步构建
- 2014年
- 随着信息社会的迅猛发展,蒙古语熟语的语汇和应用面临着巨大挑战。构建"熟语资源库"是保护、开发和利用蒙古语熟语资源的最佳途径,也是机器翻译、语料库加工、文本校对等多个领域提供形式化知识从而能够解决蒙古文信息处理研究的燃眉之急。同时将其研究成果拓展到教学领域,提升蒙古语言文字的教学效率。目前,该资源库处于初步开发阶段。从资源库的规模与结构、属性字段及管理软件设计、应用前景分析等方面介绍该资源库的总概貌。
- 海银花那顺乌日图额尔敦朝鲁
- 关键词:蒙古语
- 基于鲁棒主成分分析和多个色彩通道的显著性检测被引量:2
- 2014年
- 显著性检测在图像分割、物体检测、视觉效果评估等领域有非常广泛的用途。为了增强这种图像预处理技术的实用性,同时对人眼视觉系统的机理进行研究和模拟,该文提出了一种基于鲁棒主成分分析和多个色彩通道的显著性检测方法。将图像的多个色彩空间重构成每一列都线性相关的矩阵,然后将显著性区域看作是矩阵的稀疏成分,将背景信息看作是低秩成分。经过对新矩阵进行鲁棒主成分分析后就可以将显著性区域提取出来。最后加入人眼视觉系统中的显著性先验和中心先验机理,使得提出的模型更加合理。实验结果表明:该方法在量化指标和视觉效果方面超过了当前很多先进的方法,验证了这种假设的合理性。
- 马小龙谢旭东林健文钟宜生
- 关键词:显著性检测
- 维吾尔文智能输入法研究被引量:4
- 2013年
- 开发智能化的输入法是维吾尔文输入技术的一个发展方向,也是维吾尔文自然语言信息处理的基础性研究课题。该文根据维吾尔文自身特点,对用户输入过程中所犯各种错误进行分析,设计并实现了词语搭配知识库,提出了基于二元语法模型的一种新型维吾尔文输入算法,并给出了实现其关键模块功能的程序流程图。它具有自动预测、自动联想输入和自动校对等功能。
- 米日姑·肉孜吐尔根·依布拉音麦热哈巴·艾力
- 关键词:中文信息处理维吾尔文智能输入法语言模型
- 基于改进卡方统计量的藏文文本表示方法被引量:4
- 2014年
- 藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。
- 徐涛于洪志加羊吉
- 关键词:藏文信息处理文本表示向量空间模型
- “蒙古语名词语义信息词典”数据库的构建被引量:4
- 2012年
- "名词语义信息词典"是"蒙古语语义信息词典"的分库,是整个蒙古语语言知识库的组成部分。"名词语义词典"翔实描述了每一个词语的语义分类、搭配规则、配价等方面的语义属性。
- 海银花那顺乌日图
- 关键词:蒙古语名词
- 维吾尔语词尾对汉维统计机器翻译影响的研究被引量:8
- 2014年
- 维吾尔语属于阿尔泰语系,是典型的黏着语,构形词尾在维吾尔语中占很重要的地位,这与汉语差别很大。针对维吾尔语的形态特点,分析汉维统计机器翻译中维吾尔语构形词尾的作用,利用Cherio搭建一个基于层次短语的汉维统计机器翻译系统。使用词级粒度、词干级粒度、词干词尾级粒度的汉维平行语料进行对比实验,探讨不同粒度对汉维统计机器翻译系统的影响。实验结果表明,该汉维统计机器翻译系统可以提高汉维统计翻译的质量,BLEU值达到0.1972。
- 米莉万.雪合来提麦热哈巴艾力吐尔根.依布拉音姜文斌
- 关键词:词尾统计机器翻译语言模型
- 基于条件随机场的藏语自动分词方法研究与实现被引量:27
- 2013年
- 藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。
- 李亚超加羊吉宗成庆于洪志
- 关键词:条件随机场格助词