国家自然科学基金(60241005)
- 作品数:15 被引量:160H指数:9
- 相关作者:丁晓青王华刘长松李闯吴佑寿更多>>
- 相关机构:清华大学新疆大学中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种多字体印刷藏文字符识别方法被引量:12
- 2004年
- 提出了一种完整的多字体印刷藏文字符识别方法:先提取输入字符的方向线素特征组成特征向量,然后采用两级分类策略判定字符类别。该方法在训练集和测试集上的识别率分别达到99.73%和99.44%,证明了其有效性。
- 王华丁晓青
- 关键词:藏文字符识别方向线素特征
- 基于笔段间关系的联机手写汉字HMM模型被引量:18
- 2004年
- 为了提高联机手写汉字模型的空间结构描述能力和识别性能,从汉字的笔段关系出发,提出一种新的联机手写汉字模型,该文称之为属性关系Markov模型(ARHMM)。ARHMM以经典Markov模型(THMM)为基础,结合属性关系图对二维图形结构的描述特点,提出了一种直接描述状态间关系的新观测量,从而更充分地利用汉字的空间结构信息。ARHMM具有完整的参数训练方法和识别算法。联机汉字识别的实验结果表明:ARHMM联机汉字模型与THMM联机汉字模型相比,在工整书写到自由书写的不同质量汉字样本上识别错误率均有所下降,平均错误率下降了23.65%。
- 鲁湛丁晓青
- 关键词:信息处理汉字识别
- 多字体多字号印刷维吾尔文字符识别被引量:23
- 2004年
- 维吾尔文字符识别研究具有很高的理论价值和广阔的应用前景。该文提出一种多字体多字号印刷维吾尔文字符识别新方法:利用预分类信息将整个字符集划分为若干子集;采取两套方案,分别将输入字符归一化为32×32和24×24的点阵;提取方向线素特征,经压缩降维后,由修正二次鉴别函数完成分类,在综合可信度基础上集成识别结果;最后,利用结构的和局部的特征进行相似字鉴别。在容量为48800字符的测试集上的识别率达到99.48%,表明该方法的有效性。
- 王华丁晓青哈力木拉提
- 关键词:方向线素特征
- 多字体印刷藏文字符识别被引量:19
- 2003年
- 藏文字符识别系统是中文多文种信息处理系统的重要组成部分 ,但至今国内外的研究基本处于空白。本文提出了一种基于统计模式识别的多字体印刷藏文字符识别方法 :从字符轮廓中抽取方向线素特征 ,利用线性鉴别分析 (LDA)压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的两级分类策略 ,设计了带偏差欧氏距离分类器 (EDD)完成高效的粗分类 ,细分类采用修正二次鉴别函数 (MQDF)。通过实验选取恰当的分类器参数后 ,在容量为 177,6 0 0字符 (30 0样本 /字符类 )的测试集上的识别率达到 99.79% 。
- 王华丁晓青
- 关键词:模式识别藏文字符识别方向线素特征线性鉴别分析
- 基于Markov随机场的三维物体识别算法被引量:1
- 2005年
- 为准确识别出三维物体,提出了一种新的物体特征框架,采用密集采样的多分辨率网格来描述物体观测图像的局部特征,引入Markov随机场模型对网格节点之间的几何关系进行建模。不同图像之间的匹配通过最高置信度优先算法实现,以获取两图像各个节点之间的准确匹配关系以及全局相似度。在Coil-100(columbiaobjectimagelibrary)图像数据库上,以100个物体的4、8、18、36个视角的样本为模板,用其他68、64、54和36个视角的样本进行测试,该算法识别率分别为95.75%、99.30%、100.0%和100.0%,识别准确率明显高于文献中的方法,这说明算法在基于观测图像的物体识别领域有着非常好的应用前景。
- 黄英丁晓青王生进
- 关键词:模式识别三维物体识别MARKOV随机场
- 灰度名片图像快速倾斜检测和校正方法被引量:16
- 2004年
- 本文针对名片OCR系统的要求 ,提出了一种新的根据图像扫描时产生的黑色边缘来检测灰度名片图像倾斜角度的方法。该方法先检测出名片的四条边缘拟合直线 ,由四条边缘拟合直线的倾斜角度来确定名片图像倾斜角度 ,然后采用逐段整块搬移的方法来对图像进行倾斜校正 ,再根据边缘拟合直线位置去除黑边。实验表明 ,该方法具有很快的速度和很高的正确率 ,是一种实用价值较高的方法。而且 。
- 卜飞宇刘长松丁晓青
- 关键词:模式识别灰度图像倾斜校正
- 基于MQDF的英文OCR多模板分类器被引量:5
- 2005年
- 针对进一步提高英文OCR分类器的鲁棒性进行了研究,结合传统的单模板MQDF分类器和多模板欧氏距离分类器各自的优点,提出了一种新的基于MQDF的多模板分类器设计方法。与传统分类器的对比测试证明,该文提出的这种新的分类器能够有效地提高多体英文OCR字符的单字首选正确率,并对低质量文本中的模糊和断裂字符也能保持很高的识别率。
- 姜铮铟丁晓青
- 关键词:光学字符识别多模板K均值聚类
- 印刷维吾尔文本切割被引量:19
- 2005年
- 我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99%以上。
- 靳简明丁晓青彭良瑞王华
- 关键词:计算机应用中文信息处理字符识别维吾尔文
- 维汉英混排文档识别被引量:4
- 2006年
- 维、汉、英是特点完全不同的文字。该文依据多层次语言判断和适当干预的多语言字符识别系统设计原则首次实现了维、汉、英混排文本识别系统。识别系统首先根据维、汉、英文字的各自特点实现字符块语言属性的初步判断,然后针对每种文字设计不同的字符切割算法。字符识别可信度用来判断字符语言属性和字符切分结果是否正确。实验结果表明,各种维、汉、英混排文本识别率达到96.4%以上。
- 靳简明王华丁晓青
- 关键词:字符识别维吾尔文
- 基于边缘的字符串定位算法被引量:3
- 2005年
- 为了对强干扰噪声图像中的字符串进行实时的检测定位,该文提出了一种基于边缘的字符串定位算法,它引入了边缘密度图和边缘连接强度两个新的概念。该算法首先通过对边缘密度图进行投影分析进行自顶向下的粗定位,然后在此基础上利用垂直边缘的连接强度进行自底向上的精确定位。新算法有效地克服了噪声的影响,运算复杂度低,因而能够实现对强干扰噪声图像中的字符串的实时定位。采用该算法对集成电路芯片图像中的编号字符串进行定位,实验结果证明其在处理强干扰噪声图像时是有效的。
- 李闯丁晓青吴佑寿
- 关键词:文字信息处理