首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
从维吾尔文的特征和书写规则出发对维吾尔文联机手写单词识别技术进行了探索性研究,并提出一种新的思路:不是直接把单词切分成字母,而是先把单词分割成连体段,然后再分割成字母。这样,可以提高字母切分和字母识别的准确率。按照该思路,提出一种连体段分割算法:根据通过研究维吾尔文的特征和书写规则找出来的一些规则把一个个的笔画,组合成连体段。实验证明了该连体段分割思路和算法的可行性。  相似文献   

2.
在许多文字识别系统中, 字符切分是预处理阶段的一部分, 其目的是从文本图象中分离出字母图象。而后才能针对切分后的每个字母进行识别。在具有连体特征的文字中, 字符切分就显得特别重要, 因为字符切分的准确与否直接影响字符的识别。维吾尔文就具有这种明显的连体特点, 本文主要讨论了采用抽取投影特征的方法, 实现了多字体维吾尔文的行切分、字切分和字符切分。  相似文献   

3.
维吾尔文字属于左向连写文字,字母之间的连笔与变形使得切分字母很困难,印刷体维吾尔文字母的准确切分是识别的关键.文中试验了一种基于像素积分投影的印刷体维吾尔文字母切分方法,包括使用行水平投影切出文字行与文字基线,通过垂直投影切出单词及单词中不粘连的字母,结合水平投影与垂直投影数据,外加相邻投影谷距、字母宽度与基线像素值等信息,设置了细化的连体段字母切分规则.实验结果表明,该方法能够较为准确的将印刷体维吾尔文字母切分开,为 OCR 系统的准确识别提供了基础  相似文献   

4.
多字体印刷维吾尔文字符识别系统的研究与开发   总被引:2,自引:0,他引:2  
该文介绍了维吾尔文的特点及维吾尔文字符识别系统.针对维吾尔文的连体结构.重点讨论了解决过程中的技术难点.其中利用投影分离出连体段中的字母.采用边切分边识别的方法,对文本图像进行了切分.分类.提取外围特征,并通过样张的训练.使维吾尔文字符的识别获得了较满意的结果.  相似文献   

5.
通过分析维吾尔文字母自身的结构和书写特点,提出一种联机手写维吾尔文字母识别方案,并选择在手写汉字识别技术中所提出来的归一化、特征提取及常用的分类方法,从中找出最佳的技术选择。在实验对比中,采用8种不同的归一化预处理方法,基于坐标归一化的特征提取 (NCFE) 方法,以及改进的二次分类函数(MQDF)、判别学习型二次判别函数(DLQDF)、学习矢量量化(LVQ)、支持向量机(SVM)4种分类器。同时,再考虑字符在文档中的空间几何特征,进一步提高识别性能。在128个维吾尔文字母类别、38 400个测试样本的实验中,正确识别率最高达89。08%,为进一步研究面向维吾尔文字母特性的识别技术奠定重要基础。  相似文献   

6.
沿着基线并具有大量附加部分书写是维吾尔文一大特点,这些特点使复杂背景的彩色图像中维吾尔文字行与字的切分和识别成为一个既困难又有趣的问题。本文首先对复杂彩色图像进行灰度化,其次将彩色图像转换为灰度化的边缘图像,再对图像进行局域二值化,然后进行区域检测和边缘调整,初步实现了图像中维吾尔文字行的定位,紧接着根据定位结果从图像中切分出文字行,统计切分后的文字行在水平和垂直方向上的像素累计情况,查找最佳切分点,分离出文字行中的字母独立形式或几个字母连成的连体字母段。实验结果表明,文字行的切分准确率达到96%,字切分准确率达到98%以上。  相似文献   

7.
在深入研究英文和汉字手写识别的基础上,结合维吾尔文字母的特点,提出一种基于支持向量机机器学习算法的维吾尔文联机手写字母识别方法,系统研究了样本采集、预处理、特征提取和分类等模块。在预处理中,为了消除干扰和噪声及比较中的相似性,采用了平滑滤波和线性归一化处理;考虑到维吾尔文相似字母较多,为了有效提取特征,将结构特征和统计特征相结合,提取了字符的梯度方向特征;分类器采用支持向量机。实验表明,随着训练样本的增加,识别率可以从90.62%提高到96.09%。  相似文献   

8.
多分类器组合能够在一定程度上弥补单个分类器的缺陷,因此它在模式识别中得到了广泛应用。深入调研国内外联机手写识别技术的研究动态,结合维吾尔文字母的独特书写风格,研究了基于多分类器集成的维吾尔语联机手写字母识别。利用5种不同的特征提取方法构造了5个独立的维吾尔语字母分类识别器,采用了等权投票和不等权投票等两种策略将5种维吾尔语字母分类识别器进行了有效组合。其中,单分类器采用了基于动态时间弯折(DTW)匹配距离的最近邻分类方法。实验结果表明,提出的集成策略的识别率明显高于单分类器的识别率,而且为特征的综合集成提供了多种有效途径。  相似文献   

9.
介绍了一种基于PDA和手机上的维吾尔文字母输入方法,确定了数字键盘上维吾尔文字母键盘布局,采用键位加数字选择的方法完成维吾尔文字符的输入。  相似文献   

10.
维吾尔文字的连笔书写及字型变化的一些特征给识别带来一定的困难并会影响到识别的正确率.在分析了维吾尔文单词的组词规律及其字型结构特征基础上,采用一种基于区域分割模板匹配的识别方法,通过建立标准维吾尔文字母图像模板库,并与通过预处理所获得的待识别维吾尔文字母图像进行匹配.对一些相似度高且难区分的维吾尔文字母则采用提取这些相似字符的附属笔画部分的图像并对其按笔画的连通性、交叉性以及形态等特征进行附属笔画判定的方法来确定这些相似字符,从而较准确地实现了对维吾尔文印刷字符的识别.实验识别率达到94%  相似文献   

11.
印刷维吾尔文本切割   总被引:1,自引:0,他引:1  
我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99 %以上。  相似文献   

12.
Characteristics of optical recognition programs are described from the standpoint of typical recognition program modules. Not only quality criteria for the separate character recognition but also parameters of other important stages of document input, such as character boundary segmentation, binarization, page segmentation, and storing results, are discussed in detail. The set of characteristics presented can be used for the optimization of both separate recognition stages and the whole process of document input.  相似文献   

13.
一种手写维吾尔文字母识别算法   总被引:4,自引:1,他引:3       下载免费PDF全文
针对手机手写维吾尔文字母输入需求,结合手机软硬件资源局限性,提出将维吾尔文字符分成主体笔画与附属笔画两部分。采用笔画数、主体笔画结构特征、附件结构特征等21个特征为特征集,建立维吾尔文字符识别数据样本库。按笔画数粗分类,分别抽取主笔画的特征与附件的特征并用二值化数据表示,与样本库中特征数据进行异或运算,取运算后1的个数最少的样本为识别样本并给出候选样本,平均一次正确识别率达到97%。  相似文献   

14.
提出一种联合两种特征的手写体维文字符识别算法。该算法对手写体维文字符图像进行实值Gabor能量特征和方向线素网格特征的提取,将实值Gabor滤波器的128维能量特征和方向线素的128维网格特征结合起来,使用KNN分类器对两种特征进行联合分类。对手写体维文字符数据库中的样本分别进行手写体维文字符特征识别和维文字符笔迹特征识别。实验结果表明,和采用一种特征的识别算法比较,进一步提高了手写体维文字符的识别率。该算法也可用于手写体阿拉伯文字符的识别。  相似文献   

15.
在维吾尔文联机手写识别过程的训练阶段,单词被切分成字母,经过特征提取和聚类形成特征向量作为模型的输入。构造出以字符为基元的隐马尔可夫模型(HMM),将其嵌入到识别字典网络中。通过基于HMM的分类识别器,最终得到识别结果。首次将消除延迟笔画、建立有延迟笔画和无延迟笔画的字典的方法应用于维吾尔文手写识别中,取得了较高的识别率。  相似文献   

16.
为提高维吾尔语语音识别的识别率,在分析维吾尔语特点的基础上,设计一种基于子字单元的维吾尔语语音识别总体结构,指出维吾尔语单词的发音模型,给出构建子字发音字典的方法,及其以子字单元为基础构建语言模型与声学模型的方法。在一个语音库上进行实验,采用一种非监督的词切分方法对维吾尔语单词进行词切分,生成子字。实验结果表明,基于子字单元的维吾尔语语音识别可以获得更好的识别结果。  相似文献   

17.
A Nom historical document recognition system is being developed for digital archiving that uses image binarization, character segmentation, and character recognition. It incorporates two versions of off-line character recognition: one for automatic recognition of scanned and segmented character patterns (7660 categories) and the other for user handwritten input (32,695 categories). This separation is used since including less frequently appearing categories in automatic recognition increases the misrecognition rate without reliable statistics on the Nom language. Moreover, a user must be able to check the results and identify the correct categories from an extended set of categories, and a user can input characters by hand. Both versions use the same recognition method, but they are trained using different sets of training patterns. Recursive XY cut and Voronoi diagrams are used for segmentation; kd tree and generalized learning vector quantization are used for coarse classification; and the modified quadratic discriminant function is used for fine classification. The system provides an interface through which a user can check the results, change binarization methods, rectify segmentation, and input correct character categories by hand. Evaluation done using a limited number of Nom historical documents after providing ground truths for them showed that the two stages of recognition along with user checking and correction improved the recognition results significantly.  相似文献   

18.
为了解决传统验证码识别方法效率低,精度差的问题,设计了一种先分割后识别的验证码处理方案。该方案在预处理阶段用中值滤波去噪,再利用霍夫变换对图像字符进行矫正;在字符分割阶段,利用垂直投影算法确定验证码字符块个数,以及字符坐标点,再用颜色填充算法对验证码进行初步分割,根据分割后的字符块数量对粘连字符进行二次分割;在识别阶段,我们对LeNet-5网络进行了改进,修改了输入层,并用全连接层替换了LeNet-5网络中的C5层,以此来对验证码字符进行识别;实验表明,对于非粘连验证码和粘连验证码,单张图片分割时间为0.14和0.15ms,分割准确率为98.75%和97.25%,识别准确率为99.99%和97.7%;结果表明,该算法对验证码分割和识别都有着很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号