首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为研究开发维吾尔文摄像头取词翻译系统,解决其中维吾尔文字单词图像切分难题,提出一种印刷体维吾尔文字符自适应切分算法。针对摄像头取词图像特点,准确提取目标单词;利用维吾尔文单词基线以上的主体部分做像素积分投影,从投影结果中自动提取切分阈值;利用该阈值完成字符切分,达到自适应的效果。经过实验验证,该方法切分正确率达到了96%以上,针对不同图像具有较好的适应性,对维吾尔文摄像头取词翻译系统的研究具有促进作用。  相似文献   

2.
针对印刷体维吾尔文文字识别系统中的文字,尤其是连体段字母的切分这一难点问题,提出一种改进的投影切分方法.采用将基线区域像素点置白(像素点索引值置为255),并对其进行垂直投影,取投影值为0的间隙中间位置作为候选切线位置,根据行高度与空白间隙宽度比的统计数据均值设置阈值,以此消除误切分.实验结果证明,该方法可有效提高连体段切分的正确率.  相似文献   

3.
印刷维吾尔文本切割   总被引:1,自引:0,他引:1  
我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99 %以上。  相似文献   

4.
沿着基线并具有大量附加部分书写是维吾尔文一大特点,这些特点使复杂背景的彩色图像中维吾尔文字行与字的切分和识别成为一个既困难又有趣的问题。本文首先对复杂彩色图像进行灰度化,其次将彩色图像转换为灰度化的边缘图像,再对图像进行局域二值化,然后进行区域检测和边缘调整,初步实现了图像中维吾尔文字行的定位,紧接着根据定位结果从图像中切分出文字行,统计切分后的文字行在水平和垂直方向上的像素累计情况,查找最佳切分点,分离出文字行中的字母独立形式或几个字母连成的连体字母段。实验结果表明,文字行的切分准确率达到96%,字切分准确率达到98%以上。  相似文献   

5.
在许多文字识别系统中, 字符切分是预处理阶段的一部分, 其目的是从文本图象中分离出字母图象。而后才能针对切分后的每个字母进行识别。在具有连体特征的文字中, 字符切分就显得特别重要, 因为字符切分的准确与否直接影响字符的识别。维吾尔文就具有这种明显的连体特点, 本文主要讨论了采用抽取投影特征的方法, 实现了多字体维吾尔文的行切分、字切分和字符切分。  相似文献   

6.
目前针对印刷体维吾尔文档图像的切分研究主要集中在字母切分上,单词切分的文献较少,且存在着标点符号难处理,未合并被拆分书写的单词等问题,同时单词切分准确率有待进一步提高。在对文档图像进行投影处理的基础上,通过[K]均值聚类算法[(K]-means)对文本行中所有连体段之间的间隙进行聚类分析得出最佳的间隙判别阈值,然后对所有连体段进行筛选和粗略识别,并结合对间隙的阈值判别结果来确定单词的精确切分点和获取被拆分书写单词的位置信息。在选取的100张文档图像中测试时,结果表明该方法能有效去除标点符号对切分结果的影响,准确合并被拆分书写的单词,并且平均单词切分准确率保持在99%以上。  相似文献   

7.
论文根据维吾尔文的特点和难点,通过分析和研究,实现了维吾尔文印刷体识别技术中的预处理部分.预处理完成的工作有去除噪点、基线评估、倾斜校正、联体段切分、骨架细化等.  相似文献   

8.
从维吾尔文的特征和书写规则出发对维吾尔文联机手写单词识别技术进行了探索性研究,并提出一种新的思路:不是直接把单词切分成字母,而是先把单词分割成连体段,然后再分割成字母。这样,可以提高字母切分和字母识别的准确率。按照该思路,提出一种连体段分割算法:根据通过研究维吾尔文的特征和书写规则找出来的一些规则把一个个的笔画,组合成连体段。实验证明了该连体段分割思路和算法的可行性。  相似文献   

9.
多字体印刷维吾尔文字符识别系统的研究与开发   总被引:2,自引:0,他引:2  
该文介绍了维吾尔文的特点及维吾尔文字符识别系统.针对维吾尔文的连体结构.重点讨论了解决过程中的技术难点.其中利用投影分离出连体段中的字母.采用边切分边识别的方法,对文本图像进行了切分.分类.提取外围特征,并通过样张的训练.使维吾尔文字符的识别获得了较满意的结果.  相似文献   

10.
针对印刷体维吾尔文文字识别系统中的字符识别正确率较低这一难点问题,采用对字符图像进行横向扫描和纵向扫描生成行和列投影图, 结合三级分类,将目标字符与对应分类中的字符的双投影图逐一归一化并进行相关性均值计算的方法,取均值最大的字符作为最佳匹配识别结果,实现了对维文字符的识别。实验证明这种基于字符归一化双投影互相关性匹配识别算法方法抗干扰性强,简单易行,匹配精度高,使得印刷体维吾尔文字字符识别的正确率有了进一步提高。  相似文献   

11.
为提高维吾尔文档图像的检索效率,提出一种基于字符空间关系的关键词检索方法.通过对文档图像进行单词切分,提取切分后单词图像的字符空间位置特征,将提取的特征根据单词的连体段数目存储为多个特征文件,根据输入关键词图像的特征寻找对应的特征文件进行查询.从115张印刷体维吾尔文档图像切分后的24460张单词集中选取10张有丰富含义的关键词图像在单词库中进行检索实验,平均准确率为96.47%,平均召回率达到了93.74%,平均每张单词的查询耗时为0.25 s,验证了该方法在维吾尔文档图像检索中的有效性.  相似文献   

12.
皮桂林  赵晖 《计算机工程》2012,38(18):147-150
延迟笔画处理是维吾尔文联机手写体单词识别中的难点,样本数据格式为一串具有时序性的序列,造成字母主笔画和延迟笔画在序列位置上多半不连续,很大程度上增加了延迟笔画处理和单词识别的难度。为此,提出一种维吾尔文延迟笔画处理方法,其中包括延迟笔画查找与投影,实验结果证明该方法具有良好的效果,单词识别准确率达到93.71%。  相似文献   

13.
维吾尔文和阿拉伯文是采用阿拉伯文字母的从右向左书写的连写文字。它们识别方法的研究对于多文种文本图像内容的利用具有重要意义。利用HTK工具包,分别建立基于隐马尔科夫模型HMM(Hidden Markov Model)的印刷体维吾尔文和阿拉伯文识别系统,其中特征提取部分采用分布密度特征和局部方向特征。研究利用HTK工具建立维吾尔文和阿拉伯文统计语言模型,并将语言模型用于改进识别系统性能。实验结果表明采用统计语言模型可有效提高文字识别系统性能。其中,在包含24 000个单词的印刷体维吾尔文测试集上,通过利用语言模型识别率从78.28%提高到97.45%;在包含759个单词的印刷体阿拉伯文测试集上,通过利用语言模型识别率从79.07%提高到85.80%。  相似文献   

14.
针对脱机手写维吾尔文本行图像中单词切分问题,提出了FCM融合K-means的聚类算法。通过该算法得到单词内距离和单词间距离两种分类。以聚类结果为依据,对文字区域进行合并,得到切分点,再对切分点内的文字进行连通域标注,进行着色处理。以50幅不同的人书写的维吾尔脱机手写文本图像为实验对象,共有536行和4?002个单词,正确切分率达到80.68%。实验结果表明,该方法解决了手写维吾尔文在切分过程中,单词间距离不规律带来的切分困难的问题和一些单词间重叠的问题。同时实现了大篇幅手写文本图像的整体处理。  相似文献   

15.
维吾尔文字的连笔书写及字型变化的一些特征给识别带来一定的困难并会影响到识别的正确率.在分析了维吾尔文单词的组词规律及其字型结构特征基础上,采用一种基于区域分割模板匹配的识别方法,通过建立标准维吾尔文字母图像模板库,并与通过预处理所获得的待识别维吾尔文字母图像进行匹配.对一些相似度高且难区分的维吾尔文字母则采用提取这些相似字符的附属笔画部分的图像并对其按笔画的连通性、交叉性以及形态等特征进行附属笔画判定的方法来确定这些相似字符,从而较准确地实现了对维吾尔文印刷字符的识别.实验识别率达到94%  相似文献   

16.
针对现在大多文字定位方法只能对水平方向定位而不能很好的定位倾斜文字的局限性,采用一种自适应角度定位方法,对原始图像进行快速的一次定位,借助于阈值投影和投影像素和的特点,从维吾尔文基线特征出发,结合自适应算法选取文本区域面积最小的角度,对图像中的维吾尔文进行二次定位.该方法可用于水平和倾斜文字多种文字区域定位.实验结果表明该方法实用性强,准确率高.  相似文献   

17.
随着手机短信业务普及,智能手机中实现维吾尔文输入、输出已经是新疆地区1000多万少数民族用户迫切的需求。在连续输入的维吾尔文文章或单词中,切分出一个个的字母,供后续的字母识别使用,字母切分是手写输入识别的核心关键技术。手写维文字符串的分割与字符识别密切相关。采用基于识别的分割方法,系统先通过粗略的图像分析寻找所有可能的切点,在分割的过程中引入识别机制来识别分割碎片,将识别结果经过差值运算后置为每个识别对象的识别可信度,利用移动窗口法找到最佳分割路径。在分类器训练时,采用特征提取来估计分类器参数,得到了性质良好的分类器,试验表明,字符切割准确率高达97.3%。  相似文献   

18.
粘连断裂字符行的切分识别,是很多OCR 实际应用中存在的主要困难之一. 本文针对粘连断裂的印刷体数字行,提出了一种基于Viterbi 算法的切分识别方案,该方案采用两次切分识别的层次型结构. 在第二次切分识别过程中,首先,在候选切分点区域,结合灰度图像与二值轮廓信息,采用基于Viterbi 算法搜索的非直线路径进行切分,得到有效的切分路径;然后,结合分类器输出的可信度,采用Viterbi 算法来合并前面得到的候选切分图像块,进行动态切分与识别. 实际的金融票据识别系统实验表明,本文提出的印刷体数字行切分识别方法能够较好的克服字符行的粘连与断裂情况,提高了识别系统的识别率和鲁棒性.  相似文献   

19.
基于多特征的印刷体数字识别   总被引:1,自引:0,他引:1  
采用特征识别的方法,提取数字的区域像素、水平过线、垂直过线三大方面的17个特征值对印刷体数字进行识别.利用MATLAB进行仿真实验,实验结果表明该识别方法简单,识别率高,速度快,抗干扰性强,对于不同字体、字形、字号的印刷体数字,能够快速准确识别,具有广泛的用途.  相似文献   

20.
结合网络上流通的拉丁化维吾尔文字特征,以拉丁化维吾尔文单词作为研究单位,首先,通过大规模文本语料库建立了固定词库、词首字母序列库、词尾字母序列库以及特殊词库等正规化规则库。然后,利用维吾尔单词中的字母序列结构特征和相邻字母上下文信息进行了拉丁化维吾尔文的正规化,同时引用最小编辑距离的方法进一步提高了正规化正确率,并用Visual C# 编程工具实现了基于规则的拉丁化维吾尔文的正规化算法。最后,给出了实验结果,并分析了结果不佳的原因及相应的对策。
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号