首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
在许多文字识别系统中, 字符切分是预处理阶段的一部分, 其目的是从文本图象中分离出字母图象。而后才能针对切分后的每个字母进行识别。在具有连体特征的文字中, 字符切分就显得特别重要, 因为字符切分的准确与否直接影响字符的识别。维吾尔文就具有这种明显的连体特点, 本文主要讨论了采用抽取投影特征的方法, 实现了多字体维吾尔文的行切分、字切分和字符切分。  相似文献   

2.
复杂背景下维吾尔文字符的分割算法   总被引:4,自引:0,他引:4       下载免费PDF全文
在视频或图像中包含丰富的文字信息,这些文字信息与视频或图像的内容密切相关,因此可以作为视频片断或者图像的内容标识和索引。以视频维吾尔文为例,首先用Canny算子将彩色图像转换为灰度化的边缘图像,其次对图像中的文字进行定位,再对图像进行边缘点彩色分割,然后进行文字图像行区域和列区域的检测,最后基于候选文本区的特征从不同复杂度的彩色图像中提取文本信息,实验结果表明了算法的有效性。  相似文献   

3.
为解决朝鲜语古籍数字化中朝汉文种混排字符切分困难的问题,提出一种朝鲜语古籍图像的文字切分算法。针对古籍列与列之间存在不连续间隔线、倾斜或者粘连等问题,提出一种基于连通域投影的列切分方法。利用连通域的删除、合并、拆分等操作对文字进行切分。使用一种多步切分法完成了具有文字大小不一,横向、纵向混合排版特点图像的字符切分工作。对于粘连字,采用改进的滴水算法进行有效切分。实验结果表明所提出的算法能够很好地完成朝、汉文种混排,文字大小不一,排版情况复杂的朝鲜语古籍图像的文字切分工作。该算法的列切分准确率为97.69%,字切分准确率为87.79%。  相似文献   

4.
维吾尔文字属于左向连写文字,字母之间的连笔与变形使得切分字母很困难,印刷体维吾尔文字母的准确切分是识别的关键.文中试验了一种基于像素积分投影的印刷体维吾尔文字母切分方法,包括使用行水平投影切出文字行与文字基线,通过垂直投影切出单词及单词中不粘连的字母,结合水平投影与垂直投影数据,外加相邻投影谷距、字母宽度与基线像素值等信息,设置了细化的连体段字母切分规则.实验结果表明,该方法能够较为准确的将印刷体维吾尔文字母切分开,为 OCR 系统的准确识别提供了基础  相似文献   

5.
印刷维吾尔文本切割   总被引:1,自引:0,他引:1  
我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分析的方法实现维文文本的文字行切分和单词切分。然后定位单词基线位置,计算单词轮廓和基线的距离,寻找所有可能的切点实现维文单词过切割,最后利用规则合并过切分字符。实验结果表明,字符切割准确率达到99 %以上。  相似文献   

6.
为研究开发维吾尔文摄像头取词翻译系统,解决其中维吾尔文字单词图像切分难题,提出一种印刷体维吾尔文字符自适应切分算法。针对摄像头取词图像特点,准确提取目标单词;利用维吾尔文单词基线以上的主体部分做像素积分投影,从投影结果中自动提取切分阈值;利用该阈值完成字符切分,达到自适应的效果。经过实验验证,该方法切分正确率达到了96%以上,针对不同图像具有较好的适应性,对维吾尔文摄像头取词翻译系统的研究具有促进作用。  相似文献   

7.
针对脱机手写维吾尔文本行图像中单词切分问题,提出了FCM融合K-means的聚类算法。通过该算法得到单词内距离和单词间距离两种分类。以聚类结果为依据,对文字区域进行合并,得到切分点,再对切分点内的文字进行连通域标注,进行着色处理。以50幅不同的人书写的维吾尔脱机手写文本图像为实验对象,共有536行和4?002个单词,正确切分率达到80.68%。实验结果表明,该方法解决了手写维吾尔文在切分过程中,单词间距离不规律带来的切分困难的问题和一些单词间重叠的问题。同时实现了大篇幅手写文本图像的整体处理。  相似文献   

8.
基于Matlab GUI的维吾尔文字符识别系统的设计   总被引:2,自引:0,他引:2  
基于建立对视频中维吾尔文字符的识别提取系统,以视频中维吾尔字符为对象,首先对维吾尔文字符进行了字符检测,以便确定其维吾尔文字符在视频中的大小、位置,其次对所确定的维吾尔文字符进行字符定位以便作进一步的处理,然后运用Canny算子将其提取出的维吾尔文字符进行彩色图像转换为灰度化的边缘图像,最后利用Matlab GUI设计了维吾尔文字符的识别系统,实现了视频中维吾尔文字符的检测、字符定位、图像抖动、对比度调整、灰度化、边缘检测、提取字符等功能.实验结果均显示出该算法的优良性能,并证明了该识别系统性能的稳定性和极其良好的扩展性,为维吾尔文字符的识别研究提供了一个简单有效的仿真平台.  相似文献   

9.
多字体印刷维吾尔文字符识别系统的研究与开发   总被引:2,自引:0,他引:2  
该文介绍了维吾尔文的特点及维吾尔文字符识别系统.针对维吾尔文的连体结构.重点讨论了解决过程中的技术难点.其中利用投影分离出连体段中的字母.采用边切分边识别的方法,对文本图像进行了切分.分类.提取外围特征,并通过样张的训练.使维吾尔文字符的识别获得了较满意的结果.  相似文献   

10.
目前针对印刷体维吾尔文档图像的切分研究主要集中在字母切分上,单词切分的文献较少,且存在着标点符号难处理,未合并被拆分书写的单词等问题,同时单词切分准确率有待进一步提高。在对文档图像进行投影处理的基础上,通过[K]均值聚类算法[(K]-means)对文本行中所有连体段之间的间隙进行聚类分析得出最佳的间隙判别阈值,然后对所有连体段进行筛选和粗略识别,并结合对间隙的阈值判别结果来确定单词的精确切分点和获取被拆分书写单词的位置信息。在选取的100张文档图像中测试时,结果表明该方法能有效去除标点符号对切分结果的影响,准确合并被拆分书写的单词,并且平均单词切分准确率保持在99%以上。  相似文献   

11.
维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩.  相似文献   

12.
基于机器学习的文本分类中,维吾尔文传统分词方法表现出非常明显的不足和局限性。该文使用另外一种维吾尔文自动分词方法dme-TS。dme-TS中,不再以词间空格作为切分标记提取词特征,而是用一种组合统计量(dme)来度量文本中相邻单词之间的关联程度,并以dme度量的弱关联的词间位置作为切分点,提取对学习算法真正有意义的语义词特征。实验结果表明,用dme-TS提取文本特征可以降低特征空间的维度,同时也能有效的提高传统以单词为特征的分类算法的性能。  相似文献   

13.
一种网页图像文字分割方法   总被引:1,自引:0,他引:1  
针对复杂网页图像中文本的特点,提出了一种基于最大类间差法(OTSU)的文字分割方法。对原文字图像进行预处理,统一了分割后字符的颜色、去除了大量的噪声、提高了图像的对比度;在全局阈值的基础上确定了各字符区域的位置;利用局部最优阈值对文字图像进行局部分割。实验结果表明,方法在保证较高准确率的基础上,提升了分割后字符的效果,具有较强的鲁棒性。  相似文献   

14.
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
  相似文献   

15.
从维吾尔文的特征和书写规则出发对维吾尔文联机手写单词识别技术进行了探索性研究,并提出一种新的思路:不是直接把单词切分成字母,而是先把单词分割成连体段,然后再分割成字母。这样,可以提高字母切分和字母识别的准确率。按照该思路,提出一种连体段分割算法:根据通过研究维吾尔文的特征和书写规则找出来的一些规则把一个个的笔画,组合成连体段。实验证明了该连体段分割思路和算法的可行性。  相似文献   

16.
针对复杂交通场景图像中路面分割难度大和分割边缘粗糙的问题,提出了一种基于多特征融合和条件随机场的道路分割方法.首先,提取图像的纹理基元特征与颜色特征;然后,将道路分割问题视为一个基于像素的二分类问题,融合所提取的两种特征,使用SVM分类器实现对交通场景图像中路面区域与背景区域的粗糙划分;最后,利用全连接条件随机场中的颜色与位置约束,对分割结果进行优化,获得更加平滑的分割边缘,并与其他分割算法进行对比.实验结果表明,基于多特征融合与条件随机场的道路分割算法获得了95.37%的平均分割准确率和94.55%的平均像素精度.  相似文献   

17.
目的 手写文本行提取是文档图像处理中的重要基础步骤,对于无约束手写文本图像,文本行都会有不同程度的倾斜、弯曲、交叉、粘连等问题。利用传统的几何分割或聚类的方法往往无法保证文本行边缘的精确分割。针对这些问题提出一种基于文本行回归-聚类联合框架的手写文本行提取方法。方法 首先,采用各向异性高斯滤波器组对图像进行多尺度、多方向分析,利用拖尾效应检测脊形结构提取文本行主体区域,并对其骨架化得到文本行回归模型。然后,以连通域为基本图像单元建立超像素表示,为实现超像素的聚类,建立了像素-超像素-文本行关联层级随机场模型,利用能量函数优化的方法实现超像素的聚类与所属文本行标注。在此基础上,检测出所有的行间粘连字符块,采用基于回归线的k-means聚类算法由回归模型引导粘连字符像素聚类,实现粘连字符分割与所属文本行标注。最后,利用文本行标签开关实现了文本行像素的操控显示与定向提取,而不再需要几何分割。结果 在HIT-MW脱机手写中文文档数据集上进行文本行提取测试,检测率DR为99.83%,识别准确率RA为99.92%。结论 实验表明,提出的文本行回归-聚类联合分析框架相比于传统的分段投影分析、最小生成树聚类、Seam Carving等方法提高了文本行边缘的可控性与分割精度。在高效手写文本行提取的同时,最大程度地避免了相邻文本行的干扰,具有较高的准确率和鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号