首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
基于聚类与边缘检测的自然场景文本提取方法   总被引:1,自引:0,他引:1  
为了解决复杂自然场景、光照不均匀及背景纹理丰富图像中文本的有效提取,提出一种基于K-means聚类与边缘检测结合的自然场景文本提取方法.该方法通过改进K-means聚类算法,实现文本区域的分割;然后对分割后的图像进行二值子图分解,将分解后的各子图像的连通区域进行标记与分析,得到候选的字符区域;最后利用文本区域的边缘特征对候选字符区域过滤,实现文本字符的提取.实验结果表明,该方法能有效提取出复杂背景、光照影响及背景纹理丰富图像中的文本字符区域.  相似文献   

2.
为了解决场景文字检测受到背景复杂、光照不均等环境因素及文字本身属性变化的影响,提出一种基于Gabor滤波与边缘特征的场景文字检测方法。有效地融合了图像的纹理特征与边缘信息来得到文本候选区;经过形态学处理与投影运算对文字区域进行定位;最后通过一种特殊的二值化处理实现文字的提取。实验表明,该方法能检测各种场景下的文字。  相似文献   

3.
目的 场景文本检测是场景理解和文字识别领域的重要任务之一,尽管基于深度学习的算法显著提升了检测精度,但现有的方法由于对文字局部语义和文字实例间的全局语义的提取能力不足,导致缺乏文字多层语义的建模,从而检测精度不理想。针对此问题,提出了一种层级语义融合的场景文本检测算法。方法 该方法包括基于文本片段的局部语义理解模块和基于文本实例的全局语义理解模块,以分别引导网络关注文字局部和文字实例间的多层级语义信息。首先,基于文本片段的局部语义理解模块根据相对位置将文本划分为多个片段,在细粒度优化目标的监督下增强网络对局部语义的感知能力。然后,基于文本实例的全局语义理解模块利用文本片段粗分割结果过滤背景区域并提取可靠的文字区域特征,进而通过注意力机制自适应地捕获任意形状文本的全局语义信息并得到最终分割结果。此外,为了降低边界区域的预测噪声对层级语义信息聚合的干扰,提出边界感知损失函数以降低边界区域特征的歧义性。结果 算法在3个常用的场景文字检测数据集上实验并与其他算法进行了比较,所提方法在性能上获得了显著提升,在Totoal-Text数据集上,F值为87.0%,相比其他模型提升了1.0%;在MSRA-TD500(MSRA text detection 500 database)数据集上,F值为88.2%,相比其他模型提升了1.0%;在ICDAR 2015(International Conference on Document Analysis and Recognition)数据集上,F值为87.0%。结论 提出的模型通过分别构建不同层级下的语义上下文和对歧义特征额外的惩罚解决了层级语义提取不充分的问题,获得了更高的检测精度。  相似文献   

4.
基于全局迭代阈值和局部分析的护照图像的二值化算法   总被引:3,自引:0,他引:3  
针对护照证件图像有复杂的底纹背景和防伪网格线的特点,对图像二值化的方法进行了深入分析和研究,提出一种全局迭代阈值与局部分析相结合的适用于护照证件图像的二值化方法。该方法模型简单、易于实现,能滤除噪声,能清晰地把字符笔划从背景中分割出来。  相似文献   

5.
一种基于迭代阈值法的身份证图像二值化算法研究   总被引:12,自引:0,他引:12  
针对身份证扫描图像受激光防伪阴影网格线影响较大的特点,对图像二值化的方法进行了深入分析和研究.提出了一种基于像素邻域特征的迭代阈值方法。该算法模型简单、易于实现.能滤除噪声、使字符笔划清晰地从背景中分割出来.获得了较好的二值化效果。  相似文献   

6.
为了提取影视视频图像中的字幕信息,提出一套鲁棒的方法:首先采用图像的边缘特征对字幕信息进行区域定位,并给出结合边缘信息的方法对图像文字进行二值化;其次,采用投影法和区域生成方法定位单个文字;最后,充分考虑到文字笔画的拓扑结构,进行相邻子网格笔画结构相关性的判定,并采用笔画模糊隶属度完成弹性网格特征的提取。该方法在复杂的背景图像中能够有效得到文字的二值图像,并保证了提取特征的稳定性、健壮性,对二值化后的影视字幕的识别率达到92.1%,实验结果表明了方法的有效性。  相似文献   

7.
一种新的自适应二值化方法   总被引:8,自引:0,他引:8  
张爝  吴志斌  陈淑珍  田茂 《计算机工程》2002,28(5):184-185,210
提出了一种新的自适应二值化方法。基于解决全局二值化方法分割图像的整体轮廓和细节不能兼顾的问题,首先,提取图像细节部分区域作为子象块,并对每一块小区域进行全局二值化;然后,再对整个图像进行全局二值化。由于这些区域非常小。区域二值化对全局二值化的结果的影响可以忽略不计。另外,提出了利用边缘提取后的图像作为提取区域的依据。实践证明,这种二值化方法能够取得非常好的效果,并且具有相当强的场景适应能力。  相似文献   

8.
基于多帧图像的视频文字跟踪和分割算法   总被引:8,自引:2,他引:6  
视频中文字的提取是视频语义理解和检索的重要信息来源.针对视频中的静止文字时间和空间上的冗余特性,以文字区域的边缘位图为特征对检测结果作精化,并提出了基于二分搜索法的快速文字跟踪算法,实现了对文字对象快速有效的定位.在分割阶段,除了采用传统的灰度融合图像进行文字区域增强方法,还结合边缘位图对文字区域进行进一步的背景过滤.实验表明,文字的检测精度和分割质量都有很大提高.  相似文献   

9.
针对复杂场景下拍摄到的服装图像的分割问题,提出一种基于先验知识的融合颜色和纹理特征的无监督分割算法。首先利用块截断编码思想将传统的三维颜色空间截断成为六维空间,得到更为精细的颜色特征,并结合改进的局部二值模式纹理特征实现对图像的特征描述;然后根据目标区域和背景区域在图像中出现的统计规律,提出了一种基于先验知识的两分法来对图像进行分割。由于对图像做了分块处理,因此在子图像块的基础上进行的图像分割将更加高效。实验表明,设计的算法能快速有效地将目标区域从各类不同的复杂场景中分割出来,且整个过程无须人工设定任何参数,对后续的图像理解和图像检索具有重要意义。  相似文献   

10.
针对大量视频图像中出现的各种文字信息,本文提出了一种基于离散余弦变换(DCT)的文字提取算法。该方法首先将图像分割为等大小基本块,然后对各小块提取DCT特征。在此基础上,利用图像对比度,设计了一种动态阈值分割方法,可将文字信息和背景信息进行分离。然后依据最小外接矩形算法,获得初始文字检测结果。最终使用Voronoi Diagram算法对初始区域进行合并得到最终文字区域检测结果。算法可以快速而精确定位文字所对应的区域,并且能适用于各种背景条件下的视频图像。  相似文献   

11.
边缘与灰度检测相结合的场景图像文本定位   总被引:1,自引:0,他引:1       下载免费PDF全文
自然场景图像中包含大量的图像和文本信息,其文本字符能够提供重要的语义信息。利用计算机自动检测并识别自然场景中的文本信息,是模式识别和文字信息处理领域重要的研究内容。本文提出一种有效的从场景图像中定位文本的方法,其原理为:首先基于边缘检测进行文本区域粗定位,对定位到的区域进行灰度检测,来确定文本域中的字符位置,其后对所得到的检测区域进行筛选,去掉噪声区域,获取到目标文本域。实验结果表明,本文提出的方法对字体的大小、样式、颜色、以及排布方向具有较强的鲁棒性, 能够准确定位并提取自然场景下的文本信息。  相似文献   

12.
目的 目前,基于MSERs(maximally stable extremal regions)的文本检测方法是自然场景图像文本检测的主流方法。但是自然场景图像中部分文本的背景复杂多变,MSERs算法无法将其准确提取出来,降低了该类方法的鲁棒性。本文针对自然场景图像文本背景复杂多变的特点,将MSCRs(maximally stable color regions)算法用于自然场景文本检测,提出一种结合MSCRs与MSERs的自然场景文本检测方法。方法 首先采用MSCRs算法与MSERs算法提取候选字符区域;然后利用候选字符区域的纹理特征训练随机森林字符分类器,对候选字符区域进行分类,从而得到字符区域;最后,依据字符区域的彩色一致性和几何邻接关系对字符进行合并,得到最终文本检测结果。结果 本文方法在ICDAR 2013上的召回率、准确率和F值分别为71.9%、84.1%和77.5%,相对于其他方法的召回率和F值均有所提高。结论 本文方法对自然场景图像文本检测具有较强的鲁棒性,实验结果验证了本文方法的有效性。  相似文献   

13.
Text in natural scene images usually carries abundant semantic information. However, due to variations of text and complexity of background, detecting text in scene images becomes a critical and challenging task. In this paper, we present a novel method to detect text from scene images. Firstly, we decompose scene images into background and text components using morphological component analysis (MCA), which will reduce the adverse effects of complex backgrounds on the detection results. In order to improve the performance of image decomposition, two discriminative dictionaries of background and text are learned from the training samples. Moreover, Laplacian sparse regularization is introduced into our proposed dictionary learning method which improves discrimination of dictionary. Based on the text dictionary and the sparse-representation coefficients of text, we can construct the text component. After that, the text in the query image can be detected by applying certain heuristic rules. The results of experiments show the effectiveness of the proposed method.   相似文献   

14.
复杂光照条件和文字—背景的交融是自然场景图像中文字检测的主要难点。为解决该问题,提出了基于LHBP(local Haar binary pattern)多尺度向性滤波的文字检测算法。该算法首先采用对光强变化不敏感并具文字特征显式描述特点的LHBP模式的纹理描述算子;并在LHBP模式上采用多尺度向性滤波器MDF(multi-scale directional filtering)来确定候选文字区域;最后使用基于LHBP直方图的支持向量机法精确定位文字区域。实验结果表明,与其他主流算法相比,该算法能够去除复杂光照条件和文字—背景交融的影响,具有更好的性能。  相似文献   

15.
An enhanced text detection technique (ETDT) is proposed, which is expected to aid the visually impaired to overcome their reading challenges. This work enhances the edge-preserving maximally stable extremal regions (eMSER) algorithm using the pyramid histogram of oriented gradients (PHOG). Histogram of oriented gradients (HOG) derived from different pyramid levels is important while detecting maximally stable extremal regions (MSER) in the ETDT approach because it gives more spatial information when compared to HOG information from a single level. To group text, a four-line, text-grouping method is newly designed for this work. Also, a new text feature, Shapeness Score is proposed, which significantly identifies text regions when combined with the other features based on morphology and stroke widths. Using the feature vector of dimension 10, the J48 decision tree and AdaBoost machine learning algorithms identify the text regions in the images. The algorithm yields better results than the existing benchmark algorithms for the ICDAR 2011 born-digital dataset and must be improved with respect to the scene text dataset.  相似文献   

16.
In this paper, we propose a new fast dehazing method from single image based on filtering. The basic idea is to compute an accurate atmosphere veil that is not only smoother, but also respect with depth information of the underlying image. We firstly obtain an initial atmosphere scattering light through median filtering, then refine it by guided joint bilateral filtering to generate a new atmosphere veil which removes the abundant texture information and recovers the depth edge information. Finally, we solve the scene radiance using the atmosphere attenuation model. Compared with exiting state of the art dehazing methods, our method could get a better dehazing effect at distant scene and places where depth changes abruptly. Our method is fast with linear complexity in the number of pixels of the input image; furthermore, as our method can be performed in parallel, thus it can be further accelerated using GPU, which makes our method applicable for real-time requirement.  相似文献   

17.
基于聚类和MRF模型的场景文字提取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
章天则  赵宇明 《计算机工程》2011,37(21):176-178,181
提出一种从自然场景中提取文本区域的方法。该方法包括候选文本区域的提取,以及候选区域是否为文字区域的判定。候选文字区域的提取,主要利用图像的纹理特征和HSL颜色空间信息,通过改进的模糊C均值聚类函数,结合拉普拉斯掩膜与计算最大梯度差来实现。由连通域边缘密度信息、形状信息的马尔科夫随机场模型,判定候选文字区域是否为文字区域。经ICDAR2003数据库测试结果表明,该方法具有较高的精确度。  相似文献   

18.
随着互联网信息的快速剧增,文本过滤技术成为互联网内容处理的关键技术,对海量信息处理具有很重要的意义.目前研究热点是基于语义的过滤方法,但是这些方法一般都需要大量规则和领域知识的支持,可用性不是很好.为了使机器更好地理解用户需求和文本内容,使过滤结果更能反映用户的真正需求,提高文本过滤的准确率和召回率,提出了基于用户本体模型UOM的文本信息过滤方法.该方法主要包括UOM构建、文本结构分析、文本概念提取和语义相关度计算等.基于UOM(User Ontology Model)的过滤方法,不仅可以表示复杂的用户需求,而且还避免了领域本体的构建,因而其有效性和实用性得到了很大的提高.通过在网络教学资源的智能按需服务系统中的实际运用,表明此方法能更有效地为用户提供过滤服务.  相似文献   

19.
Text contained in scene images provides the semantic context of the images. For that reason, robust extraction of text regions is essential for successful scene text understanding. However, separating text pixels from scene images still remains as a challenging issue because of uncontrolled lighting conditions and complex backgrounds. In this paper, we propose a two-stage conditional random field (TCRF) approach to robustly extract text regions from the scene images. The proposed approach models the spatial and hierarchical structures of the scene text, and it finds text regions based on the scene text model. In the first stage, the system generates multiple character proposals for the given image by using multiple image segmentations and a local CRF model. In the second stage, the system selectively integrates the generated character proposals to determine proper character regions by using a holistic CRF model. Through the TCRF approach, we cast the scene text separation problem as a probabilistic labeling problem, which yields the optimal label configuration of pixels that maximizes the conditional probability of the given image. Experimental results indicate that our framework exhibits good performance in the case of the public databases.  相似文献   

20.
Text segmentation using gabor filters for automatic document processing   总被引:24,自引:0,他引:24  
There is a considerable interest in designing automatic systems that will scan a given paper document and store it on electronic media for easier storage, manipulation, and access. Most documents contain graphics and images in addition to text. Thus, the document image has to be segmented to identify the text regions, so that OCR techniques may be applied only to those regions. In this paper, we present a simple method for document image segmentation in which text regions in a given document image are automatically identified. The proposed segmentation method for document images is based on a multichannel filtering approach to texture segmentation. The text in the document is considered as a textured region. Nontext contents in the document, such as blank spaces, graphics, and pictures, are considered as regions with different textures. Thus, the problem of segmenting document images into text and nontext regions can be posed as a texture segmentation problem. Two-dimensional Gabor filters are used to extract texture features for each of these regions. These filters have been extensively used earlier for a variety of texture segmentation tasks. Here we apply the same filters to the document image segmentation problem. Our segmentation method does not assume any a priori knowledge about the content or font styles of the document, and is shown to work even for skewed images and handwritten text. Results of the proposed segmentation method are presented for several test images which demonstrate the robustness of this technique. This work was supported by the National Science Foundation under NSF grant CDA-88-06599 and by a grant from E. 1. Du Pont De Nemours & Company.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号