首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 532 毫秒
1.
提出了一种基于色彩距离最小化和最大 色彩差(MCD)的场景文本定位方法。首先,使用多次K均值 聚类和色彩距离最小化的方法,从不同复杂程度的场景图像中提取文本 连通区域;考虑到色彩聚类方法容易受光照影响,使用基于MCD最大色彩差的方法,提取 文本连通区域作为补充,由于将 色彩与梯度信息相结合,在一定程度上能克服光照的影响;将得到的连通区域通过设 定的字符合并规则,构建文本行; 候选文本行中通常包含错误检测的非文本行,为了提高文本检测的正确率,最后采用基于特 征提取和机器学习的方法,验证 候选文本行,得到文本定位结果。将本文方法在ICDAR2011和ICDAR2013公共数 据库上实验,对于ICDAR2011数据集,本文 获得的召回率、准确率和F指标分别为0.66、0.77;对于ICDAR2013数据集,本文获得的召回率、准确率和F 指标分别为0.65、0.77。将本文方法与 其它文本检测算法比较,结果表明本文方法的可行性、有效性。  相似文献   

2.
熊炜  孙鹏  赵迪  刘粤 《光电子.激光》2023,34(11):1158-1167
自然场景文本识别中采用固定大小的卷积核提取视觉特征,后仅进行字符分类的方法,其全局建模能力弱且忽视了文本语义建模的重要性,因此,本文提出一种基于字符注意力的自然场景文本识别方法。首先构建不同于卷积网络的多级efficient Swin Transformer提取特征,其可使不同窗口的特征进行信息交互;其次设计了字符注意力模块(character attention module, CAM),使网络专注于字符区域的特征,以提取识别度更高的视觉特征;并设计语义推理模块(semantic reasoning module, SRM),根据字符的上下文信息对文本序列进行建模,获得语义特征来纠正不易区分或模糊的字符;最后融合视觉和语义特征,分类得到字符识别结果。实验结果表明,在规则文本数据集IC13上识别准确率达到了95.2%,在不规则的弯曲文本数据集CUTE上达到了85.8%,通过消融及对比实验证明了本文提出的方法可行。  相似文献   

3.
针对自然场景图像,本文提出一种融合空间上下文的场景语义建模和分类方法.针对场景中的局部语义对象,建立了基于贝叶斯网络的语义上下文模型.通过对已标注训练样本集的学习训练,获得局部语义对象在各类场景下的上下文模型.对于待分类的图像,首先利用支持向量机实现分割区域的分类,根据学习得到的语义上下文模型,提取图像中各语义对象的空间上下文信息,形成图像的语义上下文描述,实现场景分类.针对不同场景下的局部语义对象,利用贝叶斯网络自动学习得到不同的空间关系集合用于上下文信息提取,使得场景描述和分类过程更智能和有效.通过在六类自然场景图像数据集上的实验表明,本文所提算法能够很好的利用上下文信息,并取得满意的分类结果.  相似文献   

4.
基于灰度直方图和谱聚类的文本图像二值化方法   总被引:7,自引:0,他引:7  
在自动文本提取中,经定位获得的字符区域需二值化后方能有效识别,由于背景的复杂,常用的阈值化方法不能有效分割自然环境下的字符图像。该文提出了一种基于谱聚类的图像二值化方法,该方法利用规范化切痕(Normalized cut, Ncut)作为谱聚类测度,结合灰度直方图计算相似性矩阵,并通过实验确定最佳的直方图等级数,与通常基于像素级相似矩阵相比,算法的空间复杂度和计算复杂性都大为降低。实验结果表明,针对自然场景下的字符图像,该文方法的二值化结果优于常用的阈值分割结果。  相似文献   

5.
传统视觉词典模型没有考虑图像的多尺度和上下文语义共生关系.本文提出一种基于多尺度上下文语义信息的图像场景分类算法.首先,对图像进行多尺度分解,从多个尺度提取不同粒度的视觉信息;其次利用基于密度的自适应选择算法确定最优概率潜在语义分析模型主题数;然后,结合Markov随机场共同挖掘图像块的上下文语义共生信息,得到图像的多尺度直方图表示;最后结合支持向量机实现场景分类.实验结果表明,本文算法能有效利用图像的多尺度和上下文语义信息,提高视觉单词的语义准确性,从而改善场景分类性能.  相似文献   

6.
针对自然场景标签图像背景复杂、目标区域形式多样、色调单一、空间集中等问题,提出了一种基于笔画宽度特征和剪枝算法的自然场景标签检测方法。根据图像的特点,首先利用阈值法和启发式规则,初步筛选出字符候选区;然后通过设计的笔画宽度特征提取算法,获得每一个候选区的文本相似度,融合基于惩罚函数的剪枝算法实现背景区域的滤除,得到进一步分割后的标签检测区域;使用形态学处理和区域面积的细分割后,最终生成目标检测图像。多组对比实验检测结果表明,本文算法具有良好的目标检测效果和优异的普适性。  相似文献   

7.
为了提高监控场景中行人检测的准确度,提出了一种基于上下文信息的行人检测方法.该方法将监控场景的上下文信息融入到卷积神经网络中,选择性地学习对行人检测有帮助的上下文信息.首先,利用一个截断的卷积神经网络提取输入图像的多张特征图.然后,将多张特征图通过两个包含上下文信息的卷积层,形成一张掩码图.最后,通过在掩码图上估计行人的边界框,获得行人检测的结果.实验表明,该方法能实现监控场景中准确且快速的行人检测.  相似文献   

8.
针对自然场景中任意形状文本图像因文本行难以区分导致的信息丢失问题,提出了 一种基于深度学习的场景文本检测算法。首先构建特征提取模块,使用Resnet50作为骨干 网络,在增加跨层连接的金字塔网络结构中引入并联的空洞卷积模块,以提取更多语义信息; 其次,对得到的特征图进行多尺度特征融合,学习不同尺度的特征;最后预测出不同内核大 小的文本实例,并通过尺度扩展逐渐扩大文本行区域,直到得到最终的检测结果。实验结果 表明,该方法在SCUT-CTW1500弯曲文本数据集上的准确率、召回率及F1值分别达到88.5%、 77.0%和81.3%,相比其他基于分割的算法,该算 法对弯曲文本的检测效果良好,具有一定的 应用价值。  相似文献   

9.
面向自然场景分类的贝叶斯网络局部语义建模方法   总被引:3,自引:0,他引:3  
本文提出了一种基于贝叶斯网络的局部语义建模方法.网络结构涵盖了区域邻域的方向特性和区域语义之间的邻接关系.基于这种局部语义模型,建立了场景图像的语义表述,实现自然场景分类.通过对已标注集的图像样本集的学习训练,获得贝叶斯刚络的参数.对于待分类的图像,利用该模型融合区域的特征及其邻接区域的信息,推理得到区域的语义概率;并通过网络迭代收敛得到整幅图像的区域语义标记和语义概率;最后在此基础上形成图像的全局描述,实现场景分类.该方法利用了场景内部对象之间的上下文关系,弥补了仅利用底层特征进行局部语义建模的不足.通过在六类自然场景图像数据集上的实验表明,本文所提的局部语义建模和图像描述方法是有效的.  相似文献   

10.
周炫余  刘娟  卢笑  邵鹏  罗飞 《电子学报》2017,45(1):140-146
针对纯视觉行人检测方法存在的误检、漏检率高,遮挡目标以及小尺度目标检测精度低等问题,提出一种联合文本和图像信息的行人检测方法.该方法首先利用图像分析的方法初步获取图像目标的候选框,其次通过文本分析的方法获取文本中有关图像目标的实体表达,并提出一种基于马尔科夫随机场的模型用于推断图像候选框与文本实体表达之间的共指关系(Coreference Relation),以此达到联合图像和文本信息以辅助机器视觉提高交通场景下行人检测精度的目的.在增加了图像文本描述的加州理工大学行人检测数据集上进行的测评结果表明,该方法不仅可以在图像信息的基础上联合文本信息提高交通场景中的行人检测精度,也能在文本信息的基础上联合图像信息提高文本中的指代消解(Anaphora Resolution)精度.  相似文献   

11.
In this paper, we present a bottom-up approach for robust spotting of texts in scenes. In the proposed technique, character candidates are first detected using our proposed character detector, which leverages on the strengths of an Extremal Region (ER) detector and an Aggregate Channel Feature (ACF) detector for high character detection recall. The real characters are then identified by using a novel convolutional neural network (CNN) filter for high character detection precision. A hierarchical clustering algorithm is designed which combines multiple visual and geometrical features to group characters into word proposal regions for word recognition. The proposed technique has been evaluated on several scene text spotting datasets and experiments show superior spotting performance.  相似文献   

12.
In this paper, we propose a novel framework to extract text regions from scene images with complex backgrounds and multiple text appearances. This framework consists of three main steps: boundary clustering (BC), stroke segmentation, and string fragment classification. In BC, we propose a new bigram-color-uniformity-based method to model both text and attachment surface, and cluster edge pixels based on color pairs and spatial positions into boundary layers. Then, stroke segmentation is performed at each boundary layer by color assignment to extract character candidates. We propose two algorithms to combine the structural analysis of text stroke with color assignment and filter out background interferences. Further, we design a robust string fragment classification based on Gabor-based text features. The features are obtained from feature maps of gradient, stroke distribution, and stroke width. The proposed framework of text localization is evaluated on scene images, born-digital images, broadcast video images, and images of handheld objects captured by blind persons. Experimental results on respective datasets demonstrate that the framework outperforms state-of-the-art localization algorithms.  相似文献   

13.
基于图理论聚类的彩色图像文本提取   总被引:3,自引:0,他引:3  
本文提出了一种在彩色图像中进行文本区域的自动提取的方法。首先,应用色彩的统计模型,大大减小了图像的彩色空间的大小;其次,使用基于图理论进行彩色聚类。将图像分解成对应各类的多幅二值图;然后,在这些二值图的基础上进行连通分量分析,提取可能的文本区域,并对这些区域进行鉴别;最后,综合各二值图的提取结果,得到原始彩色图像中的文本区域。对于特定的应用,提取出的文本区域经过进一步的处理,可以输入字符识别(0CR)系统中进行识别。实验结果显示了本文提出的方法的有效性.  相似文献   

14.
Due to the rapid development of mobile devices equipped with cameras, instant translation of any text seen in any context is possible. Mobile devices can serve as a translation tool by recognizing the texts presented in the captured scenes. Images captured by cameras will embed more external or unwanted effects which need not to be considered in traditional optical character recognition (OCR). In this paper, we segment a text image captured by mobile devices into individual single characters to facilitate OCR kernel processing. Before proceeding with character segmentation, text detection and text line construction need to be performed in advance. A novel character segmentation method which integrates touched character filters is employed on text images captured by cameras. In addition, periphery features are extracted from the segmented images of touched characters and fed as inputs to support vector machines to calculate the confident values. In our experiment, the accuracy rate of the proposed character segmentation system is 94.90%, which demonstrates the effectiveness of the proposed method.  相似文献   

15.
Automatic detection and recognition of signs from natural scenes   总被引:5,自引:0,他引:5  
In this paper, we present an approach to automatic detection and recognition of signs from natural scenes, and its application to a sign translation task. The proposed approach embeds multiresolution and multiscale edge detection, adaptive searching, color analysis, and affine rectification in a hierarchical framework for sign detection, with different emphases at each phase to handle the text in different sizes, orientations, color distributions and backgrounds. We use affine rectification to recover deformation of the text regions caused by an inappropriate camera view angle. The procedure can significantly improve text detection rate and optical character recognition (OCR) accuracy. Instead of using binary information for OCR, we extract features from an intensity image directly. We propose a local intensity normalization method to effectively handle lighting variations, followed by a Gabor transform to obtain local features, and finally a linear discriminant analysis (LDA) method for feature selection. We have applied the approach in developing a Chinese sign translation system, which can automatically detect and recognize Chinese signs as input from a camera, and translate the recognized text into English.  相似文献   

16.
基于小波特征的单字符汉字字体识别   总被引:4,自引:0,他引:4       下载免费PDF全文
陈力  丁晓青 《电子学报》2004,32(2):177-180
汉字图像不仅包含了汉字的字符信息,还包含了汉字的字体信息.字体信息是版面分析、理解和恢复的重要依据,还有助于实现高性能字符识别系统.目前的字体识别方法还不能对单个汉字字符的字体进行识别.本文提出了一种新的字体识别方法,能够在不知道汉字字符的前提下,识别单个汉字的字体.首先对单个汉字的字符图像进行小波分解,在变换图像上提取小波特征.提取的小波特征经Box-Cox变换整形后,用线性鉴别分析技术(LDA)进行特征选择,得到字体识别特征.所使用的分类器是MQDF分类器.在包含7种字体的样本集上进行的实验表明,本文提出的方法能够在不知道汉字字符的前提下,对单个汉字的字体进行有效识别,基于单字的字体识别率达到97.35%.  相似文献   

17.
针对现有场景文本识别方法只关注局部序列字符 分类,而忽略了整个单词全局信息的问题,提出 了一种多级特征选择的场景文本识别(multilevel feature selection scene text recogn ition,MFSSTR)算 法。该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征 和语义特 征。在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel attention sele ction decoder, MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制 将新的特征 空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测, 同时在训练 过程中引入中间监督,逐渐细化文本预测。实验结果表明,本文算法在多个公共场景文本 数据集上识 别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%。  相似文献   

18.
This study presents a novel and highly efficient superpixel algorithm, namely, depth-fused adaptive superpixel (DFASP), which can generate accurate superpixels in a degraded image. In many applications, particularly in actual scenes, vision degradation, such as motion blur, overexposure, and underexposure, often occurs. Well-known color-based superpixel algorithms are incapable of producing accurate superpixels in degraded images because of the ambiguity of color information caused by vision degradation. To eliminate this ambiguity, we use depth and color information to generate superpixels. We map the depth and color information to a high-dimensional feature space. Then, we develop a fast multilevel clustering algorithm to produce superpixels. Furthermore, we design an adaptive mechanism to adjust the color and depth information automatically during pixel clustering. Experimental results demonstrate that regardless of boundary recall, under segmentation error, run time, or achievable segmentation accuracy, DFASP is better than state-of-the-art superpixel methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号