首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 215 毫秒
1.
王建新  王子亚  田萱 《软件学报》2020,31(5):1465-1496
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势.  相似文献   

2.
针对自然场景文本检测中存在大量假阳性问题,提出了嵌入重评分机制的自然场景文本检测方法。引入实例分割网络(Mask R-CNN)作为基本框架,实现对自然场景中多方向、不规则文本的检测;设计文本掩膜重评分机制,通过预测文本掩膜的质量,将文本的语义类别信息与其对应的掩膜完整性信息相结合,重新评估文本掩膜的质量,精确了文本的候选区域;重新设计损失函数的作用范围。上述模型基于端到端训练,在ICDAR2013、ICDAR2015和Total-Text等数据集进行性能测试,结果表明,提出的方法有效的提高了字符分割的完整性,较之现有方法明显地提高了文本检测的准确率和召回率,更适合自然场景中的不规则文本的识别。  相似文献   

3.
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。  相似文献   

4.
自然场景乌金体藏文文本信息作为高度浓缩的高层语义信息,不仅具有较大的研究和实用价值,而且可以用于协助藏文场景文本理解领域的研究.目前针对自然场景下乌金体藏文的检测与识别的相关研究甚少,本文在人工收集的自然场景乌金体藏文图像数据集的基础上,对比了目前常见的文字检测算法在自然场景乌金体藏文上的检测性能以及在不同特征提取网络下基于序列的文字识别算法CRNN在自然场景乌金体藏文图像数据集上的识别准确率并分析了在314张真实自然场景下乌金体藏文识别出错的特殊例子.实验表明本文在文字检测阶段采用的可微分的二值化网络DBNet在测试集上具有更好的检测性能,该方法在测试集上的准确率、召回率、F1值分别达到了0.89、0.59、0.71;在文字识别阶段采用MobileNetV3 Large作为特征提取网络时,CRNN算法在测试集上的识别准确率最高,达到了0.4365.  相似文献   

5.
基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。  相似文献   

6.
随着深度学习技术在计算机视觉领域的发展,场景文本检测与文字识别技术也有了突破性的进展。受到自然场景下极端光照、遮挡、模糊、多方向多尺度等情况的影响,无约束的场景文本检测与识别仍然面临着巨大的挑战。从深度学习的角度对场景文本检测和文字识别技术进行深入研究,总结出在文本检测技术中将基于分割的方法与回归的方法优势相结合,可以解决小文本区域的召回率较低的问题,同时适应多尺度文本;在文本识别方法中将CTC机制与Attention机制相结合,可以相互监督以提升识别性能,降低长文本识别的出错率。  相似文献   

7.
自然场景图像中的文本检测综述   总被引:3,自引:0,他引:3  
王润民  桑农  丁丁  陈杰  叶齐祥  高常鑫  刘丽 《自动化学报》2018,44(12):2113-2141
本文对自然场景文本检测问题及其方法的研究进展进行了综述.首先,论述了自然场景文本的特点、自然场景文本检测技术的研究背景、现状以及主要技术路线.其次,从传统文本检测以及深度学习文本检测的视角出发,梳理、分析并比较了各类自然场景文本检测方法的优缺点,并介绍了端对端文本识别技术.再次,论述了自然场景文本检测技术所面临的挑战,探讨了相应的解决方案.最后,本文列举了测试基准数据集、评估方法,将最具代表性的自然场景文本检测方法的性能进行了比较,本文还展望了本领域的发展趋势.  相似文献   

8.
场景文本检测是场景文本识别中重要的一步,也是一个具有挑战性的问题。不同于一般的目标检测,场景文本检测的主要挑战在于自然场景图像中的文本具有任意方向,小的尺寸,以及多种宽高比。论文在TextBoxes[8]的基础上进行改进,提出了一个适用于任意方向文本的检测器,命名为OSTD(Oriented Scene Text Detector),可以有效且准确地检测自然场景中任意方向的文本。论文在公共数据集上对提出OSTD的进行评估。所有实验结果都表明,无论在准确性,还是实时性方面OSTD都是极具竞争力的方法。在1024×1024的ICDAR2015 Incidental Text数据集[16]上,OSTD的F-Measure=0.794,FPS=10.7。  相似文献   

9.
银行故障单中故障的截图常存在与自然场景中,能够在该图中精确地进行文本检测,将可以提高文本识别的精确度,并提高案例库的搜索和主动运维能力.为了提高自然场景文本检测的效率,提出了一种基于深度学习的自然场景文本检测算法.算法首先提取出图像中的最大稳定极值区域作为候选字母,利用单链接层次聚类得到候选文本,对候选文本进行中值滤波,最后通过一个深度置信网络DBN来删除非文本候选.实验结果表明,基于DBN的方法能有效提高自然场景文本检测的准确率,比传统方法具有更好的结果.  相似文献   

10.
目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83.  相似文献   

11.
现有的场景文本识别器容易受到模糊文本图像的困扰, 导致在实际应用中性能较差. 因此近年来研究人员提出了多种场景文本图像超分辨率模型作为场景文本识别的预处理器, 以提高输入图像的质量. 然而, 用于场景文本图像超分辨率任务的真实世界训练样本很难收集; 此外, 现有的场景文本图像超分辨率模型只学习将低分辨率(LR)文本图像转换为高分辨率(HR)文本图像, 而忽略了从HR到LR图像的模糊模式. 本文提出了模糊模式感知模块, 该模块从现有的真实世界HR-LR文本图像对中学习模糊模式, 并将其转移到其他HR图像中, 以生成具有不同退化程度的LR图像. 本文所提出的模糊模式感知模块可以为场景文本图像超分辨率模型生成大量的HR-LR图像对, 以弥补训练数据的不足, 从而显著提高性能. 实验结果表明, 当配备提出的模糊模式感知模块时, 场景文本图像超分辨率方法的性能可以进一步提高, 例如, SOTA方法TG在使用CRNN文本识别器进行评估时, 识别准确率提高了5.8%.  相似文献   

12.
开放环境下的模式识别与文字识别应用中,新数据、新模式和新类别不断涌现,要求算法具备应对新类别模式的能力。针对这一问题,研究者们开始聚焦开放集文字识别(open-set text recognition,OSTR)任务。该任务要求,算法在测试(推断)阶段,既能识别训练集见过的文字类别,还能够识别、拒识或发现训练集未见过的新文字。开放集文字识别逐步成为文字识别领域的研究热点之一。本文首先对开放集模式识别技术进行简要总结,然后重点介绍开放集文字识别的研究背景、任务定义、基本概念、研究重点和技术难点。同时,针对开放集文字识别三大问题(未知样本发现、新类别识别和上下文信息偏差),从方法的模型结构、特点优势和应用场景的角度对相关工作进行了综述。最后,对开放集文字识别技术的发展趋势和研究方向进行了分析展望。  相似文献   

13.
Scene text detection plays a significant role in various applications,such as object recognition,document management,and visual navigation.The instance segmentation based method has been mostly used in existing research due to its advantages in dealing with multi-oriented texts.However,a large number of non-text pixels exist in the labels during the model training,leading to text mis-segmentation.In this paper,we propose a novel multi-oriented scene text detection framework,which includes two main modules:character instance segmentation (one instance corresponds to one character),and character flow construction (one character flow corresponds to one word).We use feature pyramid network(FPN) to predict character and non-character instances with arbitrary directions.A joint network of FPN and bidirectional long short-term memory (BLSTM) is developed to explore the context information among isolated characters,which are finally grouped into character flows.Extensive experiments are conducted on ICDAR2013,ICDAR2015,MSRA-TD500 and MLT datasets to demonstrate the effectiveness of our approach.The F-measures are 92.62%,88.02%,83.69% and 77.81%,respectively.  相似文献   

14.
自然场景文本检测对于机器理解场景等有着重要作用。近年来,随着深度学习的发展,自然场景文字检测方法也日新月异,取得了很好的检测效果。分析、总结了近年来基于深度学习的场景文字检测方法,将其归纳分类为基于回归、基于分割,以及两者混合三种类型,并对各类检测方法的优缺点进行了对比分析。介绍了场景文本检测性能指标及常用的公开数据集以及下载方式。对场景文字检测领域研究进行总结和展望,有望为深度学习场景文本检测方法提供新的研究方向。  相似文献   

15.
In today’s real world, an important research part in image processing is scene text detection and recognition. Scene text can be in different languages, fonts, sizes, colours, orientations and structures. Moreover, the aspect ratios and layouts of a scene text may differ significantly. All these variations appear assignificant challenges for the detection and recognition algorithms that are considered for the text in natural scenes. In this paper, a new intelligent text detection and recognition method for detectingthe text from natural scenes and forrecognizing the text by applying the newly proposed Conditional Random Field-based fuzzy rules incorporated Convolutional Neural Network (CR-CNN) has been proposed. Moreover, we have recommended a new text detection method for detecting the exact text from the input natural scene images. For enhancing the presentation of the edge detection process, image pre-processing activities such as edge detection and color modeling have beenapplied in this work. In addition, we have generated new fuzzy rules for making effective decisions on the processes of text detection and recognition. The experiments have been directedusing the standard benchmark datasets such as the ICDAR 2003, the ICDAR 2011, the ICDAR 2005 and the SVT and have achieved better detection accuracy intext detection and recognition. By using these three datasets, five different experiments have been conducted for evaluating the proposed model. And also, we have compared the proposed system with the other classifiers such as the SVM, the MLP and the CNN. In these comparisons, the proposed model has achieved better classification accuracywhen compared with the other existing works.  相似文献   

16.
Detecting and recognizing text in natural images are quite challenging and have received much attention from the computer vision community in recent years. In this paper, we propose a robust end-to-end scene text recognition method, which utilizes tree-structured character models and normalized pictorial structured word models. For each category of characters, we build a part-based tree-structured model (TSM) so as to make use of the character-specific structure information as well as the local appearance information. The TSM could detect each part of the character and recognize the unique structure as well, seamlessly combining character detection and recognition together. As the TSMs could accurately detect characters from complex background, for text localization, we apply TSMs for all the characters on the coarse text detection regions to eliminate the false positives and search the possible missing characters as well. While for word recognition, we propose a normalized pictorial structure (PS) framework to deal with the bias caused by words of different lengths. Experimental results on a range of challenging public datasets (ICDAR 2003, ICDAR 2011, SVT) demonstrate that the proposed method outperforms state-of-the-art methods both for text localization and word recognition.  相似文献   

17.
目的 目前,基于MSERs(maximally stable extremal regions)的文本检测方法是自然场景图像文本检测的主流方法。但是自然场景图像中部分文本的背景复杂多变,MSERs算法无法将其准确提取出来,降低了该类方法的鲁棒性。本文针对自然场景图像文本背景复杂多变的特点,将MSCRs(maximally stable color regions)算法用于自然场景文本检测,提出一种结合MSCRs与MSERs的自然场景文本检测方法。方法 首先采用MSCRs算法与MSERs算法提取候选字符区域;然后利用候选字符区域的纹理特征训练随机森林字符分类器,对候选字符区域进行分类,从而得到字符区域;最后,依据字符区域的彩色一致性和几何邻接关系对字符进行合并,得到最终文本检测结果。结果 本文方法在ICDAR 2013上的召回率、准确率和F值分别为71.9%、84.1%和77.5%,相对于其他方法的召回率和F值均有所提高。结论 本文方法对自然场景图像文本检测具有较强的鲁棒性,实验结果验证了本文方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号