首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
边缘与灰度检测相结合的场景图像文本定位   总被引:1,自引:0,他引:1       下载免费PDF全文
自然场景图像中包含大量的图像和文本信息,其文本字符能够提供重要的语义信息。利用计算机自动检测并识别自然场景中的文本信息,是模式识别和文字信息处理领域重要的研究内容。本文提出一种有效的从场景图像中定位文本的方法,其原理为:首先基于边缘检测进行文本区域粗定位,对定位到的区域进行灰度检测,来确定文本域中的字符位置,其后对所得到的检测区域进行筛选,去掉噪声区域,获取到目标文本域。实验结果表明,本文提出的方法对字体的大小、样式、颜色、以及排布方向具有较强的鲁棒性, 能够准确定位并提取自然场景下的文本信息。  相似文献   

2.
场景文本检测与识别对于自然场景的理解、图像中物体信息的获取以及自动驾驶与导航等研究有非常重要的作用.其中文本字符提取属于场景文本检测与识别的一个分支.在自然场景中,针对当前场景文本图像的不均匀照明等问题,提出一种基于边缘检测和改进的全局自适应文本提取模型结合的文本检测提取方法.首先,对输入的图像先做灰度处理和边缘检测,...  相似文献   

3.
王梦迪  张友梅  常发亮 《计算机科学》2017,44(9):300-303, 314
文本定位作为文本识别的基础和前提,对图像深层信息的理解至关重要。针对自然场景下的文本定位受光照、复杂背景等因素影响较大的问题,提出了一种基于多方向边缘检测和自适应特征融合的自然场景文本定位方法。该方法首先将自然场景图像进行三通道八方向的边缘检测;然后 通过启发式规则 对得到的边缘图像进行过滤从而提取出备选文本域,进而对备选文本域进行自适应权值的HOG-LBP特征提取与融合;最后采用支持向量机进行特征分类学习,实现文本定位。实验结果表明,该方法能准确定位自然场景图片的文本区域,对光照和复杂背景具有较强的鲁棒性。  相似文献   

4.
自然场景图像中的文字识别,不同于传统文本字符识别。自然场景图像中的文字经常面临着视角变化,多字体文本以及场景图像曝光严重等多种因素的影响,因此,难以准确地获取自然场景图像中字符信息。该文利用可微分二值化函数对自然场景图像进行处理,得到一张易处理二值化图像,并对二值化图像进行文本检测以便机器处理识别,最后利用卷积递归神经网络(CRNN);进行文本识别。该方法不仅提高了自然场景图像字符识别的准确度,而且解决了生活中多字体文字识别的难点。  相似文献   

5.
对车牌区域的准确定位是实现自动车牌识别的一个关键问题。提出了一种综合考虑车体对称特性以及采用颜色聚类的高效车牌定位算法。该算法首先对待分析图像所属的场景进行识别,自动将图像分类为白天场景类或夜晚场景类;然后针对不同场景图像使用不同的车牌定位方案进行处理。对夜间场景中的车牌采用二次定位法,而对白天场景中的车牌采用结合车体对称轴定位并考虑车牌区域文本特征的方法。实验结果显示,该方法对图像场景分类以及车牌定位的总体准确率都达到了95.7%。  相似文献   

6.
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。  相似文献   

7.
图像文本定位是图像中文本识别的关键步骤。介绍了文本图像的分类及特征,分析了图像文本定位常用算法的应用范围及优缺点,提出了文本定位算法的评价方法,阐述了文本定位的应用领域,并对今后文本定位的研究方向进行了分析。  相似文献   

8.
根据对自然场景图像分割后具有标志牌和背景明显分开等特点,提出了一种基于边框删除的标志牌文本提取算法,首先在二值化图像中采用基于边缘检测和投影算法对标志牌区域进行定位,然后采用边框删除算法提取标志牌文本.大量实验结果表明该方法能够准确定位并提取非规则的标志牌文本.  相似文献   

9.
自然场景乌金体藏文文本信息作为高度浓缩的高层语义信息,不仅具有较大的研究和实用价值,而且可以用于协助藏文场景文本理解领域的研究.目前针对自然场景下乌金体藏文的检测与识别的相关研究甚少,本文在人工收集的自然场景乌金体藏文图像数据集的基础上,对比了目前常见的文字检测算法在自然场景乌金体藏文上的检测性能以及在不同特征提取网络下基于序列的文字识别算法CRNN在自然场景乌金体藏文图像数据集上的识别准确率并分析了在314张真实自然场景下乌金体藏文识别出错的特殊例子.实验表明本文在文字检测阶段采用的可微分的二值化网络DBNet在测试集上具有更好的检测性能,该方法在测试集上的准确率、召回率、F1值分别达到了0.89、0.59、0.71;在文字识别阶段采用MobileNetV3 Large作为特征提取网络时,CRNN算法在测试集上的识别准确率最高,达到了0.4365.  相似文献   

10.
银行故障单中故障的截图常存在与自然场景中,能够在该图中精确地进行文本检测,将可以提高文本识别的精确度,并提高案例库的搜索和主动运维能力.为了提高自然场景文本检测的效率,提出了一种基于深度学习的自然场景文本检测算法.算法首先提取出图像中的最大稳定极值区域作为候选字母,利用单链接层次聚类得到候选文本,对候选文本进行中值滤波,最后通过一个深度置信网络DBN来删除非文本候选.实验结果表明,基于DBN的方法能有效提高自然场景文本检测的准确率,比传统方法具有更好的结果.  相似文献   

11.
ABSTRACT

Advances in the Natural Language Processing (NLP) and machine learning fields have led to the development of automated methods for the recognition of personality traits from text available from social media and similar sources. Systems of this kind exploit the close relation between lexical knowledge and personality models – such as the well-known Big Five model – to provide information about the author of an input text in a non-intrusive fashion, and at a low cost. Although now a well-established research topic in the field, the computational recognition of personality traits from text still leaves a number of research questions worth further exploration. In particular, this paper attempts to shed light on three main issues: (i) whether we may develop psycholinguistics-motivated models of personality recognition when such knowledge sources are not available for the target language under consideration; (ii) whether the use of psycholinguistic knowledge may be still superior to contemporary word vector representations; and (iii) whether we may infer certain personality facets from a corpus that does not explicitly convey this information. In this paper these issues are dealt with in a series of individual experiments of personality recognition from Facebook text, whose initial results should aid the future development of more robust systems of this kind.  相似文献   

12.
图像和视频中的文字获取技术   总被引:6,自引:0,他引:6       下载免费PDF全文
许多图像都包含丰富的文字信息,如用作网页设计的以图像形式存在的标语和视频图像中的字幕。这些文字的自动检测、分割、提取和识别,对图像高层语义内容的自动理解、索引和检索非常有价值,因此引起国内外众多学者的研究兴趣。为使人们对该领域有一个系统的了解,并使该领域研究人员有所借鉴,在对目前国内外图像和视频中文字获取技术相关文献综合理解的基础上,综述了该领域的发展现状,同时从文字检测、抽取和文字识别两个方面,重点讨论了其主要的技术方法及应用优缺点,并结合当前面临的问题,指出今后可进一步研究的方向。  相似文献   

13.
噪声鲁棒语音识别研究综述*   总被引:3,自引:1,他引:2  
针对噪声环境下的语音识别问题,对现有的噪声鲁棒语音识别技术进行讨论,阐述了噪声鲁棒语音识别研究的主要问题,并根据语音识别系统的构成将噪声鲁棒语音识别技术按照信号空间、特征空间和模型空间进行分类总结,分析了各种鲁棒语音识别技术的特点、实现,以及在语音识别中的应用。最后展望了进一步的研究方向。  相似文献   

14.
心理紧张情况下的Robust语音识别方法   总被引:1,自引:0,他引:1  
There are many stressful environments which deteriorate the performance of speech recogni-tion systems. Techniques for compensating the influence of stress can help neutralize stressed speechand improve robustness of speech recognition systems. In this paper ,we smmarize the aproaches for ro-bust recognition of speech under stress and also give the advances in the area.  相似文献   

15.
Reading text in natural images has focused again the attention of many researchers during the last few years due to the increasing availability of cheap image-capturing devices in low-cost products like mobile phones. Therefore, as text can be found on any environment, the applicability of text-reading systems is really extensive. For this purpose, we present in this paper a robust method to read text in natural images. It is composed of two main separated stages. Firstly, text is located in the image using a set of simple and fast-to-compute features highly discriminative between character and non-character objects. They are based on geometric and gradient properties. The second part of the system carries out the recognition of the previously detected text. It uses gradient features to recognize single characters and Dynamic Programming (DP) to correct misspelled words. Experimental results obtained with different challenging datasets show that the proposed system exceeds state-of-the-art performance, both in terms of localization and recognition.  相似文献   

16.
Detecting and recognizing text in natural images are quite challenging and have received much attention from the computer vision community in recent years. In this paper, we propose a robust end-to-end scene text recognition method, which utilizes tree-structured character models and normalized pictorial structured word models. For each category of characters, we build a part-based tree-structured model (TSM) so as to make use of the character-specific structure information as well as the local appearance information. The TSM could detect each part of the character and recognize the unique structure as well, seamlessly combining character detection and recognition together. As the TSMs could accurately detect characters from complex background, for text localization, we apply TSMs for all the characters on the coarse text detection regions to eliminate the false positives and search the possible missing characters as well. While for word recognition, we propose a normalized pictorial structure (PS) framework to deal with the bias caused by words of different lengths. Experimental results on a range of challenging public datasets (ICDAR 2003, ICDAR 2011, SVT) demonstrate that the proposed method outperforms state-of-the-art methods both for text localization and word recognition.  相似文献   

17.
草图理解技术研究进展   总被引:13,自引:6,他引:7  
本文概述了草图理解技术(包括草图识别和语义理解)的现状。首先,草图识别包括预处理和图形识别.根据各种图形处理机制,介绍了四种图形识别方法:基于笔划的、基于图元的、基于几何特征的、基于组合图形的。其次.深入分析了几个语义理解方法,一般包括三个环节:语义获取关系分析和高层应用。最后,本文提出了几何模型、用户模型和领域模型。讨论了草图理解中的主要问题并给出初步解决方案。  相似文献   

18.
Mixture of local principal component analysis (PCA) has attracted attention due to a number of benefits over global PCA. The performance of a mixture model usually depends on the data partition and local linear fitting. In this paper, we propose a mixture model which has the properties of optimal data partition and robust local fitting. Data partition is realized by a soft competition algorithm called neural 'gas' and robust local linear fitting is approached by a nonlinear extension of PCA learning algorithm. Based on this mixture model, we describe a modular classification scheme for handwritten digit recognition, in which each module or network models the manifold of one of ten digit classes. Experiments demonstrate a very high recognition rate.  相似文献   

19.
Semi-Markov conditional random fields (semi-CRFs) are usually trained with maximum a posteriori (MAP) criterion which adopts the 0/1 cost for measuring the loss of misclassification. In this paper, based on our previous work on handwritten Chinese/Japanese text recognition (HCTR) using semi-CRFs, we propose an alternative parameter learning method by minimizing the risk on the training set, which has unequal misclassification costs depending on the hypothesis and the ground-truth. Based on this framework, three non-uniform cost functions are compared with the conventional 0/1 cost, and training data selection is incorporated to reduce the computational complexity. In experiments of online handwriting recognition on databases CASIA-OLHWDB and TUAT Kondate, we compared the performances of the proposed method with several widely used learning criteria, including conditional log-likelihood (CLL), softmax-margin (SMM), minimum classification error (MCE), large-margin MCE (LM-MCE) and max-margin (MM). On the test set (online handwritten texts) of ICDAR 2011 Chinese handwriting recognition competition, the proposed method outperforms the best system in competition.  相似文献   

20.
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号