首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
王建新  王子亚  田萱 《软件学报》2020,31(5):1465-1496
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势.  相似文献   

2.
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。  相似文献   

3.
牛钦 《计算机时代》2021,(6):19-21,25
场景文本检测是计算机视觉领域研究的主要方向.文章介绍了近几年深度学习技术在场景文本检测上的应用,包括对场景文本图像检测中存在问题的描述,对近些年场景文本检测算法的分类和分析,以及场景文本检测数据集的介绍.最后总结并展望了未来场景文本检测的发展趋势.  相似文献   

4.
自然场景文本检测对于机器理解场景等有着重要作用。近年来,随着深度学习的发展,自然场景文字检测方法也日新月异,取得了很好的检测效果。分析、总结了近年来基于深度学习的场景文字检测方法,将其归纳分类为基于回归、基于分割,以及两者混合三种类型,并对各类检测方法的优缺点进行了对比分析。介绍了场景文本检测性能指标及常用的公开数据集以及下载方式。对场景文字检测领域研究进行总结和展望,有望为深度学习场景文本检测方法提供新的研究方向。  相似文献   

5.
随着深度学习技术在计算机视觉领域的发展,场景文本检测与文字识别技术也有了突破性的进展.受到自然场景下极端光照、遮挡、模糊、多方向多尺度等情况的影响,无约束的场景文本检测与识别仍然面临着巨大的挑战.从深度学习的角度对场景文本检测和文字识别技术进行深入研究,总结出在文本检测技术中将基于分割的方法与回归的方法优势相结合,可以...  相似文献   

6.
自然场景图像中的文本检测综述   总被引:3,自引:0,他引:3  
王润民  桑农  丁丁  陈杰  叶齐祥  高常鑫  刘丽 《自动化学报》2018,44(12):2113-2141
本文对自然场景文本检测问题及其方法的研究进展进行了综述.首先,论述了自然场景文本的特点、自然场景文本检测技术的研究背景、现状以及主要技术路线.其次,从传统文本检测以及深度学习文本检测的视角出发,梳理、分析并比较了各类自然场景文本检测方法的优缺点,并介绍了端对端文本识别技术.再次,论述了自然场景文本检测技术所面临的挑战,探讨了相应的解决方案.最后,本文列举了测试基准数据集、评估方法,将最具代表性的自然场景文本检测方法的性能进行了比较,本文还展望了本领域的发展趋势.  相似文献   

7.
银行故障单中故障的截图常存在与自然场景中,能够在该图中精确地进行文本检测,将可以提高文本识别的精确度,并提高案例库的搜索和主动运维能力.为了提高自然场景文本检测的效率,提出了一种基于深度学习的自然场景文本检测算法.算法首先提取出图像中的最大稳定极值区域作为候选字母,利用单链接层次聚类得到候选文本,对候选文本进行中值滤波,最后通过一个深度置信网络DBN来删除非文本候选.实验结果表明,基于DBN的方法能有效提高自然场景文本检测的准确率,比传统方法具有更好的结果.  相似文献   

8.
随着深度学习、神经网络的兴起与发展,对于图像中的目标检测已经取得了巨大的进展。但是自然场景下的文本信息具有多样的形式和复杂的特点,通用的目标检测算法无法取得理想的效果,因此自然场景下的文本检测在计算机视觉以及机器学习领域仍然是一项具有挑战性的问题和未来的热点研究方向。根据当前学术界针对自然场景下的文本检测问题所提出的算法和思路,在EAST算法的主干网络PVANet的基础上通过引入注意力机制模块,使得提取文本目标特征时更加关注有用信息和抑制无用信息,从而有效改善原算法在预测长文本方向信息时视野不足的问题。实验结果显示,该方法在没有损失检测效率的同时提高了原算法的检测精度,并在一定程度上优于当前针对自然场景下的文本检测算法。  相似文献   

9.
随着深度学习的发展,神经网络在文本检测方面得到了更深入的研究和更广泛的应用。在此基础上,为了提升中文文本事件检各项性能,提出了一种基于改进神经网络的中文文本事件检测方法,研究利用FPA算法优化传统BP神经网络的权值和阈值。为了验证基于改进神经网络的中文文本事件检测方法的效果,将其与自然场景文本检测方法在召回率、准确率和耗时性等方面进行了比较。结果表明:自然场景文本检测方法的准确率为88%,召回率为73%;基于改进神经网络的文本检测方法准确率为95%,召回率为86%;中文文本事件检测测试中自然场景文本检测方法的F值为0.79,耗时4.56s;基于改进神经网络的文本检测方法的F值为0.90,耗时0.64s。可见,基于改进的神经网络的中文文本事件检测方法具有更好的性能。  相似文献   

10.
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。  相似文献   

11.
针对基于传统深度神经网络的自然场景文本检测存在检测效果较差、文本边界框检测不准确等缺陷,提出基于损失函数融合的深度神经网络。将损失函数Balanced loss,利用加权的方法与传统深度神经网络进行融合,用于提高文本框边界区域及图像中难检测像素点的损失值,从而约束模型的优化方向,提升模型学习复杂特征的能力。实验结果表明,在自然场景文本检测中所提出方法有效提高了网络的检测准确性。  相似文献   

12.
近年来,基于深度学习的场景文本检测算法层出不穷,对于EAST在自然场景中对长文本和较大文本检测不准确,存在容易出现误检漏检的问题.论文提出一种基于NLA-EAST网络(Non-Local Attention-An Efficient and Accurate Scene Text Detector)上的新颖的文本检测算法,通过ASPP空洞卷积来扩大感受野,来获得更大感受野的上下文信息.并且通过结合EAST和非局部注意力机制来精确定位文本边界,准确检测自然场景下的文本位置,克服了EAST对于较大文本和长文本的漏检和误检.对提出的方法进行了数据集测试,在文本定位精度方面由于竞争方法,在ICDAR 2015数据集中,F值达到了84.5%,在天池数据集上,F值达到了84.82%.  相似文献   

13.
近年来,基于深度学习的场景文本检测算法层出不穷,对于EAST在自然场景中对长文本和较大文本检测不准确,存在容易出现误检漏检的问题.论文提出一种基于NLA-EAST网络(Non-Local Attention-An Efficient and Accurate Scene Text Detector)上的新颖的文本检测算法,通过ASPP空洞卷积来扩大感受野,来获得更大感受野的上下文信息.并且通过结合EAST和非局部注意力机制来精确定位文本边界,准确检测自然场景下的文本位置,克服了EAST对于较大文本和长文本的漏检和误检.对提出的方法进行了数据集测试,在文本定位精度方面由于竞争方法,在ICDAR 2015数据集中,F值达到了84.5%,在天池数据集上,F值达到了84.82%.  相似文献   

14.
基于深度学习的自然场景文本检测发展快速,其中基于分割的文本检测算法因其对多方向和弯曲文本检测效果好而备受关注。目前大多数基于分割的文本检测方法为了更加充分利用高层语义特征和底层细粒度特征,特征提取部分通常采用ResNet+特征金字塔(FPN)结构,特征融合部分多用concat或者add进行融合,但FPN存在的不同特征尺度不一致问题可能导致融合结果冲突,进而影响后续分割效果。因此,基于目前快速高效的DBnet网络,对其特征融合方式进行改进,提出了一种基于自适应特征融合的场景文本检测网络。在公开数据集Icdar2015和ICDAR 2017-MLT上的实验结果均表明:文本改进网络与经典的DBnet相比,准确率、召回率、F分数均有所提升,仅FPS稍有降低。  相似文献   

15.
针对自然场景下多方向文本对象,提出一种基于深度学习的文本检测方法.该方法在设计锚框时剥离锚框的方向特征但保留其长宽比特征,在覆盖相同长宽比范围时,锚框设计数量减少,从而缓解采样密集时正负样本类别失衡的影响.在方法的后处理阶段,提出一种边界框校准算法,该算法利用最大稳定极值区域(MSER)获取字符边缘信息,通过基于规则的...  相似文献   

16.
目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83.  相似文献   

17.
边缘与灰度检测相结合的场景图像文本定位   总被引:1,自引:0,他引:1       下载免费PDF全文
自然场景图像中包含大量的图像和文本信息,其文本字符能够提供重要的语义信息。利用计算机自动检测并识别自然场景中的文本信息,是模式识别和文字信息处理领域重要的研究内容。本文提出一种有效的从场景图像中定位文本的方法,其原理为:首先基于边缘检测进行文本区域粗定位,对定位到的区域进行灰度检测,来确定文本域中的字符位置,其后对所得到的检测区域进行筛选,去掉噪声区域,获取到目标文本域。实验结果表明,本文提出的方法对字体的大小、样式、颜色、以及排布方向具有较强的鲁棒性, 能够准确定位并提取自然场景下的文本信息。  相似文献   

18.
随着人们对场景文本检测领域的探索,对于自然场景中较规则文本的检测结果较好,然而对于任意方向的文本和复杂背景图像文本检测结果依然不理想。基于此,提出了一种改进的深度关系推理图网络模型。模型通过不同于anchor思想的文本组件预测部分,直接预测文本行,然后利用深度关系推理网络,推理出待检测文本行。同时引入Resnet50和SENet网络,提高模型特征提取能力和模型鲁棒性。通过在CTW1500和ICDAR2015两个数据集上对改良的模型进行评价,证明了改进算法的可行性。  相似文献   

19.
文本分类技术是自然语言处理领域的研究热点,其主要应用于舆情检测、新闻文本分类等领域。近年来,人工神经网络技术在自然语言处理的许多任务中有着很好的表现,将神经网络技术应用于文本分类取得了许多成果。在基于深度学习的文本分类领域,文本分类的数值化表示技术和基于深度学习的文本分类技术是两个重要的研究方向。对目前文本表示的有关词向量的重要技术和应用于文本分类的深度学习方法的实现原理和研究现状进行了系统的分析和总结,并针对当前的技术发展,分析了文本分类方法的不足和发展趋势。  相似文献   

20.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间。介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果。介绍了多标签文本分类的方法。这些方法主要分为两大类:传统机器学习方法和基于深度学习的方法。传统机器学习方法主要包括问题转换方法和算法自适应方法。基于深度学习的方法是利用各种神经网络模型来处理多标签文本分类问题,根据模型结构,将其分为基于CNN结构、基于RNN结构和基于Transfomer结构的多标签文本分类方法。对多标签文本分类常用的数据集进行了梳理总结。对未来的发展趋势进行了分析与展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号