首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对自然场景文本检测中存在的文本检测信息缺失、漏检的问题,提出了嵌入注意力机制的自然场景文本检测方法。利用Faster-RCNN目标检测网络和特征金字塔网络(FPN)作为基本框架;在区域建议网络(RPN)中嵌入注意力机制并依据文本的特点改进锚点(anchor)的设置,精确了文本候选区域;重新设定损失函数的作用范围。实验结果表明,该方法有效地保证文本检测信息的完整性,较之现有方法明显地提高了文本检测的召回率和准确率,能够应用于文本检测的实际任务中。  相似文献   

2.
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。  相似文献   

3.
目的 基于深度学习的端到端场景文本识别任务已经取得了很大的进展。然而受限于多尺度、任意形状以及背景干扰等问题,大多数端到端文本识别器依然会面临掩码提议不完整的问题,进而影响模型的文本识别结果。为了提高掩码预测的准确率,提出了一种基于软注意力的掩码嵌入模块(soft attention mask embedding,SAME),方法 利用Transformer更好的全局感受野,将高层特征进行编码并计算软注意力,然后将编码特征与预测掩码层级嵌入,生成更贴近文本边界的掩码来抑制背景噪声。基于SAME强大的文本掩码优化及细粒度文本特征提取能力,进一步提出了一个健壮的文本识别框架SAME-Net,开展无需字符级注释的端到端精准文本识别。具体来说,由于软注意力是可微的,所提出的SAME-Net可以将识别损失传播回检测分支,以通过学习注意力的权重来指导文本检测,使检测分支可以由检测和识别目标联合优化。结果 在多个文本识别公开数据集上的实验表明了所提方法的有效性。其中,SAME-Net在任意形状文本数据集Total-Text上实现了84.02%的H-mean,相比于2022年的GLASS(global to local attention for scene-text spotting),在不增加额外训练数据的情况下,全词典的识别准确率提升1.02%。所提方法在多向数据集ICDAR 2015(International Conference on Document Analysis and Recognition)也获得了与同期工作相当的性能,取得83.4%的强词典识别结果。结论 提出了一种基于SAME的端到端文本识别方法。该方法利用Transformer的全局感受野生成靠近文本边界的掩码来抑制背景噪声,提出的SAME模块可以将识别损失反向传输到检测模块,并且不需要额外的文本校正模块。通过检测和识别模块的联合优化,可以在没有字符级标注的情况下实现出色的文本定位性能。  相似文献   

4.
自然场景文本检测识别在智能设备中应用广泛,而对文本识别的第一步则是对文本进行精确的定位检测。对于现有像素分割方法 PixelLink中存在的弯曲文本定位包含过多背景信息、检测图像后处理不足两个主要问题提出改进。引入特征通道注意力机制,关注生成特征图中特征通道间的权重关系,提升检测方法的鲁棒性。接着改变公开数据集标注形式,将坐标点表示为一串带有方向的序列形式,在LSTM模型中进行多边形框的学习与框定。最后在公开数据集和自建数据集上进行文本检测测试。实验表明,改进的检测方法在各数据集中表现优于原方法,与当前领先方法精度相近,能够在各个环境中完成对文本的检测功能。  相似文献   

5.
李煌  王晓莉  项欣光 《计算机科学》2020,47(11):142-147
随着卷积神经网络的发展,场景文本检测也得到了快速发展。然而,场景文本检测仍然存在很多问题:一方面,许多检测方法都采用矩形框作为检测框,这对于图像中不规则的文本是不友好的;另一方面,部分方法获取的检测框无法分离相邻的文本实例,从而导致图像中相邻文本的误检测。为了解决这两个问题,文中提出了一种基于文本三区域分割的场景文本检测方法,将图像的文本实例分别映射到整体区域、核心区域和边框区域空间中,以获取图像的文本实例在上述3个区域的分割图,然后利用整体区域分割图和边框区域分割图来指导核心区域分割图的生成。文本的核心区域虽包含了图像中的文本位置、大小等信息,但是缺少边界信息。为了获取更加精确的检测结果,所提方法利用文本的边框区域来对核心区域进行监督学习。最后将基于文本的核心区域分割图像,产生契合文本核心的外接多边形,并进行一定比例的扩张,获取检测结果。实验结果表明,所提方法在ICDAR2015数据集上的准确率可达到83%,与现有的检测算法相比,其F值获得了1%以上的提升,而且该算法在弯曲文本的检测上亦有着优异的表现。  相似文献   

6.
针对自然场景文本图片背景的多样性、多变性、复杂性等问题,提出一种基于密集连接网络(DenseNet)的DenseText模型。使用改进的DenseNet网络进行提取特征;为更好适应文本图片字体较长的特点,采用长方形卷积核代替传统网络的正方形卷卷积核;区别于传统的NMS后处理算法,使用Soft-NMS算法进行优化。识别框架上,采用CRNN网络进行识别,形成一个端到端的自然场景文本检测与识别的一体化网络框架。实验结果表明,该网络模型在ICDAR13数据集上取得了令人信服的结果,提高了检测结果的准确率,降低了假阳性,recall达到0.85,F为0.88。  相似文献   

7.
王建新  王子亚  田萱 《软件学报》2020,31(5):1465-1496
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势.  相似文献   

8.
自然场景图像中的文字识别,不同于传统文本字符识别。自然场景图像中的文字经常面临着视角变化,多字体文本以及场景图像曝光严重等多种因素的影响,因此,难以准确地获取自然场景图像中字符信息。该文利用可微分二值化函数对自然场景图像进行处理,得到一张易处理二值化图像,并对二值化图像进行文本检测以便机器处理识别,最后利用卷积递归神经网络(CRNN);进行文本识别。该方法不仅提高了自然场景图像字符识别的准确度,而且解决了生活中多字体文字识别的难点。  相似文献   

9.
目的 目前基于卷积神经网络(CNN)的文本检测方法对自然场景中小尺度文本的定位非常困难。但自然场景图像中文本目标与其他目标存在很强的关联性,即自然场景中的文本通常伴随特定物体如广告牌、路牌等同时出现,基于此本文提出了一种顾及目标关联的级联CNN自然场景文本检测方法。方法 首先利用CNN检测文本目标及包含文本的关联物体目标,得到文本候选框及包含文本的关联物体候选框;再扩大包含文本的关联物体候选框区域,并从原始图像中裁剪,然后以该裁剪图像作为CNN的输入再精确检测文本候选框;最后采用非极大值抑制方法融合上述两步生成的文本候选框,得到文本检测结果。结果 本文方法能够有效地检测小尺度文本,在ICDAR-2013数据集上召回率、准确率和F值分别为0.817、0.880和0.847。结论 本文方法顾及自然场景中文本目标与包含文本的物体目标的强关联性,提高了自然场景图像中小尺度文本检测的召回率。  相似文献   

10.
自然场景文本检测技术已经成为计算机视觉领域重要的研究任务,在图像检索、辅助驾驶、工业检测等领域具有广泛应用.在现有的基于深度学习的自然场景文本检测方法中,非极大抑制算法在对同一个真实文本框的重复检测进行合并和筛选时,将预测框的分类置信度作为排序依据,导致那些定位更精确而分类置信度略低的预测框被抑制,从而影响检测准确率....  相似文献   

11.
近年来,基于深度学习的场景文本检测算法层出不穷,对于EAST在自然场景中对长文本和较大文本检测不准确,存在容易出现误检漏检的问题.论文提出一种基于NLA-EAST网络(Non-Local Attention-An Efficient and Accurate Scene Text Detector)上的新颖的文本检测算法,通过ASPP空洞卷积来扩大感受野,来获得更大感受野的上下文信息.并且通过结合EAST和非局部注意力机制来精确定位文本边界,准确检测自然场景下的文本位置,克服了EAST对于较大文本和长文本的漏检和误检.对提出的方法进行了数据集测试,在文本定位精度方面由于竞争方法,在ICDAR 2015数据集中,F值达到了84.5%,在天池数据集上,F值达到了84.82%.  相似文献   

12.
近年来,基于深度学习的场景文本检测算法层出不穷,对于EAST在自然场景中对长文本和较大文本检测不准确,存在容易出现误检漏检的问题.论文提出一种基于NLA-EAST网络(Non-Local Attention-An Efficient and Accurate Scene Text Detector)上的新颖的文本检测算法,通过ASPP空洞卷积来扩大感受野,来获得更大感受野的上下文信息.并且通过结合EAST和非局部注意力机制来精确定位文本边界,准确检测自然场景下的文本位置,克服了EAST对于较大文本和长文本的漏检和误检.对提出的方法进行了数据集测试,在文本定位精度方面由于竞争方法,在ICDAR 2015数据集中,F值达到了84.5%,在天池数据集上,F值达到了84.82%.  相似文献   

13.
基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。  相似文献   

14.
针对光照不均和背景复杂度所导致的自然场景文本检测中文本的漏检和错检现象,提出一种基于笔画角度变换和宽度特征的自然场景文本检测方法。分析发现与非文本相比,文本具有较稳定的笔画角度变换次数和笔画宽度,针对这两个特性提出笔画外边界优劣角变换次数和增强笔画支持像素面积比两种特征。前者分段统计笔画外轮廓角度变换次数;后者计算笔画宽度稳定区域在笔画总面积的占比,用来分别反映笔画角度和宽度变化稳定特性。为降低文本漏检率,采用多通道最大稳定极值区域(maximally stable extremal regions,MSER)检测,合并所有候选区域,提取候选区域的笔画特征和纹理特征,利用支持向量机完成文本和非文本区域分类。在ICDAR2015数据库上,算法的精确率和召回率分别达到79.3%和72.8%,并在一定程度上解决了光照不均和复杂背景的问题。  相似文献   

15.
场景文本检测是场景文本识别中重要的一步,也是一个具有挑战性的问题.不同于一般的目标检测,场景文本检测的主要挑战在于自然场景图像中的文本具有任意方向,小的尺寸,以及多种宽高比.论文在TextBoxes[8]的基础上进行改进,提出了一个适用于任意方向文本的检测器,命名为OSTD(Oriented Scene Text De...  相似文献   

16.
目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83.  相似文献   

17.
目的 目前,基于MSERs(maximally stable extremal regions)的文本检测方法是自然场景图像文本检测的主流方法。但是自然场景图像中部分文本的背景复杂多变,MSERs算法无法将其准确提取出来,降低了该类方法的鲁棒性。本文针对自然场景图像文本背景复杂多变的特点,将MSCRs(maximally stable color regions)算法用于自然场景文本检测,提出一种结合MSCRs与MSERs的自然场景文本检测方法。方法 首先采用MSCRs算法与MSERs算法提取候选字符区域;然后利用候选字符区域的纹理特征训练随机森林字符分类器,对候选字符区域进行分类,从而得到字符区域;最后,依据字符区域的彩色一致性和几何邻接关系对字符进行合并,得到最终文本检测结果。结果 本文方法在ICDAR 2013上的召回率、准确率和F值分别为71.9%、84.1%和77.5%,相对于其他方法的召回率和F值均有所提高。结论 本文方法对自然场景图像文本检测具有较强的鲁棒性,实验结果验证了本文方法的有效性。  相似文献   

18.
针对自然场景下多方向文本对象,提出一种基于深度学习的文本检测方法.该方法在设计锚框时剥离锚框的方向特征但保留其长宽比特征,在覆盖相同长宽比范围时,锚框设计数量减少,从而缓解采样密集时正负样本类别失衡的影响.在方法的后处理阶段,提出一种边界框校准算法,该算法利用最大稳定极值区域(MSER)获取字符边缘信息,通过基于规则的...  相似文献   

19.
图片中含有丰富的文字信息,这有利于正确理解图像内容,并对构建基于图片内容进行检索的系统具有重要意义。本文将基于自然场景中的文字特征的文本检测技术,进行了分类分析,并对国内外的研究现状进行了阐述。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号