首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着深度学习技术的发展, 自然场景文本检测的性能获得了显著的提升. 但目前仍然存在两个主要的挑战: 一是速度和准确度之间的权衡, 二是对任意形状的文本实例的检测. 本文采用基于分割的方法高效准确的检测任意形状场景文本. 具体来说, 使用具有低计算成本的分割头和简洁高效的后处理, 分割头由特征金字塔增强模块和特征融合模块组成, 前者可以引入多层次的信息来指导更好的分割, 后者可以将前者给出的不同深度的特征集合成最终的特征进行分割. 本文采用可微二值化模块, 自适应地设置二值化阈值, 将分割方法产生的概率图转换为文本区域, 从而提高文本检测的性能. 在标准数据集ICDAR2015和Total-Text上, 本文提出的方法使用轻量级主干网络如ResNet18在速度和准确度方面都达到了可比较的结果.  相似文献   

2.
Cheng  Qi  Wang  Guodong  Dong  Qian  Wei  Bin 《Multimedia Tools and Applications》2020,79(39-40):29225-29242
Multimedia Tools and Applications - Recently, scene text detection has become an active research field, which is an essential component of scene text reading. Especially, segmentation-based methods...  相似文献   

3.
自然场景文本检测对于机器理解场景等有着重要作用。近年来,随着深度学习的发展,自然场景文字检测方法也日新月异,取得了很好的检测效果。分析、总结了近年来基于深度学习的场景文字检测方法,将其归纳分类为基于回归、基于分割,以及两者混合三种类型,并对各类检测方法的优缺点进行了对比分析。介绍了场景文本检测性能指标及常用的公开数据集以及下载方式。对场景文字检测领域研究进行总结和展望,有望为深度学习场景文本检测方法提供新的研究方向。  相似文献   

4.
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。  相似文献   

5.
王建新  王子亚  田萱 《软件学报》2020,31(5):1465-1496
自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势.  相似文献   

6.
目的 获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础。为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络。方法 该方法使用特征金字塔增强模块和特征融合模块进行轻量级特征提取,保证了速度优势;同时引入非局部操作以增强骨干网络的特征提取能力,使其检测准确性得以提高。非局部操作是一种注意力机制,能捕捉到文本像素之间的内在关系。此外,本文设计了一种特征向量融合模块,用于融合不同尺度的特征图,使尺度多变的场景文本实例的特征表达得到增强。结果 本文方法在3个场景文本数据集上与其他方法进行了比较,在速度和准确度上均表现突出。在ICDAR(International Conference on Document Analysis and Recognition) 2015数据集上,本文方法比最优方法的F值提高了0.9%,检测速度达到了23.1 帧/s;在CTW(Curve Text in the Wild) 1500数据集上,本文方法比最优方法的F值提高了1.2%,检测速度达到了71.8 帧/s;在Total-Text数据集上,本文方法比最优方法的F值提高了1.3%,检测速度达到了34.3 帧/s,远远超出其他方法。结论 本文方法兼顾了准确性和实时性,在准确度和速度上均达到较高水平。  相似文献   

7.
张智  秦瑶  顾进广 《计算机应用研究》2021,38(8):2474-2478,2484
目前,多方向文本检测方法已经在各种数据集上取得了不错的性能,但是任意形状文本检测仍然存在一些困难,尤其是具有不同大小、形状、方向、颜色和样式的文本实例.为了更好地区分连续任意形状的文本实例和周边非文本区域,提出了一种基于分段的文本检测器,通过使用多边形偏移蒙版和边界增强来检测任意形状的场景文本.为了评估该方法的有效性,在ICDAR2015和Total-Text等公开数据集上进行了多组对比实验,实验结果证明该方法有着更卓越的性能.  相似文献   

8.
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。  相似文献   

9.
偏标记学习是一种重要的弱监督学习框架。在偏标记学习中,每个实例与一组候选标记相关联,它的真实标记隐藏在候选标记集合中,且在学习过程中不可获知。为了消除候选标记对学习过程的影响,提出了一种融合实例语义差别最大化和流型学习的偏标记学习方法(partial label learning by semantic difference and manifold learning, PL-SDML)。该方法是一个两阶段的方法:在训练阶段,基于实例的语义差别最大化准则和流型学习方法为训练实例生成标记置信度;在预测阶段,使用基于最近邻投票的方法为未知实例预测标记类别。在四组人工改造的UCI数据集中,在平均70%的情况下优于其他对比算法。在四组真实偏标记数据集中,相比其他对比算法,取得了0.3%~13.8%的性能提升。  相似文献   

10.
随着深度学习技术在计算机视觉领域的发展,场景文本检测与文字识别技术也有了突破性的进展.受到自然场景下极端光照、遮挡、模糊、多方向多尺度等情况的影响,无约束的场景文本检测与识别仍然面临着巨大的挑战.从深度学习的角度对场景文本检测和文字识别技术进行深入研究,总结出在文本检测技术中将基于分割的方法与回归的方法优势相结合,可以...  相似文献   

11.
传统的自然场景文字检测方法所采用的手工设计特征在应对复杂自然场景时缺乏鲁棒性。针对复杂自然场景中的多方向文字检测问题,提出了一种新的基于深度学习文字检测方法,采用全卷积网络(Fully Convolutional Networks,FCN)并融合多尺度文字特征图,结合语义分割的方法分割文字候选区域,利用分割得到的文字候选区域直接获取文字候选检测框并进行扩大补偿处理,对文字候选检测框进行后处理得到最终检测结果。该方法在ICDAR2013、ICDAR2015标准数据集进行了测评,实验结果表明该方法相比一些最新方法取得了更好的性能。  相似文献   

12.
目的 目前基于卷积神经网络(CNN)的文本检测方法对自然场景中小尺度文本的定位非常困难。但自然场景图像中文本目标与其他目标存在很强的关联性,即自然场景中的文本通常伴随特定物体如广告牌、路牌等同时出现,基于此本文提出了一种顾及目标关联的级联CNN自然场景文本检测方法。方法 首先利用CNN检测文本目标及包含文本的关联物体目标,得到文本候选框及包含文本的关联物体候选框;再扩大包含文本的关联物体候选框区域,并从原始图像中裁剪,然后以该裁剪图像作为CNN的输入再精确检测文本候选框;最后采用非极大值抑制方法融合上述两步生成的文本候选框,得到文本检测结果。结果 本文方法能够有效地检测小尺度文本,在ICDAR-2013数据集上召回率、准确率和F值分别为0.817、0.880和0.847。结论 本文方法顾及自然场景中文本目标与包含文本的物体目标的强关联性,提高了自然场景图像中小尺度文本检测的召回率。  相似文献   

13.
Text in natural scene images usually carries abundant semantic information. However, due to variations of text and complexity of background, detecting text in scene images becomes a critical and challenging task. In this paper, we present a novel method to detect text from scene images. Firstly, we decompose scene images into background and text components using morphological component analysis (MCA), which will reduce the adverse effects of complex backgrounds on the detection results. In order to improve the performance of image decomposition, two discriminative dictionaries of background and text are learned from the training samples. Moreover, Laplacian sparse regularization is introduced into our proposed dictionary learning method which improves discrimination of dictionary. Based on the text dictionary and the sparse-representation coefficients of text, we can construct the text component. After that, the text in the query image can be detected by applying certain heuristic rules. The results of experiments show the effectiveness of the proposed method.   相似文献   

14.
多标记学习不同于传统的监督学习,它是为了解决客观世界中多义性对象的建模问题而提出的一种学习框架。在该框架下,一个实例可以同时隶属于多个标记。已有的多标记学习算法大多假设每个样本的标记集合都是完整的,但有时某些实例对应的标记会出现缺失。为了应对这一问题,本文提出一种针对弱标记文档的分类方法,该方法基于标记之间不同的相关性和相似实例具有相似标记的假设,构造一个最优化问题,以尽可能地补全缺失的标记。实验结果表明,该方法可以有效地提升学习系统的泛化性能。   相似文献   

15.

Many computer vision-based techniques utilize semantic information i.e. scene text present in a natural scene for image analysis. Subsequently, in recent times researchers pay more attention to key tasks such as scene text detection, recognition, and end-to-end system. In this survey, we have given a comprehensive review of the recent advances on these key tasks. The review focused firstly on the traditional methods and their categorization, also show the evolution of scene text detection, recognition methods, and end-to-end systems with their pros and cons. Secondly, this survey focuses on the latest state-of-the-art (SOTA) methods based on transfer learning and additionally do the extension of scene text reading system i.e. salient text detection, text or non-text image classification, a fusion of scene text in vision and language, etc. After that, we have done a performance analysis on various SOTA methods on the various key issues and techniques. Finally, we discuss the various evaluation metrics and standard dataset on which the various SOTA methods of scene text detection is investigated and compared.

  相似文献   

16.
目的 卷积神经网络(convolutional neural network, CNN)在遥感场景图像分类中广泛应用,但缺乏训练数据依然是不容忽视的问题。小样本遥感场景分类是指模型只需利用少量样本训练即可完成遥感场景图像分类任务。虽然现有基于元学习的小样本遥感场景图像分类方法可以摆脱大数据训练的依赖,但模型的泛化能力依然较弱。为了解决这一问题,本文提出一种基于自监督学习的小样本遥感场景图像分类方法来增加模型的泛化能力。方法 本文方法分为两个阶段。首先,使用元学习训练老师网络直到收敛;然后,双学生网络和老师网络对同一个输入进行预测。老师网络的预测结果会通过蒸馏损失指导双学生网络的训练。另外,在图像特征进入分类器之前,自监督对比学习通过度量同类样本的类中心距离,使模型学习到更明确的类间边界。两种自监督机制能够使模型学习到更丰富的类间关系,从而提高模型的泛化能力。结果 本文在NWPU-RESISC45(North Western Polytechnical University-remote sensing image scene classification)、AID(aerial ima...  相似文献   

17.
冯智达  陈黎 《计算机应用》2022,42(12):3686-3691
针对基于分割的文字检测方法在混叠文字场景下性能下降的问题,提出了单向投影Transformer (SDPT)用于混叠文本检测。首先,使用深度残差网络(ResNet)和特征金字塔网络(FPN)提取并融合多尺度特征;然后,利用水平投影将特征图投影成向量序列,并送入Transformer模块进行建模,以挖掘文本行与行之间的关系;最后,使用多目标来进行联合优化。在合成数据集BDD-SynText和真实数据集RealText上进行了大量实验,结果表明,所提SDPT在高混叠度的文字检测下取得了最优的效果,而与PSENet等文本检测算法在相同骨干网络(ResNet50)条件下相比,在BDD-SynText上F1-Score(IoU75)至少提高了21.36个百分点,在RealText上的F1-Score (IoU75)至少提高了18.11个百分点,验证了所提方法对于混叠文字检测性能改善的重要作用。  相似文献   

18.
李晨光  张波  赵骞  陈小平  王行甫 《计算机应用》2022,42(11):3603-3609
由于缺乏足够的训练数据,文本共情预测的进展一直都较为缓慢;而与之相关的文本情感极性分类任务则存在大量有标签的训练样本。由于文本共情预测与文本情感极性分类两个任务间存在较大相关性,因此提出了一种基于迁移学习的文本共情预测方法,该方法可从情感极性分类任务中学习到可迁移的公共特征,并通过学习到的公共特征辅助文本共情预测任务。首先通过一个注意力机制对两个任务间的公私有特征进行动态加权融合;其次为了消除两个任务间的数据集领域差异,通过一种对抗学习策略来区分两个任务间的领域独有特征与领域公共特征;最后提出了一种Hinge?loss约束策略,使共同特征对不同的目标标签具有通用性,而私有特征对不同的目标标签具有独有性。在两个基准数据集上的实验结果表明,相较于对比的迁移学习方法,所提方法的皮尔逊相关系数(PCC)和决定系数(R2)更高,均方误差(MSE)更小,充分说明了所提方法的有效性。  相似文献   

19.
目的 基于深度神经网络的遥感图像处理方法在训练过程中往往需要大量准确标注的数据,一旦标注数据中存在标签噪声,将导致深度神经网络性能显著降低。为了解决噪声造成的性能下降问题,提出了一种噪声鲁棒的轻量级深度遥感场景图像分类检索方法,能够同时完成分类和哈希检索任务,有效提高深度神经网络在有标签噪声遥感数据上的分类和哈希检索性能。方法 选取轻量级神经网络作为骨干网,而后设计能够同时完成分类和哈希检索任务的双分支结构,最后通过设置损失基准的正则化方法,有效减轻模型对噪声的过拟合,得到噪声鲁棒的分类检索模型。结果 本文在两个公开遥感场景数据集上进行分类测试,并与8种方法进行比较。本文方法在AID(aerial image datasets)数据集上,所有噪声比例下的分类精度比次优方法平均高出7.8%,在NWPU-RESISC45(benchmark created by Northwestern Polytechnical University for remote sensing image scene classification covering 45 scene classes)数据集上,分类精度比次优方法平均高出8.1%。在效率方面,本文方法的推理速度比CLEOT(classification loss with entropic optimal transport)方法提升了2.8倍,而计算量和参数量均不超过CLEOT方法的5%。在遥感图像哈希检索任务中,在AID数据集上,本文方法的平均精度均值(mean average precision,mAP)在3种不同哈希比特下比MiLaN(metric-learning based deep hashing network)方法平均提高了5.9%。结论 本文方法可以同时完成遥感图像分类和哈希检索任务,在保持模型轻量高效的情况下,有效提升了深度神经网络在有标签噪声遥感数据上的鲁棒性。  相似文献   

20.
刘辉  曾鹏飞 《控制与决策》2021,36(9):2170-2178
现有的基于深度学习的自然场景文本检测方法一般采用大型深度神经网络作为主干网络进行特征提取,虽然效果显著但检测模型十分庞大,检测效率较低,若直接将主干网络换成轻量型网络则不能提取出足够的特征信息,直接导致检测效果大幅降低.为了降低文本检测模型的规模以及更为高效地检测文本,提出基于双分支特征融合的场景文本检测方法,在采用相对轻量级的主干网络EfficientNet-b3的基础上,使用双路分支进行特征融合进而检测场景文本.一路分支使用特征金字塔网络,融合不同层级的特征;另一路分支使用空洞卷积空间金字塔池化结构,扩大感受野,然后融合两个分支的特征,在小幅增加计算量的同时获取更多的特征,弥补小型网络提取特征不足的问题.在3个公开数据集上的实验结果显示,所提出方法在保持较高检测水平的情况下,可以大幅度降低模型的参数量,大幅度提升检测速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号