期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

连哲殷雁君云飞智敏《计算机工程》2024,(3):16-27

基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。相似文献

2.

基于文本三区域分割的场景文本检测方法

李煌王晓莉项欣光《计算机科学》2020,47(11):142-147

随着卷积神经网络的发展,场景文本检测也得到了快速发展。然而,场景文本检测仍然存在很多问题:一方面,许多检测方法都采用矩形框作为检测框,这对于图像中不规则的文本是不友好的;另一方面,部分方法获取的检测框无法分离相邻的文本实例,从而导致图像中相邻文本的误检测。为了解决这两个问题,文中提出了一种基于文本三区域分割的场景文本检测方法,将图像的文本实例分别映射到整体区域、核心区域和边框区域空间中,以获取图像的文本实例在上述3个区域的分割图,然后利用整体区域分割图和边框区域分割图来指导核心区域分割图的生成。文本的核心区域虽包含了图像中的文本位置、大小等信息,但是缺少边界信息。为了获取更加精确的检测结果,所提方法利用文本的边框区域来对核心区域进行监督学习。最后将基于文本的核心区域分割图像,产生契合文本核心的外接多边形,并进行一定比例的扩张,获取检测结果。实验结果表明,所提方法在ICDAR2015数据集上的准确率可达到83%,与现有的检测算法相比,其F值获得了1%以上的提升,而且该算法在弯曲文本的检测上亦有着优异的表现。相似文献

3.

基于RetinaNet的场景文字检测算法

金灵张轶《计算机应用与软件》2022,(2):201-207

针对场景文字区域尺度变化较大,具有较大的长宽比,且具有任意方向性等问题,提出一种基于神经网络的场景文字检测模型.基于直接回归方法设计,无需预先设置锚框,在多次层次构建特征,且在多个分支之间共享卷积核.实验阶段在多个数据集上验证了模型的有效性,相较于现有方法,该模型计算资源消耗更小,推理速度更快,整体性能更好. 相似文献

4.

自然场景图像中的文本检测综述 总被引：3，自引：0，他引：3

王润民桑农丁丁陈杰叶齐祥高常鑫刘丽《自动化学报》2018,44(12):2113-2141

本文对自然场景文本检测问题及其方法的研究进展进行了综述.首先,论述了自然场景文本的特点、自然场景文本检测技术的研究背景、现状以及主要技术路线.其次,从传统文本检测以及深度学习文本检测的视角出发,梳理、分析并比较了各类自然场景文本检测方法的优缺点,并介绍了端对端文本识别技术.再次,论述了自然场景文本检测技术所面临的挑战,探讨了相应的解决方案.最后,本文列举了测试基准数据集、评估方法,将最具代表性的自然场景文本检测方法的性能进行了比较,本文还展望了本领域的发展趋势. 相似文献

5.

目标检测算法在交通场景中应用综述 总被引：1，自引：0，他引：1

下载免费PDF全文

肖雨晴杨慧敏《计算机工程与应用》2021,57(6):30-41

目标检测是计算机视觉领域的重要研究任务,在机器人、自动驾驶、工业检测等方面应用广泛。在深度学习理论的基础上,系统性总结了目标检测算法的发展与研究现状,对两类算法的特点、优缺点和实时性进行对比。以交通场景中三类典型物体（非机动车、机动车和行人）为目标,从传统检测方法、目标检测算法、目标检测算法优化、三维目标检测、多模态目标检测和重识别六个方面分别论述和总结目标检测算法检测识别交通场景目标的研究现状与应用情况,重点介绍了各类方法的优势、局限性和适用场景。归纳了常用目标检测和交通场景数据集及评价标准,比较分析两类算法性能,展望目标检测算法在交通场景中应用研究的发展趋势,为智能交通、自动驾驶提供研究思路。相似文献

6.

深度学习场景文本检测方法综述

下载免费PDF全文

李益红陈袁宇《计算机工程与应用》2021,57(6):42-48

自然场景文本检测对于机器理解场景等有着重要作用。近年来,随着深度学习的发展,自然场景文字检测方法也日新月异,取得了很好的检测效果。分析、总结了近年来基于深度学习的场景文字检测方法,将其归纳分类为基于回归、基于分割,以及两者混合三种类型,并对各类检测方法的优缺点进行了对比分析。介绍了场景文本检测性能指标及常用的公开数据集以及下载方式。对场景文字检测领域研究进行总结和展望,有望为深度学习场景文本检测方法提供新的研究方向。相似文献

7.

基于深度学习的自然场景文本检测与识别综述

王建新王子亚田萱《软件学报》2020,31(5):1465-1496

自然场景文本检测与识别研究对于从场景中获取信息有重要意义,而深度学习技术有助于提高文本检测与识别的能力.主要对基于深度学习的自然场景文本检测与识别方法和其研究进展进行整理分类、分析和总结.首先论述自然场景文本检测与识别的相关研究背景及主要技术研究路线;然后,根据自然场景文本信息处理的不同阶段,进一步介绍文本检测模型、文本识别模型和端到端的文本识别模型,并阐述和分析每类模型方法的基本思路和优缺点;另外,列举了常见公共标准数据集以及性能评估指标和方法,并对不同模型相关实验结果进行了对比分析;最后总结基于深度学习的自然场景文本检测与识别技术面临的挑战和发展趋势. 相似文献

8.

深度学习在场景文字识别技术中的应用综述

下载免费PDF全文

刘艳菊伊鑫海李炎阁张惠玉刘彦忠《计算机工程与应用》2022,58(4):52-63

随着深度学习技术在计算机视觉领域的发展,场景文本检测与文字识别技术也有了突破性的进展.受到自然场景下极端光照、遮挡、模糊、多方向多尺度等情况的影响,无约束的场景文本检测与识别仍然面临着巨大的挑战.从深度学习的角度对场景文本检测和文字识别技术进行深入研究,总结出在文本检测技术中将基于分割的方法与回归的方法优势相结合,可以... 相似文献

9.

基于卷积神经网络的复杂场景目标检测算法

下载免费PDF全文

王晓宁宫法明时念云吕轩轩《计算机系统应用》2019,28(6):153-158

海上石油平台监控环境复杂，采油工作平台摄像头监控角度不同，海上环境复杂多变，雨雾等天气下，摄像头图片模糊不清.针对上述增加了目标检测的难度的问题，提出了一种基于卷积神经网络的复杂场景目标检测算法（简称ODCS）来检测图像中的特定对象.该方法结合不同分辨率的特征图预测来自然处理各种尺寸的对象，消除了特征重新采样阶段，并将所有计算封装在单个网络中，这样易于训练且可以直接集成到需要检测组件的系统中.实验结果表明，相对于传统的方法，该方法检测在准确率和召回率上明显提高，且检测效率能够满足实时应用的要求. 相似文献

10.

基于特征融合网络的自然场景文本检测

余峥王晴晴吕岳《计算机系统应用》2018,27(10):1-10

目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83. 相似文献

11.

层级语义融合的场景文本检测

下载免费PDF全文

王紫霄谢洪涛王裕鑫张勇东《中国图象图形学报》2023,28(8):2343-2355

目的场景文本检测是场景理解和文字识别领域的重要任务之一,尽管基于深度学习的算法显著提升了检测精度,但现有的方法由于对文字局部语义和文字实例间的全局语义的提取能力不足,导致缺乏文字多层语义的建模,从而检测精度不理想。针对此问题,提出了一种层级语义融合的场景文本检测算法。方法该方法包括基于文本片段的局部语义理解模块和基于文本实例的全局语义理解模块,以分别引导网络关注文字局部和文字实例间的多层级语义信息。首先,基于文本片段的局部语义理解模块根据相对位置将文本划分为多个片段,在细粒度优化目标的监督下增强网络对局部语义的感知能力。然后,基于文本实例的全局语义理解模块利用文本片段粗分割结果过滤背景区域并提取可靠的文字区域特征,进而通过注意力机制自适应地捕获任意形状文本的全局语义信息并得到最终分割结果。此外,为了降低边界区域的预测噪声对层级语义信息聚合的干扰,提出边界感知损失函数以降低边界区域特征的歧义性。结果算法在3个常用的场景文字检测数据集上实验并与其他算法进行了比较,所提方法在性能上获得了显著提升,在Totoal-Text数据集上,F值为87.0%,相比其他模型提升了1.0%;在MSRA-TD500（MSRA text detection 500 database）数据集上,F值为88.2%,相比其他模型提升了1.0%;在ICDAR 2015（International Conference on Document Analysis and Recognition）数据集上,F值为87.0%。结论提出的模型通过分别构建不同层级下的语义上下文和对歧义特征额外的惩罚解决了层级语义提取不充分的问题,获得了更高的检测精度。相似文献

12.

Label distribution learning for scene text detection

Haoyu MA Ningning LU Junjun MEI Tao GUAN Yu ZHANG Xin GENG 《Frontiers of Computer Science》2023,17(6):176339

Recently, segmentation-based scene text detection has drawn a wide research interest due to its flexibility in describing scene text instance of arbitrary shapes such as curved texts. However, existing methods usually need complex post-processing stages to process ambiguous labels, i.e., the labels of the pixels near the text boundary, which may belong to the text or background. In this paper, we present a framework for segmentation-based scene text detection by learning from ambiguous labels. We use the label distribution learning method to process the label ambiguity of text annotation, which achieves a good performance without using additional post-processing stage. Experiments on benchmark datasets demonstrate that our method produces better results than state-of-the-art methods for segmentation-based scene text detection. 相似文献

13.

改进PSENet的自然场景文本检测方法

彭栋支世尧李盛达杨鹏《计算机时代》2022,(6):89-92,96

相似文献

14.

Redefining the DCT-based feature for scene text detection

Hideaki Goto 《International Journal on Document Analysis and Recognition》2008,11(1):1-8

We analyze some spatial frequency-based features used for text region detection in natural scene images, and redefine the DCT-based feature. We employ Fisher’s discriminant analysis to improve the DCT-based feature and to achieve higher accuracy. An unsupervised thresholding method for discriminating text and non-text regions is introduced and tested as well. Experimental results show that a wide high frequency band, covering some lower-middle frequency components, is generally more suitable for scene text detection despite the original definition of the DCT-based feature. 相似文献

15.

Arbitrary-shaped scene text detection with keypoint-based shape representation

Qin Shuxin Chen Lin 《International Journal on Document Analysis and Recognition》2022,25(2):115-127

International Journal on Document Analysis and Recognition (IJDAR) - Recently scene text detection has become a hot research topic. Arbitrary-shaped text detection is more challenging due to the... 相似文献

16.

顾及目标关联的自然场景文本检测

下载免费PDF全文

易尧华何婧婧卢利琼汤梓伟《中国图象图形学报》2020,25(1):126-135

目的目前基于卷积神经网络（CNN）的文本检测方法对自然场景中小尺度文本的定位非常困难。但自然场景图像中文本目标与其他目标存在很强的关联性,即自然场景中的文本通常伴随特定物体如广告牌、路牌等同时出现,基于此本文提出了一种顾及目标关联的级联CNN自然场景文本检测方法。方法首先利用CNN检测文本目标及包含文本的关联物体目标,得到文本候选框及包含文本的关联物体候选框;再扩大包含文本的关联物体候选框区域,并从原始图像中裁剪,然后以该裁剪图像作为CNN的输入再精确检测文本候选框;最后采用非极大值抑制方法融合上述两步生成的文本候选框,得到文本检测结果。结果本文方法能够有效地检测小尺度文本,在ICDAR-2013数据集上召回率、准确率和F值分别为0.817、0.880和0.847。结论本文方法顾及自然场景中文本目标与包含文本的物体目标的强关联性,提高了自然场景图像中小尺度文本检测的召回率。相似文献

17.

TextPolar: irregular scene text detection using polar representation

Chen Jie Lian Zhouhui 《International Journal on Document Analysis and Recognition》2021,24(4):315-323

International Journal on Document Analysis and Recognition (IJDAR) - How to precisely detect arbitrary-shaped texts in natural images has recently become a new hot topic in areas of computer vision... 相似文献

18.

基于双分支特征融合的场景文本检测方法

赵鹏徐本朋闫石刘政怡《控制与决策》2021,36(9):2179-2186

现有的基于深度学习的自然场景文本检测方法一般采用大型深度神经网络作为主干网络进行特征提取,虽然效果显著但检测模型十分庞大,检测效率较低,若直接将主干网络换成轻量型网络则不能提取出足够的特征信息,直接导致检测效果大幅降低.为了降低文本检测模型的规模以及更为高效地检测文本,提出基于双分支特征融合的场景文本检测方法,在采用相... 相似文献

19.

自然场景文本检测与识别的深度学习方法

下载免费PDF全文

刘崇宇陈晓雪罗灿杰金连文薛洋刘禹良《中国图象图形学报》2021,26(6):1330-1367

许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。相似文献

20.

基于改进Mask R-CNN的越南场景文字检测

俸亚特文益民《计算机应用》2021,41(12):3551-3557

针对越南场景文字检测训练数据缺乏及越南文字声调符号检测不全的问题,在改进的实例分割网络Mask R-CNN的基础上,提出一种针对越南场景文字的检测算法。为了准确地分割带声调符号的越南场景文字,该算法仅使用P2特征层来分割文字区域,并将文字区域的掩码矩阵大小从14×14调整为14×28以更好地适应文字区域。针对用常规非极大值抑制（NMS）算法不能剔除重复文字检测框的问题,设计了一个针对文字区域的文本区域过滤模块并添加在检测模块之后,以有效地剔除冗余检测框。使用模型联合训练的方法训练网络,训练过程包含两部分：第一部分为特征金字塔网络（FPN）和区域生成网络（RPN）的训练,训练使用的数据集为大规模公开的拉丁文字数据,目的是增强模型在不同场景下提取文字的泛化能力;第二部分为候选框坐标回归模块和区域分割模块的训练,此部分模型参数使用像素级标注的越南场景文字数据进行训练,使模型能对包括声调符号的越南文字区域进行分割。大量交叉验证实验和对比实验结果表明,与Mask R-CNN相比,所提算法在不同的交并比（IoU）阈值下都具有更好的准确率与召回率。相似文献