首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
针对CTPN算法不能检测倾斜文本和小尺度文本检测效果差的问题,提出一种基于旋转变量的改进文本检测算法(CTPN-R)。通过增加旋转角度预测层,将文本行拆分成一系列带旋转角度的anchor用于网络训练解决文本倾斜问题,加入特征融合层构建特征图金字塔以检测多尺度文本,改进边缘细化层的输出变量和回归方法,优化文本连接。CTPN-R在倾斜文本数据集MSRA-TD500上的检测综合性能指标F-measure达到了77.5%,比CTPN提高了38%。仿真结果表明,CTPN-R对实际场景中的文本图像检测精度高、实时性好,可以检测任意大小、任意方向文本。  相似文献   

2.
场景文本检测有助于机器理解图像内容,在智能交通、场景理解和智能导航等领域应用广泛。现有的场景文本检测算法未充分利用高层语义信息和空间信息,限制了模型对复杂背景像素的分类能力和对不同尺度的文本实例的检测和定位能力。为解决上述问题,提出了一种基于增强特征金字塔网络的场景文本检测算法。该算法包括比率不变特征增强(Ratio Invariant Feature Enhanced,RIFE)模块和重建空间分辨率(Rebuild Spatial Resolution,RSR)模块。RIFE模块作为残差分支,增强了网络的高层语义信息传递,提高了分类能力,降低了误报率和漏捡率。RSR模块重建多层特征分辨率,利用丰富的空间信息改进边界位置。实验结果表明,所提算法提升了在多方向文本数据集ICDAR2015、弯曲文本数据集Totaltext以及长文本数据集MSRA-TD500上的检测能力。  相似文献   

3.
主动轮廓模型存在演化速度慢、对初始轮廓和噪声敏感、弱边缘泄漏及目标过分割等问题。对以上问题进行了研究,提出了融合显著性特征的自适应主动轮廓模型。提出基于去雾算法的显著性映射作为正则项提升模型对初始轮廓位置的鲁棒性,防止轮廓演化过程过早陷入局部最优解,同时缩短轮廓演化时间。为了防止模型在演化过程中出现弱边界泄漏,模型中引入边缘检测函数作为能量泛函的权重。该模型利用最大面积稀疏约束,提出自适应目标提取方法来消除目标过分割影响。与多种主动轮廓模型在数据集MRSA500(500张)上进行实验对比,表明了提出的模型对初始轮廓和噪声的鲁棒性,而且提出模型的平均分割效率提升约5.6倍,平均Jaccard相似度系数提升约22%。  相似文献   

4.
目的 场景文本检测是场景理解和文字识别领域的重要任务之一,尽管基于深度学习的算法显著提升了检测精度,但现有的方法由于对文字局部语义和文字实例间的全局语义的提取能力不足,导致缺乏文字多层语义的建模,从而检测精度不理想。针对此问题,提出了一种层级语义融合的场景文本检测算法。方法 该方法包括基于文本片段的局部语义理解模块和基于文本实例的全局语义理解模块,以分别引导网络关注文字局部和文字实例间的多层级语义信息。首先,基于文本片段的局部语义理解模块根据相对位置将文本划分为多个片段,在细粒度优化目标的监督下增强网络对局部语义的感知能力。然后,基于文本实例的全局语义理解模块利用文本片段粗分割结果过滤背景区域并提取可靠的文字区域特征,进而通过注意力机制自适应地捕获任意形状文本的全局语义信息并得到最终分割结果。此外,为了降低边界区域的预测噪声对层级语义信息聚合的干扰,提出边界感知损失函数以降低边界区域特征的歧义性。结果 算法在3个常用的场景文字检测数据集上实验并与其他算法进行了比较,所提方法在性能上获得了显著提升,在Totoal-Text数据集上,F值为87.0%,相比其他模型提升了1.0%;在MSRA-TD500(MSRA text detection 500 database)数据集上,F值为88.2%,相比其他模型提升了1.0%;在ICDAR 2015(International Conference on Document Analysis and Recognition)数据集上,F值为87.0%。结论 提出的模型通过分别构建不同层级下的语义上下文和对歧义特征额外的惩罚解决了层级语义提取不充分的问题,获得了更高的检测精度。  相似文献   

5.
吕伶  李华  王武 《图学学报》2024,(1):56-64
针对自然场景文本长度不定、角度倾斜等难题,提出了一种基于增强特征提取网络与语义特征融合的文本检测方法。通过结合可变形卷积与空洞卷积,设计了一种增强扩张残差模块EDRM (Enhanced Dilated Residual Module),将其应用于ResNet18的conv4_x与conv5_x层,并以此作为骨干网络,在改善网络特征提取能力的同时提高特征图像分辨率,减少空间信息丢失。其次,针对现有算法提取文本语义特征仍不充分的问题,将双向长短期记忆网络BiLSTM (Bi-directional Long Short-Term Memory)引入特征融合部分,增强融合特征图对自然场景文本的表征能力以及特征序列的关联性,同时提高模型的文本定位能力。在多方向文本数据集ICDAR2015、长文本数据集MSRA-TD500上对模型展开评估,实验结果表明,该算法与当下高效的DBNet算法相比,F值分别提升1.8%、3.3%,表现出良好的竞争力。  相似文献   

6.
大量基于卷积神经网络的场景文本检测方法对于密集的长文本容易检测不全,且泛化能力较差。针对这些问题,提出一种面向自底向上的场景文本检测方法。使用自适应通道注意力机制(ACA),通过局部跨通道交互获得更具代表性的文本特征,提高深度卷积神经网络的性能;利用特征增强金字塔(FPEM)融合低层和高层信息进一步增强不同尺度的特征;为解决长文本尺度变化问题,提出一种加权感知损失(WAL),通过调整不同大小的文本实例的权重来增强鲁棒性。实验在CTW1500及MSRA-TD500标准数据集上验证了该方法的优越性。  相似文献   

7.
针对建筑施工场地场景下远距离小目标安全帽佩戴检测问题,提出的一种改进YOLOv4的安全帽检测方法。将BN层和卷积层合并减少修改后的网络前向推理计算量,利用K-means聚类算法改进先验框维度,采用柔性NMS算法进行置信度权重修改解决标签重写问题,应用多尺度特征融合提升模型识别准确率。实验结果表明,该方法在安全帽数据集的检测任务中mAP提升2.91%;对低于32*32尺寸目标AP值相较于原算法提升6.02%,能够有效提升安全帽佩戴检测范围和准确率。  相似文献   

8.
一种改进型多尺度DDCM主动轮廓模型边界检测算法   总被引:5,自引:1,他引:5       下载免费PDF全文
尽管主动轮廓模型 (Active contour model) ,或称 Snakes,近年来已经在计算机视觉和图象处理领域得到了广泛的应用 ,尤其在边界检测方面也表现出良好的性能 ,但是由于传统的 Snakes图象边界检测对初始轮廓线的位置十分敏感 ,因而限制了它的更广泛应用 .为了克服这一问题 ,提出了一种改进型多尺度 DDCM主动轮廓模型的边界检测算法 ,该算法是首先通过分阶段改变轮廓曲线的内力 ,使轮廓曲线的曲率能自适应地进行多尺度调整 ,进而改变了轮廓线的柔性和刚性 ,使之能够更好地与目标边界匹配 .实验结果证明 ,该算法在计算速度和边界检测精度上 ,均优于传统的主动轮廓边界检测算法 ,因而具有一定的实用价值 .  相似文献   

9.
针对遥感影像数据集的图像在形状、纹理和颜色上存在较大差别,以及因拍摄高度和角度不同存在的尺度差异导致遥感场景分类精度不高的问题,提出利用主动旋转聚合来融合不同尺度的特征,并通过双向门控提高底层特征与顶层特征互补性的特征融合补偿卷积神经网络(FAC-CNN)。该网络利用图像金字塔为原始图像生成不同尺度图像后将其输入到分支网络中来提取多尺度特征,并提出主动旋转聚合的方式来融合不同尺度的特征,使融合后的特征具有方向信息,从而提高模型对不同尺度输入以及不同旋转输入的泛化能力,实现模型分类精度的提升。FAC-CNN比基于VGGNet的注意循环卷积网络(ARCNet-VGGNet)和门控双向网络(GBNet)在西北工业大学遥感场景图像分类数据集(NWPU-RESISC)上准确率分别提升了2.05个百分点与2.69个百分点,在航空影像数据集(AID)上准确率分别提升了3.24个百分点与0.86个百分点。实验结果表明,FAC-CNN能有效解决遥感影像数据集存在的问题,提高遥感场景分类的精度。  相似文献   

10.
李祥兵  陈炼 《计算机工程》2021,47(1):210-216
为实现对自然场景下小尺度人脸的准确检测,提出一种改进的Faster-RCNN模型。采用ResNet-50提取卷积特征,对不同卷积层的特征图进行多尺度融合,同时将区域建议网络产生的锚框由最初的9个改为15个,以更好地适应小尺度人脸检测场景。在此基础上,利用在线难例挖掘算法优化训练过程,采用软非极大值抑制方法解决漏检重叠人脸的问题,并在训练阶段通过多尺度训练提高模型的泛化能力。实验结果表明,该模型在Wider Face数据集上平均精度为89.0%,较原Faster-RCNN模型提升3.5%,在FDDB数据集上检出率也高达95.6%。  相似文献   

11.
Scene text detection plays a significant role in various applications,such as object recognition,document management,and visual navigation.The instance segmentation based method has been mostly used in existing research due to its advantages in dealing with multi-oriented texts.However,a large number of non-text pixels exist in the labels during the model training,leading to text mis-segmentation.In this paper,we propose a novel multi-oriented scene text detection framework,which includes two main modules:character instance segmentation (one instance corresponds to one character),and character flow construction (one character flow corresponds to one word).We use feature pyramid network(FPN) to predict character and non-character instances with arbitrary directions.A joint network of FPN and bidirectional long short-term memory (BLSTM) is developed to explore the context information among isolated characters,which are finally grouped into character flows.Extensive experiments are conducted on ICDAR2013,ICDAR2015,MSRA-TD500 and MLT datasets to demonstrate the effectiveness of our approach.The F-measures are 92.62%,88.02%,83.69% and 77.81%,respectively.  相似文献   

12.
针对目前基于深度卷积神经网络的显著性检测算法存在对复杂场景图像目标检测不完整、背景噪声多的问题,提出一种深度特征导向显著性检测算法。该算法是基于现有底层特征与深度卷积特征融合模型(ELD)的改进,网络模型包含基础特征提取、高层语义特征跨层级引导传递两个部分。首先,根据不同层级卷积特征的差异性,构建跨层级特征联合的高层语义特征引导模型;然后,用改进的网络模型生成初始显著图,利用高层语义特征引导的方式进行显著性聚类传播;最后,用完全联系条件随机场对聚类传播的结果进行优化,使其能够获取更多结构边缘信息和降低噪声并生成完整显著图。在ECSSD上和DUT-ORMON两个数据集上进行实验测试,实验结果表明,所提算法的准确率和召回率(PR)优于ELD模型,其F-measure(F)值分别提升了7.5%和11%,平均绝对误差(MAE)值分别降低了16%和15%,说明了所提算法模型能够在目标识别、模式识别、图像索引等复杂图像场景应用领域得到更加鲁棒的结果。  相似文献   

13.
刘辉  曾鹏飞 《控制与决策》2021,36(9):2170-2178
现有的基于深度学习的自然场景文本检测方法一般采用大型深度神经网络作为主干网络进行特征提取,虽然效果显著但检测模型十分庞大,检测效率较低,若直接将主干网络换成轻量型网络则不能提取出足够的特征信息,直接导致检测效果大幅降低.为了降低文本检测模型的规模以及更为高效地检测文本,提出基于双分支特征融合的场景文本检测方法,在采用相对轻量级的主干网络EfficientNet-b3的基础上,使用双路分支进行特征融合进而检测场景文本.一路分支使用特征金字塔网络,融合不同层级的特征;另一路分支使用空洞卷积空间金字塔池化结构,扩大感受野,然后融合两个分支的特征,在小幅增加计算量的同时获取更多的特征,弥补小型网络提取特征不足的问题.在3个公开数据集上的实验结果显示,所提出方法在保持较高检测水平的情况下,可以大幅度降低模型的参数量,大幅度提升检测速度.  相似文献   

14.
针对遥感图像目标检测任务中存在的目标尺度差异大、检测精度低等问题,提出了一种基于加权策略的改进YOLOv3遥感图像目标检测模型。为提高对遥感图像中小目标的检测精度,增加具有较小感受野的特征图像的检测分支。设计了一种多尺度特征图像自适应加权融合方法,通过挖掘特征提取网络的表征能力,综合利用多尺度特征提高了目标检测精度。采用DIOR数据集的4类目标构建了一个新的遥感图像目标检测数据集,并进行了改进模型的训练与测试。实验结果表明,改进后的模型取得了80.25%的平均精度均值(mean Average Precision,mAP),相比于改进前提高了8.2%。将训练模型对RSOD、UCAS-AOD、NWPU VHR-10数据集进行测试,验证了改进模型具有较好的适应性。  相似文献   

15.
显著目标检测是指通过引入人类视觉注意力机制,使计算机能检测视觉场景中人们最感兴趣的区域或对象.针对显著性目标检测中存在检测边缘不清晰、检测目标不完整及小目标漏检的问题,文中提出基于渐进式嵌套特征的融合网络.网络采用渐进式压缩模块,将较深层特征不断向下传递融合,在降低模型参数量的同时也充分利用高级语义信息.先设计加权特征融合模块,将编码器的多尺度特征聚合成可访问高级信息和低级信息的特征图.再将聚合的特征分配到其它层,充分获取图像上下文信息及关注图像中的小目标对象.同时引入非对称卷积模块,进一步提高检测准确性.在6个公开数据集上的实验表明文中网络取得较优的检测效果.  相似文献   

16.
目的 获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础。为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络。方法 该方法使用特征金字塔增强模块和特征融合模块进行轻量级特征提取,保证了速度优势;同时引入非局部操作以增强骨干网络的特征提取能力,使其检测准确性得以提高。非局部操作是一种注意力机制,能捕捉到文本像素之间的内在关系。此外,本文设计了一种特征向量融合模块,用于融合不同尺度的特征图,使尺度多变的场景文本实例的特征表达得到增强。结果 本文方法在3个场景文本数据集上与其他方法进行了比较,在速度和准确度上均表现突出。在ICDAR(International Conference on Document Analysis and Recognition) 2015数据集上,本文方法比最优方法的F值提高了0.9%,检测速度达到了23.1 帧/s;在CTW(Curve Text in the Wild) 1500数据集上,本文方法比最优方法的F值提高了1.2%,检测速度达到了71.8 帧/s;在Total-Text数据集上,本文方法比最优方法的F值提高了1.3%,检测速度达到了34.3 帧/s,远远超出其他方法。结论 本文方法兼顾了准确性和实时性,在准确度和速度上均达到较高水平。  相似文献   

17.
为实现图像显著区域或目标的低级特征与语义信息有意义的结合,以获取结构更完整、边界更清晰的显著性检测结果,提出一种结合双流特征融合及对抗学习的彩色图像显著性检测(SaTSAL)算法.首先,以VGG-16和Res2Net-50为双流异构主干网络,实现自底向上、不同级别的特征提取;之后,分别针对每个流结构,将相同级别的特征图送入卷积塔模块,以增强级内特征图的多尺度信息;进一步,采用自顶向下、跨流特征图逐级侧向融合方式生成显著图;最后,在条件生成对抗网络的主体框架下,利用对抗学习提升显著性检测结果与显著目标的结构相似性.以P-R曲线、F-measure、平均绝对误差、S-measure为评价指标,在ECSSD,PASCAL-S,DUT-OMRON以及DUTS-test 4个公开数据集上与其他10种基于深度学习的显著性检测算法的对比实验表明,SaTSAL算法优于其他大部分算法.  相似文献   

18.
目的 全卷积模型的显著性目标检测大多通过不同层次特征的聚合实现检测,如何更好地提取和聚合特征是一个研究难点。常用的多层次特征融合策略有加法和级联法,但是这些方法忽略了不同卷积层的感受野大小以及产生的特征图对最后显著图的贡献差异等问题。为此,本文结合通道注意力机制和空间注意力机制有选择地逐步聚合深层和浅层的特征信息,更好地处理不同层次特征的传递和聚合,提出了新的显著性检测模型AGNet(attention-guided network),综合利用几种注意力机制对不同特征信息加权解决上述问题。方法 该网络主要由特征提取模块(feature extraction module, FEM)、通道—空间注意力融合模块(channel-spatial attention aggregation module, C-SAAM)和注意力残差细化模块(attention residual refinement module,ARRM)组成,并且通过最小化像素位置感知(pixel position aware, PPA)损失训练网络。其中,C-SAAM旨在有选择地聚合浅层的边缘信息以及深层抽象的语义特征,利用通道注意力和空间注意力避免融合冗余的背景信息对显著性映射造成影响;ARRM进一步细化融合后的输出,并增强下一个阶段的输入。结果 在5个公开数据集上的实验表明,AGNet在多个评价指标上达到最优性能。尤其在DUT-OMRON(Dalian University of Technology-OMRON)数据集上,F-measure指标相比于排名第2的显著性检测模型提高了1.9%,MAE(mean absolute error)指标降低了1.9%。同时,网络具有不错的速度表现,达到实时效果。结论 本文提出的显著性检测模型能够准确地分割出显著目标区域,并提供清晰的局部细节。  相似文献   

19.
目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号