首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
针对自然场景文本的背景多样性和文本的不规则性,基于分割的文本检测方法是最近非常流行的检测方法之一,分割结果更能直观的描述各种形状的场景文本。由于计算成本较大,分割算法的处理速度一直是需要克服的一个大问题。本文使用改进的MobileNetV3轻量化特征提取网络和简洁高效的后处理降低模型的计算成本,分割头由特征增强模块和自适应特征融合模块组成,前者可以使用不同深度的信息达到更好的分割效果,更好的特征融合方式可以将不同深度的特征有效的融合在一起指导分割。本文采用可微分二值化模块,将二值化的过程加入到模型的训练过程中,自适应地设置二值化阈值,将分割方法产生的概率图转化为文本区域,取得更好的文本检测效果。在ICDAR2015和Total-Text数据集上,本文提出的检测方法在速度和准确度方面都达到了可比较的结果。  相似文献   

2.
当前场景文本检测技术面临的挑战主要体现在2个方面:模型实时性和准确性之间的权衡,以及任意形状文本的检测。它们决定了场景文本检测在真实场景中应用是否可行。针对以上2个问题,本文采用基于分割的方法,提出一种轻量且特征提取能力强的主干网络,可以实时准确地检测任意形状的自然场景文本。具体来说,使用了结构简单的双分辨率残差主干网络和低计算成本的深度聚合金字塔池化模块,将二者提取到的特征融合使用可微二值化模块进行分割。通过在标准英文数据集ICDAR2015上进行的对比实验表明,本文提出的改进方法有效,且在实时性和准确性上都达到可比较的结果。  相似文献   

3.
目的 获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础。为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络。方法 该方法使用特征金字塔增强模块和特征融合模块进行轻量级特征提取,保证了速度优势;同时引入非局部操作以增强骨干网络的特征提取能力,使其检测准确性得以提高。非局部操作是一种注意力机制,能捕捉到文本像素之间的内在关系。此外,本文设计了一种特征向量融合模块,用于融合不同尺度的特征图,使尺度多变的场景文本实例的特征表达得到增强。结果 本文方法在3个场景文本数据集上与其他方法进行了比较,在速度和准确度上均表现突出。在ICDAR(International Conference on Document Analysis and Recognition) 2015数据集上,本文方法比最优方法的F值提高了0.9%,检测速度达到了23.1 帧/s;在CTW(Curve Text in the Wild) 1500数据集上,本文方法比最优方法的F值提高了1.2%,检测速度达到了71.8 帧/s;在Total-Text数据集上,本文方法比最优方法的F值提高了1.3%,检测速度达到了34.3 帧/s,远远超出其他方法。结论 本文方法兼顾了准确性和实时性,在准确度和速度上均达到较高水平。  相似文献   

4.
从深度图RGB-D域中联合学习RGB图像特征与3D几何信息有利于室内场景语义分割,然而传统分割方法通常需要精确的深度图作为输入,严重限制了其应用范围。提出一种新的室内场景理解网络框架,建立基于语义特征与深度特征提取网络的联合学习网络模型提取深度感知特征,通过几何信息指导的深度特征传输模块与金字塔特征融合模块将学习到的深度特征、多尺度空间信息与语义特征相结合,生成具有更强表达能力的特征表示,实现更准确的室内场景语义分割。实验结果表明,联合学习网络模型在NYU-Dv2与SUN RGBD数据集上分别取得了69.5%与68.4%的平均分割准确度,相比传统分割方法具有更好的室内场景语义分割性能及更强的适用性。  相似文献   

5.
针对复杂场景下文本识别流程复杂繁琐、适应性差、准确度低等缺点,本文提出一种复杂场景下文本检测和识别的新方法.该方法由文本区域检测网络及文本识别网络构成,文本区域检测网络为改进的PSENet,将PSENet的骨干网络改为ResNeXt-101,在特征提取过程中加入可微二值化操作来优化分割网络,不仅简化了后处理,而且提高了文本检测的性能.将卷积神经网络和加入聚合交叉熵损失的长短时记忆网络组成文本识别网络,聚合交叉熵的引入提高了文本识别的准确性.本文在两个数据集上进行验证,实验结果表明,两个网络模型融合后准确率最高达到95.6%,优于改进之前的方法.该方法能有效地检测和识别任意文本实例,具有很好的实用性.  相似文献   

6.
场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。  相似文献   

7.
目的 场景文本检测是场景理解和文字识别领域的重要任务之一,尽管基于深度学习的算法显著提升了检测精度,但现有的方法由于对文字局部语义和文字实例间的全局语义的提取能力不足,导致缺乏文字多层语义的建模,从而检测精度不理想。针对此问题,提出了一种层级语义融合的场景文本检测算法。方法 该方法包括基于文本片段的局部语义理解模块和基于文本实例的全局语义理解模块,以分别引导网络关注文字局部和文字实例间的多层级语义信息。首先,基于文本片段的局部语义理解模块根据相对位置将文本划分为多个片段,在细粒度优化目标的监督下增强网络对局部语义的感知能力。然后,基于文本实例的全局语义理解模块利用文本片段粗分割结果过滤背景区域并提取可靠的文字区域特征,进而通过注意力机制自适应地捕获任意形状文本的全局语义信息并得到最终分割结果。此外,为了降低边界区域的预测噪声对层级语义信息聚合的干扰,提出边界感知损失函数以降低边界区域特征的歧义性。结果 算法在3个常用的场景文字检测数据集上实验并与其他算法进行了比较,所提方法在性能上获得了显著提升,在Totoal-Text数据集上,F值为87.0%,相比其他模型提升了1.0%;在MSRA-TD500(MSRA text detection 500 database)数据集上,F值为88.2%,相比其他模型提升了1.0%;在ICDAR 2015(International Conference on Document Analysis and Recognition)数据集上,F值为87.0%。结论 提出的模型通过分别构建不同层级下的语义上下文和对歧义特征额外的惩罚解决了层级语义提取不充分的问题,获得了更高的检测精度。  相似文献   

8.
目前,基于深度学习的自然场景文本检测在复杂的背景下取得很好的效果,但难以准确检测到小尺度文本.本文针对此问题提出了一种基于特征融合的深度神经网络,该网络将传统深度神经网络中的高层特征与低层特征相融合,构建一种高级语义的神经网络.特征融合网络利用网络高层的强语义信息来提高网络的整体性能,并通过多个输出层直接预测不同尺度的文本.在ICDAR2011和ICDAR2013数据集上的实验表明,本文的方法对于小尺度的文本,定位效果显著.同时,本文所提的方法在自然场景文本检测中具有较高的定位准确性和鲁棒性,F值在两个数据集上均达到0.83.  相似文献   

9.
针对自然场景文本检测算法未能高效、准确地实现端到端的任意形状文本检测,提出了轻量型像素聚类文本核重建的文本检测算法,针对轻量型网络特征信息弱和感受野小的问题,设计了图像级上下文信息模块(imagelevel context module)来捕获全局图像信息和语义级上下文信息模块(semantic-level context module)学习目标区域信息,两者信息融合增强网络特征信息保证检测的准确性,为了有效区分相邻文本和定位弯曲文本,基于文本核启发将文字实例中心视为聚类中心,从核中心经过一次像素聚类重建完整的文字实例实现对任意形状文本的检测。方法在弯曲文本数据集Total-Text和CTW1500综合评分达到了84.1%和84.6%超过了最好的CARFT方法,检测速度42帧/s超过最优EAST的,有效地解决了检测形状文本的高效和准确性,在应用层面更加友好。  相似文献   

10.
张智  秦瑶  顾进广 《计算机应用研究》2021,38(8):2474-2478,2484
目前,多方向文本检测方法已经在各种数据集上取得了不错的性能,但是任意形状文本检测仍然存在一些困难,尤其是具有不同大小、形状、方向、颜色和样式的文本实例.为了更好地区分连续任意形状的文本实例和周边非文本区域,提出了一种基于分段的文本检测器,通过使用多边形偏移蒙版和边界增强来检测任意形状的场景文本.为了评估该方法的有效性,在ICDAR2015和Total-Text等公开数据集上进行了多组对比实验,实验结果证明该方法有着更卓越的性能.  相似文献   

11.
在服装图像分割领域,现有算法存在服装边缘分割粗糙、分割精度差和服装深层语义特征提取不够充分等问题。将Coordinate Attention机制和语义特征增强模块(SFEM)嵌入到语义分割性能较好的Deeplab v3+网络,设计一种用于服装图像分割领域的CA_SFEM_Deeplab v3+网络。为了加强服装图像有效特征的学习,在Deeplab v3+网络的主干网络resnet101中嵌入Coordinate Attention机制,并将经过带空洞卷积池化金字塔网络的特征图输入到语义特征增强模块中进行特征增强处理,从而提高分割的准确率。实验结果表明,CA_SFEM_Deeplab v3+网络在DeepFashion2数据集上的平均交并比与平均像素准确率分别为0.557、0.671,相较于Deeplab v3+网络分别提高2.1%、2.3%,其所得分割服装轮廓更为精细,具有较好的分割性能。  相似文献   

12.
发电厂厂区内违规吸烟易导致火灾、爆炸等事故,会带来巨大损失;针对电厂内人员违规吸烟行为检测精度不高的问题,提出一种基于改进YOLOv5s(You Only Look Once v5s)的电厂内人员违规吸烟检测方法;该方法以YOLOv5s网络为基础,将YOLOv5s网络C3模块Bottleneck中的3×3卷积替换为多头自注意力层以提高算法的学习能力;接着在网络中添加ECA(Efficient Channel Attention)注意力模块,让网络更加关注待检测目标;同时将YOLOv5s网络的损失函数替换为SIoU(Scylla Intersection over Union),进一步提高算法的检测精度;最后采用加权双向特征金字塔网络(BiFPN,Bidirectional Feature Pyramid Network)代替原先YOLOv5s的特征金字塔网络,快速进行多尺度特征融合;实验结果表明,改进后算法吸烟行为的检测精度为89.3%,与改进前算法相比平均精度均值(mAP,mean Average Precision)提高了2.2%,检测效果显著提升,具有较高应用价值。  相似文献   

13.
毫米波收发组件微组装工艺复杂,芯片装配位置精度是影响收发组件整体性能的薄弱环节,自动化三维扫描技术是解决该问题的有效途径。将线激光轮廓传感器和线性模组结合,搭建一体化毫米波收发组件微组装三维扫描测量系统,实现了收发组件芯片的自动化在线测量和轮廓提取。该项技术有效解决了传统收发组件装配精度检测视野范围小、扫描速率低、人工干预严重等问题,提高了测量速度和测量精度,实现了收发组件装配加工与检测自动化系统的集成,可满足雷达系统装备高可靠性、高环境适应性的要求。  相似文献   

14.
针对当前农作物病害分割与识别模型病斑分割精度低、数据集不充分、训练速度过慢等问题,构建了一种基于改进的U-Net网络多尺度番茄叶部病害分割算法。在U-Net网络结构基础上进行改进,减小图像输入尺寸,在编码器中使用非对称Inception多通道卷积替换传统卷积,实现多尺度提取病害特征,提升模型准确度;在解码器中加入注意力模块,关注番茄病害边缘,减小上采样噪声;引入GN加速模型收敛,并将改进U-Net网络用在PlantVillage数据集上进行预训练,提高模型的分割准确度和速度。改进后的方法准确率、召回率和MIoU分别为92.9%、91.1%、93.6%,实验结果表明,该方法能够有效地提高模型对番茄的病害分割性能。  相似文献   

15.
文本图像二值化是光学字符识别的关键步骤,但低质量文本图像背景噪声复杂,且图像全局上下文信息以及深层抽象信息难以获取,使得最终的二值化结果中文字区域分割不精确、文字的形状和轮廓等特征表达不足,从而导致二值化效果不佳。为此,提出一种基于改进U-Net网络的低质量文本图像二值化方法。采用适合小数据集的分割网络U-Net作为骨干模型,选择预训练的VGG16作为U-Net的编码器以提升模型的特征提取能力。通过融合轻量级全局上下文块的U-Net瓶颈层实现特征图的全局上下文建模。在U-Net解码器的各上采样块中融合残差跳跃连接,以提升模型的特征还原能力。从上述编码器、瓶颈层和解码器3个方面分别对U-Net进行改进,从而实现更精确的文本图像二值化。在DIBCO 2016—2018数据集上的实验结果表明,相较Otsu、Sauvola等方法,该方法能够实现更好的去噪效果,其二值化结果中保留了更多的细节特征,文字的形状和轮廓更精确、清晰。  相似文献   

16.
显著性实例分割是指分割出图像中最引人注目的实例对象。现有的显著性实例分割方法中存在 较小显著性实例不易检测分割,以及较大显著性实例分割精度不足等问题。针对这 2 个问题,提出了一种新的 显著性实例分割模型,即注意力残差多尺度特征增强网络(ARMFE)。模型 ARMFE 主要包括 2 个模块:注意力 残差网络模块和多尺度特征增强模块,注意力残差网络模块是在残差网络基础上引入注意力机制,分别从通道 和空间对特征进行选择增强;多尺度特征增强模块则是在特征金字塔基础上进一步增强尺度跨度较大的特征信 息融合。因此,ARMFE 模型通过注意力残差多尺度特征增强,充分利用多个尺度特征的互补信息,同时提升 较大显著性实例对象和较小显著性实例对象的分割效果。ARMFE 模型在显著性实例分割数据集 Salient Instance Saliency-1K (SIS-1K)上进行了实验,分割精度和速度都得到了提升,优于现有的显著性实例分割算法 MSRNet 和 S4Net。  相似文献   

17.
王程  刘元盛  刘圣杰 《计算机工程》2023,49(2):296-302+313
行人检测在无人驾驶环境感知领域具有重要应用。现有行人检测算法多数只关注普通大小的行人目标,忽略了小目标行人特征信息过少的问题,从而造成检测精度低、应用于嵌入式设备中实时性不高等情况。针对该问题,提出一种小目标行人检测算法YOLOv4-DBF。引用深度可分离卷积代替YOLOv4算法中的传统卷积,以降低模型的参数量和计算量,提升检测速度和算法实时性。在YOLOv4骨干网络中的特征融合部分引入scSE注意力模块,对输入行人特征图的重要通道和空间特征进行增强,促使网络学习更有意义的特征信息。对YOLOv4颈部中特征金字塔网络的特征融合部分进行改进,在增加少量计算量的情况下增强对图像中行人目标的多尺度特征学习,从而提高检测精度。在VOC07+12+COCO数据集上进行训练和验证,结果表明,相比原YOLOv4算法,YOLOv4-DBF算法的AP值提高4.16个百分点,速度提升27%,将该算法加速部署在无人车中的TX2设备上进行实时测试,其检测速度达到23FPS,能够有效提高小目标行人检测的精度及实时性。  相似文献   

18.
现有基于深度学习的多目标跟踪算法大多利用目标检测任务预测的边界框跟踪目标,当目标间存在遮挡时,边界框会产生重叠进而影响跟踪准确度,针对这个问题,提出了一种在线多类别逐点式多目标跟踪与分割(category-free point-wise multi-object tracking and segmentation,CPMOTS)算法。该算法摒弃了边界框的目标表征方式,利用实例分割的像素级掩码表征目标进行跟踪,网络采用并行结构同时分割与跟踪多类别目标,并保证了运行效率,这在真实场景中有很强的实用性。CPMOTS首先利用实例分割网络得到实例分割掩码,对其采样得到无序点集;然后将点集的特征输入跟踪网络得到判别性的实例级嵌入向量;最后将该嵌入向量通过直观高效的注意力模块以显式建模其通道间的依赖关系,自适应学习每个特征通道的重要程度,依照这个重要程度选择性地强化有用的特征,抑制无用的特征,实现通道特征重标定,从而提高算法的性能。在多目标跟踪与分割基准数据集KITTI MOTS的实验表明,CPMOTS跟踪的精度优于大部分其他对比方法,并达到了16 frame/s的近实时速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号