首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
针对自然场景中任意形状文本容易漏检、错检的问题,提出了一种基于双重注意力融合和空洞残差特征增强的场景文本检测方法.为了增强文本特征通道之间的潜在联系,提出了双重注意力融合(DAF)模块,采用双向特征金字塔与双重注意力融合模块相结合的方式进行多层的特征融合;另外针对深层特征图在降维的过程中可能造成语义丢失的现象,提出了空...  相似文献   

2.
针对输电线路绝缘子缺陷检测准确率低和检测速度慢的问题,提出了一种基于多尺度特征编码和双重注意力融合的输电线路绝缘子缺陷检测方法。首先,为了使检测模型适应缺陷绝缘子特征尺度的多样性,编码网络采用Res2Net50提取更细粒度的特征,并在之后嵌入空洞空间金字塔池化模块实现多个尺度捕捉绝缘子及其缺陷的特征;其次,为了减少解码网络中特征信息的缺失,将主干网络的不同层特征与efficient channel attention注意力模块串联,并分别与经过squeeze and excitation注意力模块的各反卷积特征相加形成双重注意力融合。实验结果表明,所提方法的均值平均精度值约为95.35%,每秒传输帧数约为65.95,与其他方法相比,该方法对无人机绝缘子缺陷的准确检测具有一定的参考价值。  相似文献   

3.
本文提出了基于可切换空洞卷积与注意力导向的特征金字塔网络(SwitchableDilatedConvolutionsand Attention-guidedFPN,SDA-FPN)模型,通过加入不同空洞率的可切换空洞卷积使模型能够根据任务选择不同感受野的特征图;引入注意力导向模块(Attention-guideModule,AM)增强特征语义信息且减少空洞卷积对文本边界信息的破坏。针对各尺度特征融合不充分导致语义信息丢失,提出了特征增强融合模块(FeatureEnhancementFusionModule,FEFM),通过结合注意力机制增强模型对尺度、空间、任务的感知能力。该方法在公开数据集ICDAR2015取得了较好的检测结果,且召回率有明显的提升。  相似文献   

4.
刘亚灵  郭敏  马苗 《光电子.激光》2021,32(12):1271-1277
针对声音事件检测中仅在时频维度使用注意力机制的局限性以及卷积层单一导致的特征提取不足问题,本文提出基于多尺度注意力特征融合的卷积循环神经网络(convolutional recurrent neural network,CRNN)模型,以提高声音事件检测性能.首先,提出多尺度注意力模块,实现对局部时频单元和全局通道特征...  相似文献   

5.
为了解决自然场景文本检测中由于文本实例分布随机、形态与尺度多样造成的检测难题,设计了一种基于注意力机制特征融合与增强的自然场景文本检测算法。利用注意力机制对有效特征提取的优势,在模型的解码融合阶段设计并引入了一种基于注意力的特征融合模块(Attention-based Feature Fusion Module, AFFM),利用空间和通道注意力分别为高层特征和低层特征引入更丰富的细节和全局信息,进一步提高了检测的准确率;设计了联合注意力特征增强模块(Joint Attention Feature Enhancement Module, JAM),利用卷积对级联后的特征在不同通道之间、空间位置间的联系建模,并生成联合特征权重mask对级联特征做加权,从而提高信息的表征能力,有效减少误检与漏检。在Total-Text和ICDAR2015两个数据集上对模型做评估,测试结果表明,该方法的F1综合指标分别达到了85.1%和87.6%,均优于当前主流算法。  相似文献   

6.
针对自然场景中任意形状文本图像因文本行难以区分导致的信息丢失问题,提出了 一种基于深度学习的场景文本检测算法。首先构建特征提取模块,使用Resnet50作为骨干 网络,在增加跨层连接的金字塔网络结构中引入并联的空洞卷积模块,以提取更多语义信息; 其次,对得到的特征图进行多尺度特征融合,学习不同尺度的特征;最后预测出不同内核大 小的文本实例,并通过尺度扩展逐渐扩大文本行区域,直到得到最终的检测结果。实验结果 表明,该方法在SCUT-CTW1500弯曲文本数据集上的准确率、召回率及F1值分别达到88.5%、 77.0%和81.3%,相比其他基于分割的算法,该算 法对弯曲文本的检测效果良好,具有一定的 应用价值。  相似文献   

7.
任坤  黄泷  范春奇  高学金 《信号处理》2020,36(9):1457-1463
交通标志检测技术是先进驾驶辅助系统中重要组成部分。真实的驾驶环境中要求交通标志检测系统具备极高的实时性与准确性。轻量级网络MobileNetv2-SSD能够满足检测的实时性,但准确性不足以满足实际需求。本文将MobileNetv2-SSD作为基础网络,提出一种基于像素重排的多尺度像素特征融合方法,并在网络的检测层引入高效通道注意力机制,实现特征增强。在保证算法的实时性的同时,有效提升了小交通标志的检测性能。实验结果表明,本文算法模型能够在真实环境下准确实时地检测小交通标志。在长沙理工大学中国交通标志检测数据集CCTSDB上取得93.2%的mAP,模型大小仅为17.3M,检测每张图像的时间为0.022 s。   相似文献   

8.
主要介绍了多尺度特征思想以及注意力机制加强卷积特征的方法.首先,基于这一思路提出了多尺度注意力特征方法,并选择在计算机视觉两个子领域——目标检测与视频行为识别上验证方法.其次,在目标检测领域上,通过实验验证注意力机制的有效性,加入多尺度注意力特征的网络模型对目标检测的结果有了进一步提升.最后,在视频行为识别领域,输入网...  相似文献   

9.
针对红外与可见光图像在融合后容易出现伪影,小目标轮廓不清晰等问题,提出一种基于多尺度特征与注意力模型相结合的红外与可见光图像融合算法。通过5次下采样提取源图像不同尺度的特征图,再将同一尺度的红外与可见光特征图输入到基于注意力模型的融合层,获得增强的融合特征图。最后把小尺度的融合特征图进行5次上采样,再与上采样后同一尺度的特征图相加,直到与源图像尺度一致,实现对特征图的多尺度融合。实验对比不同融合框架下融合图像的熵、标准差、互信息量、边缘保持度、小波特征互信息、视觉信息保真度以及融合效率,本文方法在多数指标上优于对比算法,且融合图像目标细节明显轮廓清晰。  相似文献   

10.
遥感图像的检测在监察自然环境、军事、国土安全等方面具有极其广阔的应用前景,而遥感图像具有背景复杂、目标面积小、特征提取困难等缺点,进行检测时容易产生小目标漏检问题。本文提出一种基于多尺度特征选择性融合的遥感图像检测算法。所提算法采用改进的Resnet50作为主干网络,将Resnet50第一个卷积替换成动态卷积,并将其ConvBlock模块中的卷积替换成金字塔卷积,提高特征提取能力。同时,为了避免遗漏底层信息,在动态卷积层后加入所提有效空间通道注意力机制模块。最后,选取基于上下文信息的不同尺度特征进行融合,提高了模型对目标物体的定位能力。实验结果表明,本文算法在保证速度的同时提高了对遥感图像的检测精度,在遥感图像公开数据集RSOD和NWPUVHR-10上平均精度均值(mean average precision,mAP)分别达到91.88%和90.23%,检测速度达到33 FPS。  相似文献   

11.
针对多方向排列的文本因其尺度变化大、复杂背景干扰而导致检测效果仍不甚理想的问题,本文提出了一种基于注意力机制的多方向文本检测方法。首先,考虑到自然场景下干扰信息多,构建文本特征提取网络(text feature information ResNet50,TF-ResNet),对图像中的文本特征信息进行提取;其次,在特征融合模型中加入文本注意模块(text attention module, TAM),抑制无关信息的同时突出显示文本信息,以增强文本特征之间的潜在联系;最后,采用渐进扩展模块,逐步融合扩展前部分得到的多个不同尺度的分割结果,以获得精确检测结果。本文方法在数据集CTW1500、ICDAR2015上进行实验验证和分析,其F值分别达到80.4%和83.0%,比次优方法分别提升了2.0%和2.4%,表明该方法在多方向文本检测上与其他方法相比具备一定的竞争力。  相似文献   

12.
针对传统编解码结构的医学图像分割网络存在特征信息利用率低、泛化能力不足等问题,该文提出了一种结合编解码模式的多尺度语义感知注意力网络(multi-scale semantic perceptual attention network,MSPA-Net) 。首先,该网络在解码路径加入双路径多信息域注意力模块(dual-channel multi-information domain attention module,DMDA) ,提高特征信息的提取能力;其次,网络在级联处加入空洞卷积模块(dense atrous convolution module,DAC) ,扩大卷积感受野;最后,借鉴特征融合思想,设计了可调节多尺度特征融合模块 (adjustable multi-scale feature fusion,AMFF) 和双路自学习循环连接模块(dual self-learning recycle connection module,DCM) ,提升网络的泛化性和鲁棒性。为验证网络的有效性,在CVC-ClinicDB、ETIS-LaribPolypDB、COVID-19 CHEST X-RAY、Kaggle_3m、ISIC2017和Fluorescent Neuronal Cells等数据 集上进行验证,实验结果表明,相似系数分别达到了94.96%、92.40%、99.02%、90.55%、92.32%和75.32%。因此,新的分割网络展现了良好的泛化能力,总体性能优于现有网络,能够较好实现通用医学图像的有效分割。  相似文献   

13.
针对复杂道路场景下行人检测精度与速度难以提升的问题,提出一种融合多尺度信息和跨维特征引导的轻量级行人检测算法。首先以高性能检测器YOLOX为基础框架,构建多尺度轻量卷积并嵌入主干网络中,以获取多尺度特征信息。然后设计了一种端到端的轻量特征引导注意力模块,采用跨维通道加权的方式将空间信息与通道信息融合,引导模型关注行人的可视区域。最后为减少模型在轻量化过程中特征信息的损失,使用增大感受野的深度可分离卷积构建特征融合网络。实验结果表明,相比于其他主流检测算法,所提算法在KITTI数据集上达到了71.03%的检测精度和80 FPS的检测速度,在背景复杂、密集遮挡、尺度不一等场景中都具有较好的鲁棒性和实时性。  相似文献   

14.
在实际工业环境下,光线昏暗、文本不规整、设备有限等因素,使得文本检测成为一项具有挑战性的任务。针对此问题,设计了一种基于双线性操作的特征向量融合模块,并联合特征增强与半卷积组成轻量级文本检测网络RGFFD(ResNet18+GhostModule+特征金字塔增强模块(feature pyramid enhancement module,FPEM)+特征融合模块(feature fusion module,FFM)+可微分二值化(differenttiable binarization,DB))。其中,Ghost模块内嵌特征增强模块,提升特征提取能力,双线性特征向量融合模块融合多尺度信息,添加自适应阈值分割算法提高DB模块分割能力。在实际工厂环境下,采用嵌入式设备UP2 board对货箱编号进行文本检测,RGFFD检测速度达到6.5 f/s。同时在公共数据集ICDAR2015、Total-text上检测速度分别达到39.6 f/s和49.6 f/s,在自定义数据集上准确率达到88.9%,检测速度为30.7 f/s。  相似文献   

15.
在动作识别任务中,如何充分学习和利用视频的空间特征和时序特征的相关性,对最终识别结果尤为重要。针对传统动作识别方法忽略时空特征相关性及细小特征,导致识别精度下降的问题,本文提出了一种基于卷积门控循环单元(convolutional GRU, ConvGRU)和注意力特征融合(attentional feature fusion,AFF) 的人体动作识别方法。首先,使用Xception网络获取视频帧的空间特征提取网络,并引入时空激励(spatial-temporal excitation,STE) 模块和通道激励(channel excitation,CE) 模块,获取空间特征的同时加强时序动作的建模能力。此外,将传统的长短时记忆网络(long short term memory, LSTM)网络替换为ConvGRU网络,在提取时序特征的同时,利用卷积进一步挖掘视频帧的空间特征。最后,对输出分类器进行改进,引入基于改进的多尺度通道注意力的特征融合(MCAM-AFF)模块,加强对细小特征的识别能力,提升模型的准确率。实验结果表明:在UCF101数据集和HMDB51数据集上分别达到了95.66%和69.82%的识别准确率。该算法获取了更加完整的时空特征,与当前主流模型相比更具优越性。  相似文献   

16.
Shadow detection is significant for scene understanding. As a common scenario, soft shadows have more ambiguous boundaries than hard shadows. However, they are rarely present in the available benchmarks since annotating for them is time-consuming and needs expert help. This paper discusses how to transfer the shadow detection capability from available shadow data to soft shadow data and proposes a novel shadow detection framework (MUSD) based on multi-scale feature fusion and unsupervised domain adaptation. Firstly, we set the existing labeled shadow dataset (i.e., SBU) as the source domain and collect an unlabeled soft shadow dataset (SSD) as the target domain to formulate an unsupervised domain adaptation problem. Next, we design an efficient shadow detection network based on the double attention module and multi-scale feature fusion. Then, we use the global–local feature alignment strategy to align the task-related feature distributions between the source and target domains. This allows us to obtain a robust model and achieve domain adaptation effectively. Extensive experimental results show that our method can detect soft shadows more accurately than existing state-of-the-art methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号