首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
目的 现有图像级标注的弱监督分割方法大多利用卷积神经网络获取伪标签,其覆盖的目标区域往往过小。基于Transformer的方法通常采用自注意力对类激活图进行扩张,然而受其深层注意力不准确性的影响,优化之后得到的伪标签中背景噪声比较多。为了利用该两类特征提取网络的优点,同时结合Transformer不同层级的注意力特性,构建了一种结合卷积特征和Transformer特征的自注意力融合调制网络进行弱监督语义分割。方法 采用卷积增强的Transformer (Conformer)作为特征提取网络,其能够对图像进行更加全面的编码,得到初始的类激活图。设计了一种自注意力层级自适应融合模块,根据自注意力值和层级重要性生成融合权重,融合之后的自注意力能够较好地抑制背景噪声。提出了一种自注意力调制模块,利用像素对之间的注意力关系,设计调制函数,增大前景像素的激活响应。使用调制后的注意力对初始类激活图进行优化,使其覆盖较多的目标区域,同时有效抑制背景噪声。结果 在最常用的PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes 2012)数据集和COCO 2014 (common objectes in context 2014)数据集上利用获得的伪标签进行分割网络的训练,在对比实验中本文算法均取得最优结果,在PASCAL VOC验证集上,平均交并比(mean intersection over union,mIoU)达到了70.2%,测试集上mIoU值为70.5%,相比对比算法中最优的Transformer模型,其性能在验证集和测试集上均提升了0.9%,相比于卷积神经网络最优方法,验证集上mIoU提升了0.7%,测试集上mIoU值提升了0.8%。在COCO 2014验证集上结果为40.1%,与对比算法中最优方法相比分割精度提高了0.5%。结论 本文提出的弱监督语义分割模型,结合了卷积神经网络和Transformer的优点,通过对Transformer自注意力进行自适应融合调制,得到了图像级标签下目前最优的语义分割结果,该方法可应用于三维重建、机器人场景理解等应用领域。此外,所构建的自注意力自适应融合模块和自注意力调制模块均可嵌入到Transformer结构中,为具体视觉任务获取更鲁棒、更具鉴别性的特征。  相似文献   

2.
随着计算机硬件和人工智能技术的发展,强监督目标检测算法已经取得了很大的成果。然而,强监督目标检测算法需要在大规模、标注精度高的数据集上进行训练。但在某些特定领域,上述条件要求过于苛刻。例如,军事上常用的迷彩伪装目标的图像数据集就比公共数据集更难获得且标注难度更大。因此,采用对数据集要求更低的弱监督目标检测算法来实现迷彩伪装目标的检测任务。由于图像中迷彩伪装目标与背景融合度较大,导致原始浅层特征感知伪监督目标定位(Shallow feature-aware Pseudo supervised Object Localization, SPOL)算法的检测精度相对较低。本文的核心是在SPOL算法的基础上融合注意力机制,通过加入注意力模块,让模型更加关注迷彩伪装目标的区域,以此来提高迷彩伪装目标的检测精度。  相似文献   

3.
利用卷积神经网络进行目标检测时,提取的卷积特征具有很强的平移不变性,这将削弱模型的定位性能。事实上,目标对象通常具有不同的子区域特征和宽高比特性,但在目前流行的两阶段目标检测框架中,很少考虑这些具有平移尺度敏感性的特征成分。为了优化模型的特征表达,将在两阶段目标检测框架中引入与子区域特征和宽高比特性相关的注意力特征库,并生成注意力特征图对原始的ROI池化特征进行优化。另外,在注意力特征图的辅助下,模型特征维度可以有效地进行缩减。实验结果表明,引入注意力模块后,模型的检测精度和检测速度有明显提升。  相似文献   

4.
胡聪  华钢 《计算机应用》2022,42(3):960-967
针对弱监督动作定位方法无法直接进行动作定位且定位准确性不高的问题,提出了一种基于注意力机制的弱监督动作定位方法,并设计和实现了一种基于动作前后帧信息和区分函数的动作定位模型.采用条件变分自编码器(CVAE)注意力值生成模型,将生成的帧级注意力值作为伪帧级标签;为了增强帧前后的关联性,改进CVAE注意力值生成模型,加入动...  相似文献   

5.
针对细粒度图像分类任务中难以对图中具有鉴别性对象进行有效学习的问题,本文提出了一种基于注意力机制的弱监督细粒度图像分类算法.该算法能有效定位和识别细粒度图像中语义敏感特征.首先在经典卷积神经网络的基础上通过线性融合特征得到对象整体信息的表达,然后通过视觉注意力机制进一步提取特征中具有鉴别性的细节部分,获得更完善的细粒度特征表达.所提算法实现了线性融合和注意力机制的结合,可看作是多网络分支合作训练共同优化的网络模型,从而让网络模型对整体信息和局部信息都有更好的表达能力.在3个公开可用的细粒度识别数据集上进行了验证,实验结果表明,所提方法有效性均优于基线方法,且达到了目前先进的分类水平.  相似文献   

6.
现有的弱监督检测方法主要采用多示例检测网络,但在这些方法中应用分类特征提取网络易使目标尤其是非刚性目标的检测结果收敛到目标最显著局部区域。提出一种基于双注意力擦除和注意力信息聚合的端到端的弱监督检测框架DAENet。双注意力擦除模块的目的在于擦除生成的最显著性局部前景区域和部分背景区域,以此来扩展目标显著性区域,使网络能够尽可能地关注目标整体,从而更好地捕获目标整体区域。此外,为准确定位不同目标区域并精确生成注意力擦除掩码,提出注意力信息聚合模块,该模块可提取通道的全局特征和局部特征,并引入空间依赖性进一步提高检测精度。通过将双注意力擦除和注意力信息聚合进行协同工作,从而更好地提高弱监督检测性能。在PASCAL VOC 2007和VOC 2012数据集上的实验结果表明,DAENet框架在两个数据集上的检测精度分别达到50.5%和47.4%,相比基准模型,在部分非刚性目标上的检测精度提高了约5%~20%。  相似文献   

7.
目的 通过深度学习卷积神经网络进行3维目标检测的方法已取得巨大进展,但卷积神经网络提取的特征既缺乏不同区域特征的依赖关系,也缺乏不同通道特征的依赖关系,同时难以保证在无损空间分辨率的情况下扩大感受野。针对以上不足,提出了一种结合混合域注意力与空洞卷积的3维目标检测方法。方法 在输入层融入空间域注意力机制,变换输入信息的空间位置,保留需重点关注的区域特征;在网络中融入通道域注意力机制,提取特征的通道权重,获取关键通道特征;通过融合空间域与通道域注意力机制,对特征进行混合空间与通道的混合注意。在特征提取器的输出层融入结合空洞卷积与通道注意力机制的网络层,在不损失空间分辨率的情况下扩大感受野,根据不同感受野提取特征的通道权重后进行融合,得到全局感受野的关键通道特征;引入特征金字塔结构构建特征提取器,提取高分辨率的特征图,大幅提升网络的检测性能。运用基于二阶段的区域生成网络,回归定位更准确的3维目标框。结果 KITTI(A project of Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)数据集中的实验结果表明,在物体被遮挡的程度由轻到高时,对测试集中的car类别,3维目标检测框的平均精度AP3D值分别为83.45%、74.29%、67.92%,鸟瞰视角2维目标检测框的平均精度APBEV值分别为89.61%、87.05%、79.69%; 对pedestrian和cyclist 类别,AP3DAPBEV值同样比其他方法的检测结果有一定优势。结论 本文提出的3维目标检测网络,一定程度上解决了3维检测任务中卷积神经网络提取的特征缺乏视觉注意力的问题,从而使3维目标检测更有效地运用于室外自动驾驶。  相似文献   

8.
当前小目标检测算法的实现方式主要是设计各种特征融合模块,检测效果和模型复杂度很难达到平衡.此外,与常规目标相比,小目标信息量少,特征难以提取.为了克服这两个问题,采用了一种不降维局部跨通道交互策略的通道注意力模块,实现通道间的信息关联,通过对每个通道的特征进行权重分配来学习不同通道间特征的相关性.同时,加入改进的特征融合模块,使网络可以使用低层和高层的特征进行多尺度目标检测,提升了以低层特征为主要检测依据的小目标检测精度.骨干网络采用特征表达能力强和速度快的ResNet,在获取更多网络特征的同时保证了网络的收敛性.损失函数采用Focal Loss,减少易分类样本的权重,使得模型在训练时更关注于难分类样本的分类.该算法框架在VOC数据集上的mAP为82.7%,在航拍数据集上的mAP为86.8%.  相似文献   

9.
时序数据存在时序性,并且其短序列的特征存在重要程度差异性。针对时序数据特征,提出一种基于注意力机制的卷积神经网络(CNN)联合长短期记忆网络(LSTM)的神经网络预测模型,融合粗细粒度特征实现准确的时间序列预测。该模型由两部分构成:基于注意力机制的CNN,在标准CNN网络上增加注意力分支,以抽取重要细粒度特征;后端为LSTM,由细粒度特征抽取潜藏时序规律的粗粒度特征。在真实的热电联产供热数据上的实验表明,该模型比差分整合移动平均自回归、支持向量回归、CNN以及LSTM模型的预测效果更好,对比目前企业将预定量作为预测量的方法,预测缩放误差平均值(MASE)与均方根误差(RMSE)指标分别提升了89.64%和61.73%。  相似文献   

10.
丁聪  许冲 《信息与电脑》2022,(22):62-66+73
图像字幕生成在计算机视觉领域是一个比较热门的研究方向,在图像字幕生成任务中常用编码(Encode)-解码(Decode)结构生成图像字幕。针对图像细节特征提取效果不理想及图像字幕生成质量欠佳的问题,提出将加速的KAZE(Accelerated-KAZE,AKAZE)算法引入卷积神经网络,提高模型的特征提取能力,同时结合注意力机制,将模型注意力集中到图像中的关键位置,增强了模型的特征提取能力,并且提高了生成的图像字幕质量。对提出的模型在现有的公开数据集上,进行了训练和测试,使用BLUE-4和显示排序翻译度量评价(Metric for Evaluation of Translation with ExplicitOrdering,METEOR)标准,对模型生成的描述语句进行评分,并且进行了对比实验。实验结果表明,与现有的方法相比,该方法表现出更好的图像字幕生成效果、更高的评价分数以及更好的鲁棒性。  相似文献   

11.
深度卷积神经网络(Deep convolutional neural network, DCNN)在目标检测任务上使用目标的全标注来训练网络参数, 其检测准确率也得到了大幅度的提升. 然而, 获取目标的边界框(Bounding-box)标注是一项耗时且代价高的工作. 此外, 目标检测的实时性是制约其实用性的另一个重要问题. 为了克服这两个问题, 本文提出一种基于图像级标注的弱监督实时目标检测方法. 该方法分为三个子模块: 1)首先应用分类网络和反向传递过程生成类别显著图, 该显著图提供了目标在图像中的位置信息; 2)根据类别显著图生成目标的伪标注(Pseudo-bounding-box); 3)最后将伪标注看作真实标注并优化实时目标检测网络的参数. 不同于其他弱监督目标检测方法, 本文方法无需目标候选集合获取过程, 并且对于测试图像仅通过网络的前向传递过程就可以获取检测结果, 因此极大地加快了检测的速率(实时性). 此外, 该方法简单易用; 针对未知类别的目标检测, 只需要训练目标类别的分类网络和检测网络. 因此本框架具有较强的泛化能力, 为解决弱监督实时检测问题提供了新的研究思路. 在PASCAL VOC 2007数据集上的实验表明: 1)本文方法在检测的准确率上取得了较好的提升; 2)实现了弱监督条件下的实时检测.  相似文献   

12.
李阳  刘扬  刘国军  郭茂祖 《软件学报》2020,31(11):3640-3656
深度卷积神经网络使用像素级标注,在图像语义分割任务中取得了优异的分割性能.然而,获取像素级标注是一项耗时并且代价高的工作.为了解决这个问题,提出一种基于图像级标注的弱监督图像语义分割方法.该方法致力于使用图像级标注获取有效的伪像素标注来优化分割网络的参数.该方法分为3个步骤:(1)首先,基于分类与分割共享的网络结构,通过空间类别得分(图像二维空间上像素点的类别得分)对网络特征层求导,获取具有类别信息的注意力图;(2)采用逐次擦除法产生显著图,用于补充注意力图中缺失的对象位置信息;(3)融合注意力图与显著图来生成伪像素标注并训练分割网络.在PASCALVOC2012分割数据集上的一系列对比实验,证明了该方法的有效性及其优秀的分割性能.  相似文献   

13.
针对实际应用中大量数据集缺乏精细位置标注的问题,提出了一种基于渐进对抗学习的弱监督目标定位算法.具体来说,针对数据集噪声造成训练困难的问题,引入自步学习对训练数据按由简到难的原则进行排序.在网络设计上,将弱监督目标定位网络设计为多标签分类网络,并提出了相应的对抗损失函数适应目标定位任务.为了解决现有方法往往只关注最具辨...  相似文献   

14.
随着卷积神经网络(Convolutional Neural Network,CNN)的不断发展,目标检测作为计算机视觉中最基本的技术,已取得了令人瞩目的进展.介绍了强监督目标检测算法对数据集标注精度要求高的现状.对基于弱监督学习的目标检测算法进行研究,按照不同的特征处理方法将该算法归为四类,并分析比较了各类算法的优缺点...  相似文献   

15.
针对现实场景中遮挡人脸检测精度低的问题,提出了一种基于汇聚CNN和注意力增强网络的遮挡人脸检测方法.首先,在主网络的多层原始特征图上,通过有监督学习的方法增强原始特征图中人脸可见部分的响应值.然后,将多个增强特征图组合成附加增强网络与主网络汇聚设置,以加快对多尺度遮挡人脸的检测速度.最后,将有监督信息分散到各个尺寸的特...  相似文献   

16.
姚红革  张玮  杨浩琪  喻钧 《自动化学报》2023,49(5):1089-1098
为了模拟人眼的视觉注意机制, 快速、高效地搜索和定位图像目标, 提出了一种基于循环神经网络(Recurrent neural network, RNN)的联合回归深度强化学习目标定位模型. 该模型将历史观测信息与当前时刻的观测信息融合, 并做出综合分析, 以训练智能体快速定位目标, 并联合回归器对智能体所定位的目标包围框进行精细调整. 实验结果表明, 该模型能够在少数时间步内快速、准确地定位目标.  相似文献   

17.
针对实际应用中诸多数据集标签部分缺失、无定位标注等问题,提出了基于多尺度特征卷积神经网络的弱监督定位算法。其核心思想是利用神经网络分层的特性,在多层卷积层上使用梯度加权类激活映射,生成梯度金字塔模型,并通过均值滤波计算特征质心位置,利用置信强度映射和阈值梯减模块产生连接的像素段,围绕最大边界标注进行弱监督定位。在标准测试集上的实验结果表明,该算法能够在存在大量类别、多尺度图像的情况下完成目标定位,具有较高的精确度。  相似文献   

18.
针对Siamese跟踪算法在目标形变、相似物体干扰等复杂情况下容易跟踪漂移或丢失的问题,提出一种融合残差连接与通道注意力机制的目标跟踪算法.首先,通过残差连接将模板分支网络提取的浅层结构特征与深层语义特征进行有效的融合,以提高模型的表征能力;其次,引入通道注意力模块,使模型自适应地对不同语义目标特征通道加权,以提高模型...  相似文献   

19.
针对背景复杂、遮挡、人群分布不均等人群计数常见问题,提出了一种结合联合损失的空间-通道双注意力机制卷积神经网络模型(joint loss-based space-channel dual attention network, JL-SCDANet).该网络前端进行图像粗粒度特征提取,中间加入空间注意力机制以及通道注意力机制突出图像重点区域,后端使用可加大感受野且不丢失图像分辨率的空洞卷积提取深层二维特征.此外,该模型结合联合损失函数进行训练,以增强模型的鲁棒性.为了验证模型的改进效果,在3个公共数据集(ShanghaiTech Part B、mall和UCF_CC_50)上分别进行了对比实验,在ShanghaiTech Part B数据集中平均绝对误差(MAE)和均方误差(MSE)分别达到了8.13和13.13;在mall数据集中MAE、MSE达到了1.78和2.28;在UCF_CC_50数据集中MAE、MSE分别达到了182.12和210.24,实验结果证明了该网络在提高人数统计准确率上的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号