首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
余娜  刘彦  魏雄炬  万源 《计算机应用》2022,42(3):844-853
针对现有RGB-D室内场景语义分割不能有效融合多模态特征的问题,提出一种基于注意力机制和金字塔融合的RGB-D室内场景图像语义分割网络模型APFNet,并为其设计了两个新模块:注意力机制融合模块与金字塔融合模块.其中,注意力机制融合模块分别提取RGB特征和Depth特征的注意力分配权重,充分利用两种特征的互补性,使网络...  相似文献   

2.
针对脑肿瘤多模态信息融合不充分以及肿瘤区域细节信息丢失等问题,提出了一种跨模态融合的双注意力脑肿瘤图像分割网络(CFDA-Net).在编码器-解码器的基础结构上,首先在编码器分支采用密集块与大内核注意力并行的新卷积块,可以使全局和局部信息有效融合且可以防止反向传播时梯度消失的问题;其次在编码器的第2、3和4层的左侧加入多模态深度融合模块,有效地利用不同模态间的互补信息;然后在解码器分支使用Shuffle Attention注意力将特征图分组处理后再聚合,其中分组的子特征一分为二地获取空间与通道的重要注意特征.最后使用二进制交叉熵(binary cross entropy, BCE)、Dice Loss与L2 Loss组成新的混合损失函数,缓解了脑肿瘤数据的类别不平衡问题,进一步提升分割性能.在BraTS2019脑肿瘤数据集上的实验结果表明,该模型在整体肿瘤区域、肿瘤核心区域和肿瘤增强区域的平均Dice系数值分别为0.887、0.892和0.815.与其他先进的分割方法 ADHDC-Net、SDS-MSA-Net等相比,该模型在肿瘤核心区域和增强区域具有更好的分割效果.  相似文献   

3.
针对复杂室内场景中,现有RGB图像语义分割网络易受颜色、光照等因素影响以及RGB-D图像语义分割网络难以有效融合双模态特征等问题,提出一种基于注意力机制的RGB-D双模态特征融合语义分割网络AMBFNet(attention mechanism bimodal fusion network)。该网络采用编-解码器结构,首先搭建双模态特征融合结构(AMBF)来合理分配编码支路各阶段特征的位置与通道信息,然后设计双注意感知的上下文(DA-context)模块以合并上下文信息,最后通过解码器将多尺度特征图进行跨层融合,以减少预测结果中类间误识别和小尺度目标丢失问题。在SUN RGB-DNYU和NYU Depth v2(NYUDV2)两个公开数据集上的测试结果表明,相较于残差编解码(RedNet)、注意力互补网络(ACNet)、高效场景分析网络(ESANet)等目前较先进的RGB-D语义分割网络,在同等硬件条件下,该网络具有更好的分割性能,平均交并比(MIoU)分别达到了47.9%和50.0%。  相似文献   

4.
基于注意力感知和语义感知的RGB-D室内图像语义分割算法   总被引:1,自引:0,他引:1  
近年来,全卷积神经网络有效提升了语义分割任务的准确率.然而,由于室内环境的复杂性,室内场景语义分割仍然是一个具有挑战性的问题.随着深度传感器的出现,人们开始考虑利用深度信息提升语义分割效果.以往的研究大多简单地使用等权值的拼接或求和操作来融合RGB特征和深度特征,未能充分利用RGB特征与深度特征之间的互补信息.本文提出...  相似文献   

5.
提出了基于注意力机制的多模态人体行为识别算法;针对多模态特征的有效融合问题,设计基于注意力机制的双流特征融合卷积网络(TAM3DNet, two-stream attention mechanism 3D network);主干网络采用结合注意力机制的注意力3D网络(AM3DNet, attention mechanism 3D network),将特征图与注意力图进行加权后得到加权行为特征,从而使网络聚焦于肢体运动区域的特征,减弱背景和肢体静止区域的影响;将RGB-D数据的颜色和深度两种模态数据分别作为双流网络的输入,从两条分支网络得到彩色和深度行为特征,然后将融合特征进行分类得到人体行为识别结果。  相似文献   

6.
针对使用注意力机制的语义分割模型计算资源消耗与精度不平衡的问题,提出一种轻量化的语义分割注意力增强算法。首先,基于驾驶场景中物体的形状特点设计了条状分维注意力机制,使用条形池化代替传统方形卷积,并结合降维操作分维度提取长程语义关联,削减模型计算量。接着融合通道域与空间域上的注意力,形成可叠加与拆解的轻量化多维注意力融合模块,全方位提取特征信息,进一步提升模型精度。最后,将模块插入基于ResNet-101骨干网的编码—解码网络中,指导高低层语义融合,矫正特征图边缘信息,补充预测细节。实验表明,该模块有较强的鲁棒性和泛化能力,与同类型注意力机制相比,削减了约90%的参数量以及80%的计算量,且分割精度依旧取得了稳定的提升。  相似文献   

7.
城市道路视频描述存在仅考虑视觉信息而忽视了同样重要的音频信息的问题,多模态融合算法是解决此问题的方案之一。针对现有基于Transformer的多模态融合算法都存在着模态之间融合性能低、计算复杂度高的问题,为了提高多模态信息之间的交互性,提出了一种新的基于Transformer的视频描述模型多模态注意力瓶颈视频描述(multimodal attention bottleneck for video captioning,MABVC)。首先使用预训练好的I3D和VGGish网络提取视频的视觉和音频特征并将提取好的特征输入到Transformer模型当中,然后解码器部分分别训练两个模态的信息再进行多模态的融合,最后将解码器输出的结果经过处理生成人们可以理解的文本描述。在通用数据集MSR-VTT、MSVD和自建数据集BUUISE上进行对比实验,通过评价指标对模型进行验证。实验结果表明,基于多模态注意力融合的视频描述模型在各个指标上都有明显提升。该模型在交通场景数据集上依旧能够取得良好的效果,在智能驾驶行业具有很大的应用前景。  相似文献   

8.
针对在多模态MR图像分割中对不同模态特征间的关联性及全局和局部特征提取考虑不充分,导致分割精度降低的问题,基于注意力机制,提出多模态脑肿瘤MR图像分割方法.首先提出三重注意力模块,用于增强各模态特征间的关联性以及对感兴趣区域的位置和边界信息精确判断;然后设计空间和通道注意力模块,用于双重捕获空间和通道上的全局及局部特征,增强对肿瘤组织结构信息的学习能力.在公开数据集BraTs18和BraTs19上的实验结果表明,分割全肿瘤时,所提方法的Dice系数、精确率、灵敏度和Hausdorff距离分别达到了90.62%, 87.89%, 90.08%和2.258 3,均优于对比的同类方法.  相似文献   

9.
孟杰  王莉  杨延杰  廉飚 《计算机应用》2022,42(2):419-425
针对虚假信息检测中图片特征提取不充分,以及忽视了单模内关系以及单模与多模之间交互作用的问题,提出一种基于文本和图片信息的多模态深度融合(MMDF)模型.首先,用双向门控循环单元(Bi-GRU)提取文本的丰富语义特征,用多分支卷积?循环神经网络(CNN-RNN)提取图片的多层次特征;然后,建立模间和模内的注意力机制以捕获...  相似文献   

10.
人脸反欺骗技术可以准确判断捕获的人脸图像是真实人脸还是虚假人脸,是人脸识别系统安全的重要保障.传统的人脸反欺骗方法主要是利用手工设计的特征,如LBP、HoG、SIFT、SURF和DoG来刻画真实人脸和虚假人脸之间的不同特征分布,但人工设计的特征难以适应无约束环境下(如光照、背景的变化)的人脸反欺骗问题.鉴于此,该文提出...  相似文献   

11.
室内场景下的实时场景分割是开发室内服务机器人的一项关键技术,目前关于语义分割的研究已经取得了重大进展,但是多数方法都倾向于设计复杂的网络结构或者高计算成本的模型来提高精度指标,而忽略了实际的部署成本。针对移动机器人算力成本有限的问题,设计一种轻量化的瓶颈结构,并以此为基本元素构建轻量化场景分割网络。该网络通过与特征提取网络级联获得更深层次的语义特征,并且融合浅层特征与深层语义特征获得更丰富的图像特征,其结合深度可分离卷积与多尺度膨胀卷积提取多尺度图像特征,减少了模型的参数量与计算量,同时利用通道注意力机制提升特征加权时的网络分割精度。以512像素×512像素的图像作为输入进行实验,结果表明,该算法在NYUDv2室内场景分割数据集和CamVid数据集上的MIoU分别达到72.7%和59.9%,模型计算力为4.2 GFLOPs,但参数量仅为8.3 Mb,在移动机器人NVIDIA Jetson XavierNX嵌入式平台帧率可达到42 frame/s,其实时性优于DeepLabV3+、PSPNet、SegNet和UNet算法。  相似文献   

12.
马震环  高洪举  雷涛 《计算机工程》2020,46(5):254-258,266
针对语义分割中全卷积神经网络解码器部分特征融合低效的问题,设计一种增强特征融合的解码器。级联深层特征与降维后的浅层特征,经过卷积运算后引入自身平方项的注意力机制,通过卷积预测自身项与自身平方项各通道的权重,利用乘法增强后对结果进行作和。基于pascal voc2012数据集的实验结果表明,该解码器相比原网络mIoU指标提升2.14%,结合不同特征融合方式的解码结果也验证了其性能优于同一框架下的其他对比方法。  相似文献   

13.
本文针对场景中目标多样性和尺度不统一等现象造成的边缘分割错误、特征不连续问题, 提出了一种交叉特征融合和RASPP驱动的场景分割方法. 该方法以交叉特征融合的方式合并编码器输出的多尺度特征, 在融合高层语义信息时使用复合卷积注意力模块进行处理, 避免上采样操作造成的特征信息丢失以及引入噪声的影响, 细化目标边缘分割效果. 同时提出了深度可分离残差卷积, 在此基础上设计并实现了结合残差的金字塔池化模块——RASPP, 对交叉融合后的特征进行处理, 获得不同尺度的上下文信息, 增强特征语义表达. 最后, 将RASPP模块处理后的特征进行合并, 提升分割效果. 在Cityscapes和CamVid数据集上的实验结果表明, 本文提出方法相比现有方法具有更好的表现, 并且对场景中的目标边缘有更好的分割效果.  相似文献   

14.
一种基于数据融合的医学图像分割方法   总被引:4,自引:3,他引:4  
针对一类纹理特征明显的医学图像,提出了一种融合纹理信息和灰度信息的图像分割方法,设计了基于金字塔结构的区域增长分割算法,该方法在区域内部结合使用纹理信息和灰度信息,在区域边缘部分则充分利用灰度信息,计算结果表明,该方法对某一类医学图像能够获得较好的分割效果。  相似文献   

15.
谣言会对社会生活造成不利影响,同时具有多种模态的网络谣言比纯文字谣言更容易误导用户和传播,这使得对多模态的谣言检测不可忽视。目前关于多模态谣言检测方法没有关注词与图片区域对象之间的特征融合,因此提出了一种基于注意力机制的多模态融合网络AMFNN应用于谣言检测,该方法在词-视觉对象层面进行高级信息交互,利用注意力机制捕捉与关键词语相关的视觉特征;提出了基于自注意力机制的自适应注意力机制Adapive-SA,通过增加辅助条件来约束内部的信息流动,使得模态内的关系建模更有目标性和多样性。在两个多模态谣言检测数据集上进行了对比实验,结果表明,与目前相关的多模态谣言检测方法相比,AMFNN能够合理地处理多模态信息,从而提高了谣言检测的准确性。  相似文献   

16.
针对DeepLabV3+在特征提取阶段忽略了不同尺度特征重要程度出现的部分细节信息损失导致图像分割不细致,提出一种融合双分支特征提取和注意力机制的改进算法. ResNet101骨干网络初步提取出的特征图作为注意力机制的输入特征,解决了网络退化及梯度消失的问题,也能够捕获到被DeepLabV3+忽略的图像细节信息;设计双分支特征提取机制扩大特征提取能力,细化图像边缘信息以优化网络对不同尺度特征关注不均的问题;同时,联合采用交叉熵损失和类别不平衡函数两种损失函数作为损失函数,通过聚焦于前景样本降低背景的影响,提高算法分割精度.实验结果表明,改进算法在PASCAL VOC 2012和CityScapes数据集上的平均交并比(MIoU)值分别达到了79.92%和68.59%,与经典算法和基于DeepLabV3+改进的算法相比,特征提取的准确性有所提高,分割效果更优.  相似文献   

17.
空间植物培养实验作为空间科学的一项重要研究,通常会获得大量的植物序列图像,传统的处理方法多采用人工观察,以供后续的进一步分析。本文提出一种基于多尺度深度特征融合的空间植物分割算法。该方法应用全卷积深度神经网络来提取多尺度特征,并分层次地融合由深层到浅层的特征,以达到对植物进行像素级的识别。分层次的特征融合了语义信息、中间层信息和几何特征,提高了分割的准确性。实验表明该方法在分割准确性方面表现良好,能够自动提取空间植物实验中的有效信息。  相似文献   

18.
温静  杨洁 《计算机工程》2023,49(2):222-230
现有单目深度估计算法主要从单幅图像中获取立体信息,存在相邻深度边缘细节模糊、明显的对象缺失问题。提出一种基于场景对象注意机制与加权深度图融合的单目深度估计算法。通过特征矩阵相乘的方式计算特征图任意两个位置之间的相似特征向量,以快速捕获长距离依赖关系,增强用于估计相似深度区域的上下文信息,从而解决自然场景中对象深度信息不完整的问题。基于多尺度特征图融合的优点,设计加权深度图融合模块,为具有不同深度信息的多视觉粒度的深度图赋予不同的权值并进行融合,融合后的深度图包含深度信息和丰富的场景对象信息,有效地解决细节模糊问题。在KITTI数据集上的实验结果表明,该算法对目标图像预估时σ<1.25的准确率为0.879,绝对相对误差、平方相对误差和对数均方根误差分别为0.110、0.765和0.185,预测得到的深度图具有更加完整的场景对象轮廓和精确的深度信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号