首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transformer块和通道交叉注意力机制的DualF ormer模型,用以检测地铁站台屏蔽门与列车门间隙中存在的异物。针对输入图像块尺寸固定的问题,提出双通道策略,通过设计2种不同的特征提取通道对不同尺度的输入图像块进行特征提取,增强网络对粗、细粒度特征的提取能力,提高对多尺度目标的识别精度;针对计算成本高的问题,构建金字塔轻量化Transformer块,将级联卷积引入到多头自注意力(MHSA)模块中,并利用卷积的维度压缩能力来降低模型的计算成本;针对局部与全局信息交互匮乏的问题,提出通道交叉注意力机制,利用提取到的粗细粒度特征在通道层面进行交互,优化局部与全局信息在网络中的权重。在标准化地铁异物检测数据集上的实验结果表明,DualFormer模型参数量为1.98×107,实现了89.7%的精度和24帧/s的速度,优于对比的Tra...  相似文献   

2.
目的 针对传统红外与可见光图像融合方法中人工设计特征提取和特征融合的局限性,以及基于卷积神经网络(convolutional neural networks, CNN)的方法无法有效提取图像中的全局上下文信息和特征融合过程中融合不充分的问题,本文提出了基于视觉Transformer和分组渐进式融合策略的端到端无监督图像融合网络。方法 首先,将在通道维度上进行自注意力计算的多头转置注意力模块和通道注意力模块组合成视觉Transformer,多头转置注意力模块解决了自注意力计算量随像素大小呈次方增大的问题,通道注意力可以强化突出特征。其次,将CNN和设计的视觉Transformer并联组成局部—全局特征提取模块,用来提取源图像中的局部细节信息和全局上下文信息,使提取的特征既具有通用性又具有全局性。此外,为了避免融合过程中信息丢失,通过将特征分组和构造渐进残差结构的方式进行特征融合。最后,通过解码融合特征得到最终的融合图像。结果 实验在TNO数据集和RoadScene数据集上与6种方法进行比较。主观上看,本文方法能够有效融合红外图像和可见光图像中的互补信息,得到优质的融合图像。从客观定量分析...  相似文献   

3.
对于传统的图像分类网络而言,卷积神经网络受限于较小且固定的感受野使其忽略了感受野之外的图像特征信息.基于Transformer模型灵活的多头自注意力机制使得其必须依赖于巨大的数据量以减少过拟合的风险,导致模型参数与计算复杂度过于庞大.针对上述问题本文提出了一种名为CSNet的多阶段图像分类模型.在模型浅层阶段利用大核卷积分解的思想扩大卷积层感受野以学习较大范围的特征信息.在深层阶段利用一种高效的自注意力机制,将卷积运算的特性加入自注意力机制中,有效减少了原始自注意力机制局部计算冗余和过分依赖数据的问题.CSNet在CIFAR-10和ImageNet-1K数据集上的分类准确率分别达到98.9%和82.6%,实验表明CSNet的模型性能优于ResNet和Vision Transformer.  相似文献   

4.
为了解决Transformer编码器在行人重识别中因图像块信息丢失以及行人局部特征表达不充分导致模型识别准确率低的问题,本文提出改进型Transformer编码器和特征融合的行人重识别算法。针对Transformer在注意力运算时会丢失行人图像块相对位置信息的问题,引入相对位置编码,促使网络关注行人图像块语义化的特征信息,以增强行人特征的提取能力。为了突出包含行人区域的显著特征,将局部patch注意力机制模块嵌入到Transformer网络中,对局部关键特征信息进行加权强化。最后,利用全局与局部信息特征融合实现特征间的优势互补,提高模型识别能力。训练阶段使用Softmax及三元组损失函数联合优化网络,本文算法在Market1501和DukeMTMC-reID两大主流数据集中评估测试,Rank-1指标分别达到97.5%和93.5%,平均精度均值(mean Average precision, mAP)分别达到92.3%和83.1%,实验结果表明改进型Transformer编码器和特征融合算法能够有效提高行人重识别的准确率。  相似文献   

5.
为解决目前Transformer模型因其巨大的参数量和计算复杂度而无法应用在计算资源相对有限的移动设备中的问题,提出了一种适用于移动端的友好型轻量图像识别网络称为FuseNet。FuseNet利用卷积神经网络提取局部特征信息和自注意力机制擅长对全局信息进行建模的特性,将局部表示与全局表示两者的特性整合至一个特征提取模块,高效融合了两种不同结构的优点达到以较小的模型规模实现较高准确率的目的。实验证明不同参数规模的FuseNet可以在不进行预训练的情况下实现良好的性能,可以很好地应用在移动设备中。FuseNet-B在ImageNet-1K数据集上以14.8M的参数量实现了80.5%的准确率,性能表现超过了同体量的Transformer模型和卷积神经网络。  相似文献   

6.
目标检测任务是计算机视觉领域中基础且备受关注的工作,遥感图像目标检测任务因在交通、军事、农业等方面具有重要应用价值,也成为研究的一大热点。相比自然图像,遥感图像由于受到复杂背景的干扰,以及天气、小型和不规则物体等诸多因素的影响,遥感图像目标检测任务要实现较高的精度是极具挑战性的。文中提出了一种新颖的基于移位窗口Transformer的目标检测网络。模型应用了移位窗口式Transformer模块作为特征提取的骨干,其中,Transformer的自注意力机制对于检测混乱背景下的目标十分有效,移位窗口式的模式则有效避免了大量的平方级复杂度计算。在获得骨干网络提取的特征图之后,模型使用了金字塔架构以融合不同尺度、不同语义的局部和全局特征,有效地减少了特征层之间的信息丢失,并捕捉到固有的多尺度层级关系。此外,文中还提出了自混合视觉转换器模块和跨层视觉转换器模块。自混合视觉转换器模块重新渲染了深层特征图以增强目标特征识别和表达,跨层视觉转换器模块则依据特征上下文交互等级重新排列各特征层像素的信息表达。模块融入到自下而上和自上而下双向特征路径之中,以充分利用包含不同语义的全局和局部信息。所提网络模型...  相似文献   

7.
目的 卷积神经网络结合U-Net架构的深度学习方法广泛应用于各种医学图像处理中,取得了良好的效果,特别是在局部特征提取上表现出色,但由于卷积操作本身固有的局部性,导致其在全局信息获取上表现不佳。而基于Transformer的方法具有较好的全局建模能力,但在局部特征提取方面不如卷积神经网络。为充分融合两种方法各自的优点,提出一种基于分组注意力的医学图像分割模型(medical image segmentation module based on group attention,GAU-Net)。方法 利用注意力机制,设计了一个同时集成了Swin Transformer和卷积神经网络的分组注意力模块,并嵌入网络编码器中,使网络能够高效地对图像的全局和局部重要特征进行提取和融合;在注意力计算方式上,通过特征分组的方式,在同一尺度特征内,同时进行不同的注意力计算,进一步提高网络提取语义信息的多样性;将提取的特征通过上采样恢复到原图尺寸,进行像素分类,得到最终的分割结果。结果 在Synapse多器官分割数据集和ACDC (automated cardiac diagnosis challenge)数据集上进行了相关实验验证。在Synapse数据集中,Dice值为82.93%,HD(Hausdorff distance)值为12.32%,相较于排名第2的方法,Dice值提高了0.97%,HD值降低了5.88%;在ACDC数据集中,Dice值为91.34%,相较于排名第2的方法提高了0.48%。结论 本文提出的医学图像分割模型有效地融合了Transformer和卷积神经网络各自的优势,提高了医学图像分割结果的精确度。  相似文献   

8.
针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将多分支融合为单分支,以降低计算复杂度、加快模型推理速度。然后,利用基于压缩和激励网络的通道注意力机制弥补缺失的通道特征信息,以提高语音识别准确率。最后,在公开数据集Aishell-1上的实验结果表明:相较于Conformer,所提出方法的字错误率降低了10.67%,验证了方法的先进性。此外,RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型整体性能,具有很好的泛化能力。  相似文献   

9.
针对解析法稀疏重建中产生的条状伪影问题,提出一种融合通道注意力的U型Transformer(CA-Uformer),以实现高精度计算机断层成像(CT)的稀疏重建。CA-Uformer融合了通道注意力和Transformer中的空间注意力,双注意力机制使网络更容易学习到图像细节信息;采用优秀的U型架构融合多尺度图像信息;采用卷积操作实现前向反馈网络设计,从而进一步耦合卷积神经网络(CNN)的局部信息关联能力和Transformer的全局信息捕捉能力。实验结果表明,与经典U-Net相比,CA-Uformer的峰值信噪比(PSNR)、结构相似性(SSIM)提高了3.27 dB、3.14%,均方根误差(RMSE)降低了35.29%,提升效果明显。可见,CA-Uformer稀疏重建精度更高,压制伪影能力更强。  相似文献   

10.
目前主流的语音分离算法模型都是基于复杂的递归网络或Transformer网络,Transformer网络复杂度高导致训练难度大以及音频的高采样率导致在样本级别上使用超长输入从而获取不完全特征,不能直接对长语音特征序列进行直接建模出现特征丢失问题。对此,该文提出了一种基于Transformer的改进网络模型。首先,在原有Transformer网络模型编码器里新添加下采样块,计算不同时间尺度上的高级特征同时降低特征空间复杂度;其次,在Transformer网络模型的解码器里添加上采样层与编码器下采样层特征融合保证特征不丢失,提高模型分离能力;最后,在模型分离层里引入一种改进的滑动窗口注意力机制,滑动窗口使用循环移位技术,新的特征窗口中包含老的特征窗口特征同时融合特征边缘信息完成了特征窗口之间的信息交互,获得特征编码以及特征位置编码同时提高特征信息之间的相关系数。实验表明,使用SI-SNR评价标准达到13.5 dB,使用SDR评价指标达到14.1 dB,分离效果优于之前的方法。  相似文献   

11.
卢健  马成贤  杨腾飞  周嫣然 《计算机应用研究》2020,37(6):1693-1696,1701
迄今为止,传统机器学习方法依赖人工提取特征,复杂度高;深度学习网络本身特征表达能力强,但模型可解释性弱导致关键特征信息丢失。为此,以网络层次结合的方式设计了CRNN并引入attention机制,提出一种Text-CRNN+attention模型用于文本分类。首先利用CNN处理局部特征的位置不变性,提取高效局部特征信息;然后在RNN进行序列特征建模时引入attention机制对每一时刻输出序列信息进行自动加权,减少关键特征的丢失,最后完成时间和空间上的特征提取。实验结果表明,提出的模型较其他模型准确率提升了2%~3%;在提取文本特征时,该模型既保证了数据的局部相关性又起到强化序列特征的有效组合能力。  相似文献   

12.
现有基于深度学习和神经网络的文本情感分析模型通常存在文本特征提取不全面,且未考虑关键信息对文本情感倾向的影响等问题。基于并行混合网络与双路注意力机制,提出一种改进的文本情感分析模型。根据不同神经网络的特点分别采用GloVe和Word2vec两种词向量训练工具将文本向量化,得到更丰富的文本信息。将两种不同的词向量并行输入由双向门控循环单元与卷积神经网络构建的并行混合网络,同时提取上下文全局特征与局部特征,提高模型的特征提取能力。使用双路注意力机制分别对全局特征和局部特征中的关键信息进行加强处理及特征融合,增强模型识别关键信息的能力。将融合后的整个文本特征输入全连接层,实现最终的情感极性分类。在IMDb和SST-2公开数据集上的实验结果表明,该模型的分类准确率分别达到91.73%和91.16%,相比于同类文本情感分析模型有不同程度的提升,从而证明了双路注意力机制可以更全面地捕获文本中的关键信息,提高文本情感分类效果。  相似文献   

13.
目的 三维点云分类作为一项关键任务,在计算机视觉、机器人和自动驾驶等领域有着广泛的应用场景。现有的三维点云分类网络在使用边卷积进行局部特征提取时通常存在输入特征差异性小,空间结构信息提取、融合不充分等问题。针对上述问题,设计了一种结合空间结构卷积和注意力机制的点云分类网络。方法 首先,提出一种空间结构卷积,在边卷积的基础上引入邻接点之间的相对位置信息来降低输入特征相似性,而后从结构和位置两个角度分别进行特征编码,实现更具多样性的局部几何结构捕获。其次,设计了全局特征编码模块,从坐标信息中提炼全局特征信息,同时在网络中融合了注意力机制,用于关联局部和全局特征表示,有效保留了全局特征信息,实现全局特征的适应性调整。最后,将局部几何结构信息和全局位置信息进行有效的融合,获得更具代表性和差异性的特征表征。结果 设计实验在公开数据集ModelNet40上对提出的网络模型的性能进行评估,点云分类总体准确率和平均准确率分别达到93.0%和89.7%,具备良好的分类性能和预测效率。实验结果表明,空间结构卷积的使用有效增加了输入特征的多样性,位置和结构的单独编码有效提高了局部特征的表达能力。同时,提出的注意力加权方式在保留全局特征前提下实现了局部特征和全局特征的关联。结论 提出的网络有较强的细粒度特征提取能力,具有良好的分类性能。  相似文献   

14.
YOLOv4计算复杂度高、空间金字塔池化模块仅一次增强特征融合网络的深层区域特征图的表征能力、检测头网络的特征图难以突出重要通道特征;针对以上问题,提出一种基于注意力机制和多空间金字塔池化的实时目标检测算法;该算法采用多空间金字塔池化,提取局部特征和全局特征,融合多重感受野,加强特征融合网络的浅、中、深层特征图的表征能力;引入压缩激励通道注意力机制,建模通道间的相关性,自适应调整特征图各个通道的权重,从而使网络更加关注重要特征;特征融合和检测头网络中使用深度可分离卷积,减少了网络参数量;实验结果表明,所提算法的均值平均精度均高于其他七种主流对比算法;与YOLOv4相比,参数量、模型大小分别减少了27.85 M和106.25 MB,所提算法在降低复杂度的同时,提高了检测准确度;且该算法的检测速率达到33.70 帧/秒,满足实时性要求。  相似文献   

15.
高性能语义分割算法由于自身高延迟性存在无法快速感知路况的问题。本文提出一种基于注意力机制的双路径网络模型。该网络模型采用轻量的局部轮廓信息提取模块和语义信息提取模块来替代复杂的编码器结构。针对不同路径下特征图的特点,分别基于自注意力和通道注意力机制设计特征优化模块,该算法可有效地提高轻量网络结构对细节特征的表达能力。设计的语义分割网络以25 fps的速度处理图像的同时,可保持73.9%的平均交并比。经实物验证,表明本文算法具备实时性,具有一定的实际应用价值。  相似文献   

16.
目的 食物图片具有结构多变、背景干扰大、类间差异小、类内差异大等特点,比普通细粒度图片的识别难度更大。目前在食物图片识别领域,食物图片的识别与分类仍存在精度低、泛化性差等问题。为了提高食物图片的识别与分类精度,充分利用食物图片的全局与局部细节信息,本文提出了一个多级卷积特征金字塔的细粒度食物图片识别模型。方法 本文模型从整体到局部逐级提取特征,将干扰较大的背景信息丢弃,仅针对食物目标区域提取特征。模型主要由食物特征提取网络、注意力区域定位网络和特征融合网格3部分组成,并采用3级食物特征提取网络的级联结构来实现特征由全局到局部的转移。此外,针对食物图片尺度变化大的特点,本文模型在每级食物特征提取网络中加入了特征金字塔结构,提高了模型对目标大小的鲁棒性。结果 本文模型在目前主流公开的食物图片数据集Food-101、ChineseFoodNet和Food-172上进行实验,分别获得了91.4%、82.8%、90.3%的Top-1正确率,与现有方法相比提高了1%~8%。结论 本文提出了一种多级卷积神经网络食物图片识别模型,可以自动定位食物图片区分度较大的区域,融合食物图片的全局与局部特征,实现了食物图片的细粒度识别,有效提高了食物图片的识别精度。实验结果表明,该模型在目前主流食物图片数据集上取得了最好的结果。  相似文献   

17.
基于深度学习的图像去雾方法在合成数据集上表现良好,但在真实场景中应用时存在去雾不彻底、颜色失真等问题。提出一种新的单幅图像去雾网络,该网络包含特征提取、特征融合2个模块。在特征提取模块中,通过残差密集块和具有空间注意机制的特征提取块分别提取图像的局部特征和全局特征。在特征融合模块中,利用通道注意力机制对局部特征图和全局特征图进行通道加权,并通过卷积操作融合加权后的局部特征图与全局特征图。最后,采用门控网络自适应结合3个不同深度的融合特征图,以恢复高质量的去雾图像。实验结果表明,所提网络在室内数据集下的峰值信噪比(PSNR)和结构相似度(SSIM)分别为33.04 dB、0.983,在HAZERD数据集下的PSNR和SSIM分别比GridDehazeNet网络高出1.33 dB和0.041。同时,该网络的模型参数量和浮点运算数分别为0.34M和16.06×109frame/s,具有较低复杂度,对合成图像和真实图像均可取得理想的去雾效果。  相似文献   

18.
分析句子针对不同方面的情感极性,深入挖掘评论文本中的信息,为企业生产决策提供建议。针对传统方法多考虑单一层面注意力信息,且基于RNN的模型忽略了局部特征的重要性,而基于CNN的模型不能捕捉长距离依赖的信息的问题,提出了基于双重注意力机制的BG-DATT-CNN模型。在特征表示上,利用BERT对句子和方面词分别进行词向量编码,获得文本的深层语义特征。在特征提取上,设计了双重注意力机制,通过计算两类权重获得综合权重,强化文本的上下文相关特征和方面相关特征。在模型构建上,设计了BG-DATT-CNN网络,结合GRU和CNN各自的优势,Bi-GRU层捕捉文本的上下文全局特征,CNN层包括K-Max池化层和TextCNN层,通过两阶段特征提取获取分类的关键信息。在SemEval 2014数据集上的实验表明,与现有的其他模型相比,提出的模型取得了较好的效果。  相似文献   

19.
目的 特发性肺纤维化(idiopathic pulmonary fibrosis, IPF)是一种致死率极高的肺间质疾病,呈渐进式发展且诊断手段有限,给病情的预后带来极大的困难。目前已有的肺功能衰退严重程度预测方法仍存在准确率较低的问题。方法 提出了一种融合多尺度残差和注意力机制的特发性肺纤维化进展预测模型,包括计算机断层扫描(computed tomography, CT)特征提取网络和多模态特征预测网络,以此预测IPF患者不同周数的用力肺活量(forced vital capacity, FVC)。CT特征提取网络以InceptionV1为骨干网络,添加残差模块和改进的CBAM通道注意力模块(improved channel attention of convolutional block attention module, CBAM-ICA)来扩大网络的感受野,关注肺部区域的有效特征,添加与卷积层并行的空洞卷积模块,补充丢失的细节信息,并对改进的多尺度CT特征融合模块进行两次串联堆叠,提升网络获取CT特征的能力,最终获得更加有效的多尺度CT特征信息。多模态预测网络利用CT特征和临...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号