期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张学峰张胜张冬晖刘瑞《中国图象图形学报》2023,28(10):3231-3242

目的卷积神经网络结合U-Net架构的深度学习方法广泛应用于各种医学图像处理中,取得了良好的效果,特别是在局部特征提取上表现出色,但由于卷积操作本身固有的局部性,导致其在全局信息获取上表现不佳。而基于Transformer的方法具有较好的全局建模能力,但在局部特征提取方面不如卷积神经网络。为充分融合两种方法各自的优点,提出一种基于分组注意力的医学图像分割模型（medical image segmentation module based on group attention,GAU-Net）。方法利用注意力机制,设计了一个同时集成了Swin Transformer和卷积神经网络的分组注意力模块,并嵌入网络编码器中,使网络能够高效地对图像的全局和局部重要特征进行提取和融合;在注意力计算方式上,通过特征分组的方式,在同一尺度特征内,同时进行不同的注意力计算,进一步提高网络提取语义信息的多样性;将提取的特征通过上采样恢复到原图尺寸,进行像素分类,得到最终的分割结果。结果在Synapse多器官分割数据集和ACDC （automated cardiac diagnosis challenge）数据集上进行了相关实验验证。在Synapse数据集中,Dice值为82.93%,HD（Hausdorff distance）值为12.32%,相较于排名第2的方法,Dice值提高了0.97%,HD值降低了5.88%;在ACDC数据集中,Dice值为91.34%,相较于排名第2的方法提高了0.48%。结论本文提出的医学图像分割模型有效地融合了Transformer和卷积神经网络各自的优势,提高了医学图像分割结果的精确度。相似文献

2.

通道注意力嵌入的Transformer图像超分辨率重构

下载免费PDF全文

熊巍熊承义高志荣陈文旗郑瑞华田金文《中国图象图形学报》2023,28(12):3744-3757

目的基于深度学习的图像超分辨率重构研究取得了重大进展，如何在更好提升重构性能的同时，有效降低重构模型的复杂度，以满足低成本及实时应用的需要，是该领域研究关注的重要问题。为此，提出了一种基于通道注意力（channel attention，CA）嵌入的Transformer图像超分辨率深度重构方法（image super-resolution with channelattention-embedded Transformer，CAET）。方法提出将通道注意力自适应地嵌入Transformer变换特征及卷积运算特征，不仅可充分利用卷积运算与Transformer变换在图像特征提取的各自优势，而且将对应特征进行自适应增强与融合，有效改进网络的学习能力及超分辨率性能。结果基于5个开源测试数据集，与6种代表性方法进行了实验比较，结果显示本文方法在不同放大倍数情形下均有最佳表现。具体在4倍放大因子时，比较先进的SwinIR （image restoration using swin Transformer）方法，峰值信噪比指标在Urban100数据集上得到了0.09 dB的提升，在Manga109数据集提升了0.30 dB，具有主观视觉质量的明显改善。结论提出的通道注意力嵌入的Transformer图像超分辨率方法，通过融合卷积特征与Transformer特征，并自适应嵌入通道注意力特征增强，可以在较好地平衡网络模型轻量化同时，得到图像超分辨率性能的有效提升，在多个公共实验数据集的测试结果验证了本文方法的有效性。相似文献

3.

注意力机制下密集空洞卷积的肺部图像分割

下载免费PDF全文

郭宁柏正尧《中国图象图形学报》2021,26(9):2146-2155

目的卷积神经网络（convolutional neural network,CNN）在计算机辅助诊断（computer-aided diagnosis,CAD）肺部疾病方面具有广泛的应用,其主要工作在于肺部实质的分割、肺结节检测以及病变分析,而肺实质的精确分割是肺结节检出和肺部疾病诊断的关键。因此,为了更好地适应计算机辅助诊断系统要求,提出一种融合注意力机制和密集空洞卷积的具有编码—解码模式的卷积神经网络,进行肺部分割。方法将注意力机制引入网络的解码部分,通过增大关键信息权重以突出目标区域抑制背景像素干扰。为了获取更广更深的语义信息,将密集空洞卷积模块部署在网络中间,该模块集合了Inception、残差结构以及多尺度空洞卷积的优点,在不引起梯度爆炸和梯度消失的情况下,获得了更深层次的特征信息。针对分割网络常见的特征丢失等问题,对网络中的上/下采样模块进行改进,利用多个不同尺度的卷积核级联加宽网络,有效避免了特征丢失。结果在LUNA （lung nodule analysis）数据集上与现有5种主流分割网络进行比较实验和消融实验,结果表明,本文模型得到的预测图更接近于标签图像。Dice相似系数、交并比（intersection over union,IoU）、准确度（accuracy,ACC）以及敏感度（sensitivity,SE）等评价指标均优于对比方法,相比于性能第2的模型,分别提高了0.443%,0.272%,0.512%以及0.374%。结论本文提出了一种融合注意力机制与密集空洞卷积的肺部分割网络,相对于其他分割网络取得了更好的分割效果。相似文献

4.

基于混合注意力神经网络的表情识别

廖国清陈世国董子平蔡温娜《信息与电脑》2023,(2):79-83

针对人脸表情识别研究中存在的表情类间差异小而导致的表情易混淆的问题,提出了一种改进模型。通过在残差网络的基础上引入混合注意力机制,强化模型对表情局部特征的关注,通过引入Focal Loss强化模型对复杂表情的学习,引入Center Loss帮助模型过滤出显著特征。实验表明,该方法在公开人脸表情数据集RER2013上的识别准确率为73.74%。相似文献

5.

引入注意力机制和多视角融合的脑肿瘤MR图像U-Net分割模型

下载免费PDF全文

罗恺锴王婷叶芳芳《中国图象图形学报》2021,26(9):2208-2218

目的脑肿瘤核磁共振（magnetic resonance,MR）图像分割对评估病情和治疗患者具有重要意义。虽然深度卷积网络在医学图像分割中取得了良好表现,但由于脑胶质瘤的恶性程度与外观表现有巨大差异,脑肿瘤MR图像分割仍是一项巨大挑战。图像语义分割的精度取决于图像特征的提取和处理效果。传统的U-Net网络以一种低效的拼接方式集成高层次特征和低层次特征,从而导致图像有效信息丢失,此外还存在未能充分利用上下文信息和空间信息的问题。对此,本文提出一种基于注意力机制和多视角融合U-Net算法,实现脑肿瘤MR图像的分割。方法在U-Net的解码和编码模块之间用多尺度特征融合模块代替传统的卷积层,进行多尺度特征映射的提取与融合;在解码模块的级联结构中添加注意力机制,增加有效信息的权重,避免信息冗余;通过融合多个视角训练的模型引入3维图像的空间信息。结果提出的模型在BraTS18（Multimodal Brain Tumor Segmentation Challenge 2018）提供的脑肿瘤MR图像数据集上进行验证,在肿瘤整体区域、肿瘤核心区域和肿瘤增强区域的Dice score分别为0.907、0.838和0.819,与其他方法进行对比,较次优方法分别提升了0.9%、1.3%和0.6%。结论本文方法改进了传统U-Net网络提取和利用图像语义特征不足的问题,并引入了3维MR图像的空间信息,使得肿瘤分割结果更加准确,具有良好的研究和应用价值。相似文献

6.

基于AKAZE算法及注意力机制的图像字幕生成方法

丁聪许冲《信息与电脑》2022,(22):62-66+73

图像字幕生成在计算机视觉领域是一个比较热门的研究方向,在图像字幕生成任务中常用编码（Encode）-解码（Decode）结构生成图像字幕。针对图像细节特征提取效果不理想及图像字幕生成质量欠佳的问题,提出将加速的KAZE(Accelerated-KAZE,AKAZE)算法引入卷积神经网络,提高模型的特征提取能力,同时结合注意力机制,将模型注意力集中到图像中的关键位置,增强了模型的特征提取能力,并且提高了生成的图像字幕质量。对提出的模型在现有的公开数据集上,进行了训练和测试,使用BLUE-4和显示排序翻译度量评价（Metric for Evaluation of Translation with ExplicitOrdering,METEOR）标准,对模型生成的描述语句进行评分,并且进行了对比实验。实验结果表明,与现有的方法相比,该方法表现出更好的图像字幕生成效果、更高的评价分数以及更好的鲁棒性。相似文献

7.

结合注意力机制的深度学习图像目标检测

下载免费PDF全文

孙萍胡旭东张永军《计算机工程与应用》2019,55(17):180-184

利用卷积神经网络进行目标检测时，提取的卷积特征具有很强的平移不变性，这将削弱模型的定位性能。事实上，目标对象通常具有不同的子区域特征和宽高比特性，但在目前流行的两阶段目标检测框架中，很少考虑这些具有平移尺度敏感性的特征成分。为了优化模型的特征表达，将在两阶段目标检测框架中引入与子区域特征和宽高比特性相关的注意力特征库，并生成注意力特征图对原始的ROI池化特征进行优化。另外，在注意力特征图的辅助下，模型特征维度可以有效地进行缩减。实验结果表明，引入注意力模块后，模型的检测精度和检测速度有明显提升。相似文献

8.

自注意力融合调制的弱监督语义分割

下载免费PDF全文

石德硕李军侠刘青山《中国图象图形学报》2023,28(12):3758-3771

目的现有图像级标注的弱监督分割方法大多利用卷积神经网络获取伪标签,其覆盖的目标区域往往过小。基于Transformer的方法通常采用自注意力对类激活图进行扩张,然而受其深层注意力不准确性的影响,优化之后得到的伪标签中背景噪声比较多。为了利用该两类特征提取网络的优点,同时结合Transformer不同层级的注意力特性,构建了一种结合卷积特征和Transformer特征的自注意力融合调制网络进行弱监督语义分割。方法采用卷积增强的Transformer （Conformer）作为特征提取网络,其能够对图像进行更加全面的编码,得到初始的类激活图。设计了一种自注意力层级自适应融合模块,根据自注意力值和层级重要性生成融合权重,融合之后的自注意力能够较好地抑制背景噪声。提出了一种自注意力调制模块,利用像素对之间的注意力关系,设计调制函数,增大前景像素的激活响应。使用调制后的注意力对初始类激活图进行优化,使其覆盖较多的目标区域,同时有效抑制背景噪声。结果在最常用的PASCAL VOC 2012（pattern analysis,statistical modeling and computational learning visual object classes 2012）数据集和COCO 2014 （common objectes in context 2014）数据集上利用获得的伪标签进行分割网络的训练,在对比实验中本文算法均取得最优结果,在PASCAL VOC验证集上,平均交并比（mean intersection over union,mIoU）达到了70.2%,测试集上mIoU值为70.5%,相比对比算法中最优的Transformer模型,其性能在验证集和测试集上均提升了0.9%,相比于卷积神经网络最优方法,验证集上mIoU提升了0.7%,测试集上mIoU值提升了0.8%。在COCO 2014验证集上结果为40.1%,与对比算法中最优方法相比分割精度提高了0.5%。结论本文提出的弱监督语义分割模型,结合了卷积神经网络和Transformer的优点,通过对Transformer自注意力进行自适应融合调制,得到了图像级标签下目前最优的语义分割结果,该方法可应用于三维重建、机器人场景理解等应用领域。此外,所构建的自注意力自适应融合模块和自注意力调制模块均可嵌入到Transformer结构中,为具体视觉任务获取更鲁棒、更具鉴别性的特征。相似文献

9.

融合3D注意力和Transformer的图像去雨网络

下载免费PDF全文

王美华柯凡晖梁云范衠廖磊《中国图象图形学报》2022,27(5):1509-1521

目的因为有雨图像中雨线存在方向、密度和大小等各方面的差异,单幅图像去雨依旧是一个充满挑战的研究问题。现有算法在某些复杂图像上仍存在过度去雨或去雨不足等问题,部分复杂图像的边缘高频信息在去雨过程中被抹除,或图像中残留雨成分。针对上述问题,本文提出三维注意力和Transformer去雨网络(three-dimension attention and Transformer deraining network,TDATDN)。方法将三维注意力机制与残差密集块结构相结合,以解决残差密集块通道高维度特征融合问题;使用Transformer计算特征全局关联性;针对去雨过程中图像高频信息被破坏和结构信息被抹除的问题,将多尺度结构相似性损失与常用图像去雨损失函数结合参与去雨网络训练。结果本文将提出的TDATDN网络在Rain12000雨线数据集上进行实验。其中,峰值信噪比(peak signal to noise ratio,PSNR)达到33.01 dB,结构相似性(structural similarity,SSIM)达到0.927 8。实验结果表明,本文算法对比以往基于深度学习的神经网络去雨算法,显著改善了单幅图像去雨效果。结论本文提出的TDATDN图像去雨网络结合了3D注意力机制、Transformer和编码器—解码器架构的优点,可较好地完成单幅图像去雨工作。相似文献

10.

基于注意力机制的CNN-LSTM模型及其应用

下载免费PDF全文

李梅宁德军郭佳程《计算机工程与应用》2019,55(13):20-27

时序数据存在时序性，并且其短序列的特征存在重要程度差异性。针对时序数据特征，提出一种基于注意力机制的卷积神经网络（CNN）联合长短期记忆网络（LSTM）的神经网络预测模型，融合粗细粒度特征实现准确的时间序列预测。该模型由两部分构成：基于注意力机制的CNN，在标准CNN网络上增加注意力分支，以抽取重要细粒度特征；后端为LSTM，由细粒度特征抽取潜藏时序规律的粗粒度特征。在真实的热电联产供热数据上的实验表明，该模型比差分整合移动平均自回归、支持向量回归、CNN以及LSTM模型的预测效果更好，对比目前企业将预定量作为预测量的方法，预测缩放误差平均值（MASE）与均方根误差（RMSE）指标分别提升了89.64%和61.73%。相似文献

11.

结合BiLSTM和注意力机制的视频行人再识别

下载免费PDF全文

余晨阳温林凤杨钢王玉涛《中国图象图形学报》2019,24(10):1703-1710

目的跨摄像头跨场景的视频行人再识别问题是目前计算机视觉领域的一项重要任务。在现实场景中,光照变化、遮挡、观察点变化以及杂乱的背景等造成行人外观的剧烈变化,增加了行人再识别的难度。为提高视频行人再识别系统在复杂应用场景中的鲁棒性,提出了一种结合双向长短时记忆循环神经网络（BiLSTM）和注意力机制的视频行人再识别算法。方法首先基于残差网络结构,训练卷积神经网络（CNN）学习空间外观特征,然后使用BiLSTM提取双向时间运动信息,最后通过注意力机制融合学习到的空间外观特征和时间运动信息,以形成一个有判别力的视频层次表征。结果在两个公开的大规模数据集上与现有的其他方法进行了实验比较。在iLIDS-VID数据集中,与性能第2的方法相比,首位命中率Rank1指标提升了4.5%;在PRID2011数据集中,相比于性能第2的方法,首位命中率Rank1指标提升了3.9%。同时分别在两个数据集中进行了消融实验,实验结果验证了所提出算法的有效性。结论提出的结合BiLSTM和注意力机制的视频行人再识别算法,能够充分利用视频序列中的信息,学习到更鲁棒的序列特征。实验结果表明,对于不同数据集,均能显著提升识别性能。相似文献

12.

双编码特征注意网络的手术器械分割

下载免费PDF全文

杨磊谷玉格边桂彬刘艳红《中国图象图形学报》2023,28(10):3214-3230

目的手术器械分割是外科手术机器人精准操作的关键环节之一,然而,受复杂因素的影响,精准的手术器械分割目前仍然面临着一定的挑战,如低对比度手术器械、复杂的手术环境、镜面反射以及手术器械的尺度和形状变化等,造成分割结果存在模糊边界和细节错分的问题,影响手术器械分割的精度。针对以上挑战,提出了一种新的手术器械分割网络,实现内窥镜图像中手术器械的准确分割。方法为了实现内窥镜图像的准确表征以获取有效的特征图,提出了基于卷积神经网络（convolutional neural network,CNN）和Transformer融合的双编码器结构,实现分割网络对细节特征和全局上下文语义信息的提取。为了实现局部特征图的特征增强,引入空洞卷积,设计了多尺度注意融合模块,以获取多尺度注意力特征图。针对手术器械分割面临的类不均衡问题,引入全局注意力模块,提高分割网络对手术器械区域的关注度,并减少对于无关特征的关注。结果为了有效验证本文模型的性能,使用两个公共手术器械分割数据集进行性能分析和测试。基于定性分析和定量分析通过消融实验和对比实验,验证了本文算法的有效性和优越性。实验结果表明：在Kvasir-instrument数据集上,本文算法的Dice分数和mIOU （mean intersection over union）值分别为96.46%和94.12%;在Endovis2017 （2017 Endoscopic Vision Challenge）数据集上,本文算法的Dice分数和mIOU值分别为96.27%和92.55%。相较于对比的先进分割网络,本文算法实现了分割精度的有效提升。同时,消融研究也证明了本文算法方案设计的合理性,缺失任何一个子模块都会造成不同程度的精度损失。结论本文所提出的分割模型有效地融合了CNN和Transformer的优点,同时实现了细节特征和全局上下文信息的充分提取,可以实现手术器械准确、稳定分割。相似文献

13.

边缘引导的双注意力图像拼接检测网络

下载免费PDF全文

吴晶辉严彩萍李红刘仁海《中国图象图形学报》2024,29(2):430-443

目的伪造图像给众多行业埋下了隐患,这会造成大量潜在的经济损失。方法提出一种边缘引导的双注意力图像拼接检测网络(boundary-guided dual attention network,BDA-Net),该网络通过将空间通道依赖和边缘预测集成到网络提取的特征中来得到预测结果。首先,提出一种称为预测分支的编解码模型,该分支作为模型的主干网络,可以提取和融合不同分辨率的特征图。其次,为了捕捉不同维度的依赖关系并增强网络对感兴趣区域的关注能力,设计了一个沿多维度进行特征编码的坐标—空间注意力模块(coordinate-spatial attention module,CSAM)。最后,设计了一条边缘引导分支来捕获篡改区域和非篡改区域之间的微小边缘痕迹,以辅助预测分支进行更好的分割。结果实验使用4个图像拼接数据集与多种方法进行比较,评价指标为F1值。在Columbia数据集中,与排名第1的模型相比,F1值仅相差1.6%。在NIST16 Splicing(National Institute of Standards and Technology 16 Splicing)数据集中,F1值与最好的模型略有差距。而在检测难度更高的CASIA2.0 Splicing(Chinese Academy of Sciences Institute of Automation Dataset 2.0 Splicing)和IMD2020(Image Manipulated Datasets 2020)数据集中,BDA-Net的F1值相比排名第2的模型分别提高了15.3%和11.9%。为了验证模型的鲁棒性,还对图像施加JPEG压缩、高斯模糊、锐化、高斯噪声和椒盐噪声攻击。实验结果表明,BDA-Net的鲁棒性明显优于其他模型。结论本文方法充分利用深度学习模型的优点和图像拼接检测领域的专业知识,能有效提升模型性能。与现有的检测方法相比,具有更强的检测能力和更好的稳定性。相似文献

14.

Text-CRNN+attention架构下的多类别文本信息分类

卢健马成贤杨腾飞周嫣然《计算机应用研究》2020,37(6):1693-1696,1701

迄今为止,传统机器学习方法依赖人工提取特征,复杂度高;深度学习网络本身特征表达能力强,但模型可解释性弱导致关键特征信息丢失。为此,以网络层次结合的方式设计了CRNN并引入attention机制,提出一种Text-CRNN+attention模型用于文本分类。首先利用CNN处理局部特征的位置不变性,提取高效局部特征信息;然后在RNN进行序列特征建模时引入attention机制对每一时刻输出序列信息进行自动加权,减少关键特征的丢失,最后完成时间和空间上的特征提取。实验结果表明,提出的模型较其他模型准确率提升了2%~3%;在提取文本特征时,该模型既保证了数据的局部相关性又起到强化序列特征的有效组合能力。相似文献

15.

自上而下注意图分割的细粒度图像分类

下载免费PDF全文

冯语姗王子磊《中国图象图形学报》2016,21(9):1147-1154

目的针对细粒度图像分类中的背景干扰问题,提出一种利用自上而下注意图分割的分类模型。方法首先,利用卷积神经网络对细粒度图像库进行初分类,得到基本网络模型。再对网络模型进行可视化分析,发现仅有部分图像区域对目标类别有贡献,利用学习好的基本网络计算图像像素对相关类别的空间支持度,生成自上而下注意图,检测图像中的关键区域。再用注意图初始化GraphCut算法,分割出关键的目标区域,从而提高图像的判别性。最后,对分割图像提取CNN特征实现细粒度分类。结果该模型仅使用图像的类别标注信息,在公开的细粒度图像库Cars196和Aircrafts100上进行实验验证,最后得到的平均分类正确率分别为86.74%和84.70%。这一结果表明,在GoogLeNet模型基础上引入注意信息能够进一步提高细粒度图像分类的正确率。结论基于自上而下注意图的语义分割策略,提高了细粒度图像的分类性能。由于不需要目标窗口和部位的标注信息,所以该模型具有通用性和鲁棒性,适用于显著性目标检测、前景分割和细粒度图像分类应用。相似文献

16.

基于双重注意力孪生网络的实时视觉跟踪

杨康宋慧慧张开华《计算机应用》2019,39(6):1652-1656

为了解决全卷积孪生网络（SiamFC）跟踪算法在跟踪目标经历剧烈的外观变化时容易发生模型漂移从而导致跟踪失败的问题，提出了一种双重注意力机制孪生网络（DASiam）去调整网络模型并且不需要在线更新。首先，主干网络使用修改后表达能力更强的并适用于目标跟踪任务的VGG网络；然后，在网络的中间层加入一个新的双重注意力机制去动态地提取特征，这种机制由通道注意机制和空间注意机制组成，分别对特征图的通道维度和空间维度进行变换得到双重注意特征图；最后，通过融合两个注意机制的特征图进一步提升模型的表征能力。在三个具有挑战性的跟踪基准库即OTB2013、OTB100和2017年视觉目标跟踪库（VOT2017）实时挑战上进行实验，实验结果表明，以40 frame/s的速度运行时，所提算法在OTB2013和OTB100上的成功率指标比基准SiamFC分别高出3.5个百分点和3个百分点，并且在VOT2017实时挑战上面超过了2017年的冠军SiamFC，验证了所提出算法的有效性。相似文献

17.

基于卷积神经网络的全景分割Transformer模型

毛琳任凤至杨大伟张汝波《软件学报》2023,34(7):3408-3421

提出一种基于卷积神经网络的Transformer模型来解决全景分割任务,方法借鉴CNN在图像特征学习方面的先天优势,避免了Transformer被移植到视觉任务中所导致的计算量增加.基于卷积神经网络的Transformer模型由执行特征域变换的映射器和负责特征提取的提取器这两种基本结构构成,映射器和提取器的有效结合构成了该模型的网络框架.映射器由一种Lattice卷积模型实现,通过对卷积滤波器进行设计和优化来模拟图像的空间关系.提取器由链式网络实现,通过链式单元堆叠提高特征提取能力.基于全景分割的结构和功能,构建了基于CNN的全景分割Transformer网络.在MS COCO和Cityscapes数据集的实验结果表明,所提方法具有优异的性能. 相似文献