期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

武书磊张方红杨有刘学文《计算机系统应用》2024,33(6):232-241

多器官医学图像分割有助于医生做出临床诊断. 针对CNN提取全局特征能力弱, Transformer提取局部特征能力弱, 以及Transformer具有二次方计算复杂度的问题, 提出了用于多器官医学图像分割的多级特征交互Transformer模型. 所提模型采用CNN提取局部特征, 局部特征经Swin Transformer输出全局特征; 通过下采样分别产生多级局部和全局特征, 每级局部和全局特征经过交互并增强; 每级增强后的特征经多级特征融合模块进行交叉融合; 再次融合后的特征经过上采样和分割头输出分割掩码. 所提模型在Synapse和ACDC数据集上进行实验, 平均DSC和平均HD95系数值为80.16%和19.20 mm, 均优于LGNet和RFE-UNet等代表性模型. 该模型对多器官医学图像分割是有效的. 相似文献

2.

CNN-Transformer特征融合多目标跟踪算法

张英俊白小辉谢斌红《计算机工程与应用》2024,(2):180-190

在卷积神经网络（CNN）中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块（two-way braidge module,TBM）对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到... 相似文献

3.

基于双分支特征融合的医学报告生成方法

沈秀轩吴春雷冯叶棋程铭张俊三朱杰《计算机工程》2023,(6):274-283+291

医学图像的全局特征在基于深度学习的医学影像报告自动生成任务中发挥着重要作用,传统方法通常仅使用单分支卷积神经网络提取图像语义特征,注重局部细节特征的提取,但缺乏对医学图像全局特征的关注。提出一种新的医学影像报告生成方法 DBFFN,基于双分支特征融合,结合卷积神经网络与视觉Transformer各自在图像特征提取上的优势,分别提取给定医学图像的全局特征和局部特征,在计算图像全局关系的同时关注局部细微的语义信息。针对医学图像的特征融合问题,设计一种多尺度特征融合模块,对来自两个分支的图像特征进行自适应尺度对齐,并结合矩阵运算方法和空间信息增强方法有效融合全局特征与局部特征内部包含的语义信息。在IU-X-Ray数据集上的实验结果表明,DBFFN方法的BLEU-1～BLEU-4,METEOR,ROUGE-L指标平均值分别为0.496,0.331,0.234,0.170,0.214,0.370,优于HRNN、HRGR、CMAS-RL等方法,在医学影像报告自动生成任务上具有有效性。相似文献

4.

基于局部-全局特征耦合与边界引导的遥感图像建筑物变化检测

下载免费PDF全文

郑剑柴岚康于祥春《计算机应用研究》2024,41(6)

针对现有变化检测方法局部特征和全局特征难以兼顾、变化对象和背景之间分界模糊的问题,提出了一种基于局部-全局特征耦合与边界引导的遥感图像建筑物变化检测方法。该方法在编码阶段采用并行的卷积神经网络和Transformer分别提取遥感图像的局部特征与全局表示。在不同尺度下,使用局部-全局特征耦合模块融合局部特征和全局特征表示,以增强图像特征的表达能力。引入边界引导分支获取变化对象的先验边界信息,使其引导变化图突出建筑物的结构特征,促进边界精确定位。该方法在LEVIR-CD和WHU数据集上进行实验验证,其F1-score分别为91.25%和91.27%,IoU分别为83.90%和83.95%。实验结果表明,该方法在检测精度上有较大的提升,且具有良好的泛化能力。相似文献

5.

基于混合编码的皮肤病变图像分割

彭静马玉良席旭刚《传感技术学报》2024,37(3):476-483

皮肤镜图像中的皮肤病变分割是计算机辅助诊断皮肤癌的关键。现有的卷积神经网络(CNNs)通常由于卷积操作的固有限制而忽视全局上下文信息。因此,提出了一种具有Transformer和CNN优点的混合编码器的皮损分割网络。首先,使用极坐标变换对原始图像进行预处理。接着利用CNN对不同尺度特征进行预提取,并将其作为Transformer编码器的输入序列,实现对序列数据的全局上下文建模,更好地捕获特征之间的长程依赖关系。最后,在解码器中加入了多级特征融合模块和注意力机制,解码不同尺度和编码块内的分层语义特征。提出的HET-Net网络在ISIC 2018数据集上JSI、DSC和ACC值分别达到了85.09%、91.43%和96.90%,在ISIC 2016+PH2数据集上分别达到了87.44%、93.02%和95.68%。与其他模型相比,所提模型取得了显著的结果,验证了模型的有效性。相似文献

6.

融合CNN和Transformer的图像去噪网络

姜文涛卜艺凡《计算机系统应用》2024,33(7):39-51

目前基于深度学习的图像去噪算法无法综合考虑局部和全局的特征信息, 进而影响细节处的图像去噪效果, 针对该问题, 提出了融合CNN和Transformer的图像去噪网络(hybrid CNN and Transformer image denoising network, HCT-Net). 首先, 提出CNN和Transformer耦合模块(CNN and Transformer coupling block, CTB), 构造融合卷积和通道自注意力的双分支结构, 缓解单纯依赖Transformer造成的高额计算开销, 同时动态分配注意力权重使网络关注重要图像特征. 其次, 设计自注意力增强卷积模块(self-attention enhanced convolution module, SAConv), 采用递进式组合模块和非线性变换, 减弱噪声信号干扰, 提升在复杂噪声水平下识别局部特征的能力. 在6个基准数据集上的实验结果表明, HCT-Net相比当前一些先进的去噪方法具有更好的特征感知能力, 能够抑制高频的噪声信号从而恢复图像的边缘和细节信息. 相似文献

7.

CoT-TransUNet:轻量化的上下文Transformer医学图像分割网络

下载免费PDF全文

杨鹤柏正尧《计算机工程与应用》2023,59(3):218-225

针对以往医学图像分割网络中卷积的感受野太小以及Transformer的特征丢失问题,提出了一种端到端的轻量化上下文Transformer医学图像分割网络（lightweight context Transformer medical image segmentation network,CoT-TransUNet)。该网络由编码器、解码器以及跳跃连接三部分组成。对于输入图像,编码器使用CoTNet-Transformer的混合模块,采用CoTNet作为特征提取器来生成特征图。Transformer块则把特征图编码为输入序列。解码器通过一个级联上采样器,将编码后的特征进行上采样。该上采样器级联了多个上采样块,每个上采样块都采用CARAFE上采样算子。通过跳跃连接实现编码器与解码器在不同分辨率上的特征聚合。CoT-TransUNet通过在特征提取阶段采用全局与局部上下文信息相结合的CoTNet;在上采样阶段采用具有更大感受野的CARAFE算子。实现了生成更好的输入特征图,以及基于内容的上采样,并保持轻量化。在多器官分割任务的实验中,CoT-TransUNet取得了优于其他网络的性能。相似文献

8.

基于通道注意力和Transformer的图像标题生成方法

刘静陈金广《计算机与现代化》2023,(5):8-12

图像标题生成是指通过计算机将图像翻译成描述该图像的标题语句。针对现有图像标题生成任务中，未充分利用图像的局部和全局特征以及时间复杂度较高的问题，本文提出一种基于卷积神经网络（Convolution Neural Networks,CNN）和Transformer的混合结构图像标题生成模型。考虑卷积网络所具有的空间和通道特性，首先将轻量化高精度的注意力ECA与卷积网络CNN进行融合构成注意力残差块，用于从输入图像中提取视觉特征；然后将特征输入到序列模型Transformer中，在编码器端借助自注意学习来获得所参与的视觉表示，在语言解码器中捕获标题中的细粒度信息以及学习标题序列间的相互作用，进而结合视觉特征逐步得到图像所对应的标题描述。将模型在MSCOCO数据集上进行实验，BLEU-1、BLEU-3、BLEU-4、Meteor和CIDEr指标分别提高了0.3、0.5、0.7、0.4、1.6个百分点。相似文献

9.

基于编解码卷积神经网络的单张图像深度估计

下载免费PDF全文

贾瑞明刘立强刘圣杰崔家礼《图学学报》2019,40(4):718

摘要：针对传统方法在单目视觉图像深度估计时存在鲁棒性差、精度低等问题,提出一种基于卷积神经网络(CNN)的单张图像深度估计方法。首先,提出层级融合编码器-解码器网络, 该网络是对端到端的编码器-解码器网络结构的一种改进。编码器端引入层级融合模块,并通过对多层级特征进行融合,提升网络对多尺度信息的利用率。其次,提出多感受野残差模块,其作为解码器的主要组成部分,负责从高级语义信息中估计深度信息。同时,多感受野残差模块可灵活地调整网络感受野大小,提高网络对多尺度特征的提取能力。在 NYUD v2 数据集上完成网络模型有效性验证。实验结果表明,与多尺度卷积神经网络相比,该方法在精度 δ<1.25 上提高约 4.4%,在平均相对误差指标上降低约 8.2%。证明其在单张图像深度估计的可行性。相似文献

10.

基于Transformer的U型医学图像分割网络综述

傅励瑶尹梦晓杨锋《计算机应用》2023,(5):1584-1595

目前,医学图像分割模型广泛采用基于全卷积网络（FCN）的U型网络（U-Net）作为骨干网,但卷积神经网络（CNN）在捕捉长距离依赖能力上的劣势限制了分割模型性能的进一步提升。针对上述问题,研究者们将Transformer应用到医学图像分割模型中以弥补CNN的不足,结合Transformer和U型结构的分割网络成为研究热点之一。在详细介绍U-Net和Transformer之后,按医学图像分割模型中Transformer模块所处的位置,包括仅在编码器或解码器、同时在编码器和解码器、作为过渡连接和其他位置进行分类,讨论各模型的基本内容、设计理念以及可改进的地方,并分析了Transformer处于不同位置的优缺点。根据分析结果可知,决定Transformer所在位置的最大因素是目标分割任务的特点,而且Transformer结合U-Net的分割模型能更好地利用CNN和Transformer各自的优势,提高模型的分割性能,具有较大的发展前景和研究价值。相似文献

11.

红外与可见光图像分组融合的视觉Transformer

下载免费PDF全文

孙旭辉官铮王学《中国图象图形学报》2023,28(1):166-178

目的针对传统红外与可见光图像融合方法中人工设计特征提取和特征融合的局限性,以及基于卷积神经网络(convolutional neural networks, CNN)的方法无法有效提取图像中的全局上下文信息和特征融合过程中融合不充分的问题,本文提出了基于视觉Transformer和分组渐进式融合策略的端到端无监督图像融合网络。方法首先,将在通道维度上进行自注意力计算的多头转置注意力模块和通道注意力模块组合成视觉Transformer,多头转置注意力模块解决了自注意力计算量随像素大小呈次方增大的问题,通道注意力可以强化突出特征。其次,将CNN和设计的视觉Transformer并联组成局部—全局特征提取模块,用来提取源图像中的局部细节信息和全局上下文信息,使提取的特征既具有通用性又具有全局性。此外,为了避免融合过程中信息丢失,通过将特征分组和构造渐进残差结构的方式进行特征融合。最后,通过解码融合特征得到最终的融合图像。结果实验在TNO数据集和RoadScene数据集上与6种方法进行比较。主观上看,本文方法能够有效融合红外图像和可见光图像中的互补信息,得到优质的融合图像。从客观定量分析... 相似文献

12.

融合局部与全局特征的DCE-MRI乳腺肿瘤良恶分类

下载免费PDF全文

赵小明廖越辉张石清方江雄何遐遐汪国余卢洪胜《中国图象图形学报》2024,29(1):256-267

目的基于计算机辅助诊断的乳腺肿瘤动态对比增强磁共振成像（dynamic contrast-enhanced magnetic resonance imaging,DCE-MRI）检测和分类存在着准确度低、缺乏可用数据集等问题。方法针对这些问题,建立一个乳腺DCE-MRI影像数据集,并提出一种将面向局部特征学习的卷积神经网络（convolutional neural network, CNN）和全局特征学习的视觉Transformer(vision Transformer,ViT)方法相融合的局部—全局跨注意力融合网络（local global cross attention fusion network,LG-CAFN）,用于实现乳腺肿瘤DCE-MRI影像自动诊断,以提高乳腺癌的诊断准确率和效率。该网络采用跨注意力机制方法,将CNN分支提取出的图像局部特征和ViT分支提取出的图像全局特征进行有效融合,从而获得更具判别性的图像特征用于乳腺肿瘤DCE-MRI影像良恶性分类。结果在乳腺癌DCE-MRI影像数据集上设置了两组包含不同种类的乳腺DCE-MRI序列实验,并与VGG16(Vis... 相似文献

13.

基于Transformer的脊椎CT图像分割

下载免费PDF全文

卢玲漆为民《中国图象图形学报》2023,28(11):3618-3628

目的脊椎CT（computed tomography）图像存在组织结构显示不佳、对比度差以及噪音干扰等问题;传统分割算法分割精度低,分割过程需人工干预,往往只能实现半自动分割,不能满足实时分割需求。基于卷积神经网络（convolutional neural network,CNN）的U-Net模型成为医学图像分割标准,但仍存在长距离交互受限的问题。Transformer集成全局自注意力机制,可捕获长距离的特征依赖,在计算机视觉领域表现出巨大优势。本文提出一种CNN与Transformer混合分割模型TransAGUNet （Transformer attention gate U-Net）,以实现对脊椎CT图像的高效自动化分割。方法提出的模型将Transformer、注意力门控机制（attention gate,AG）及U-Net相结合构成编码—解码结构。编码器使用Transformer和CNN混合架构,提取局部及全局特征;解码器使用CNN架构,在跳跃连接部分融入AG,将下采样特征图对应的注意力图（attention map）与下一层上采样后获得的特征图进行拼接,融合低层与高层特征从而实现更精细的分割。实验使用Dice Loss与带权重的交叉熵之和作为损失函数,以解决正负样本分布不均的问题。结果将提出的算法在VerSe2020数据集上进行测试,Dice系数较主流的CNN分割模型U-Net、Attention U-Net、U-Net++和U-Net3+分别提升了4.47%、2.09%、2.44%和2.23%,相较优秀的Transformer与CNN混合分割模型TransUNet和TransNorm分别提升了2.25%和1.08%。结论本文算法较以上6种分割模型在脊椎CT图像的分割性能最优,有效地提升了脊椎CT图像的分割精度,分割实时性较好。相似文献

14.

基于改进型Transformer编码器和特征融合的行人重识别

赵倩薛超晨赵琰《数据采集与处理》2023,38(2):375-385

为了解决Transformer编码器在行人重识别中因图像块信息丢失以及行人局部特征表达不充分导致模型识别准确率低的问题,本文提出改进型Transformer编码器和特征融合的行人重识别算法。针对Transformer在注意力运算时会丢失行人图像块相对位置信息的问题,引入相对位置编码,促使网络关注行人图像块语义化的特征信息,以增强行人特征的提取能力。为了突出包含行人区域的显著特征,将局部patch注意力机制模块嵌入到Transformer网络中,对局部关键特征信息进行加权强化。最后,利用全局与局部信息特征融合实现特征间的优势互补,提高模型识别能力。训练阶段使用Softmax及三元组损失函数联合优化网络,本文算法在Market1501和DukeMTMC-reID两大主流数据集中评估测试,Rank-1指标分别达到97.5%和93.5%,平均精度均值（mean Average precision, mAP）分别达到92.3%和83.1%,实验结果表明改进型Transformer编码器和特征融合算法能够有效提高行人重识别的准确率。相似文献

15.

Transformer与多尺度注意力的自监督单目图像深度估计

梁水波刘紫燕孙昊堃袁浩梁静《小型微型计算机系统》2023,(4):825-831

针对现有自监督学习的单目图像深度估计在分辨率较大情况下存在边缘模糊、物体轮廓不清晰等问题，本文提出一种结合视觉Transformer的多尺度通道注意力融合单目图像深度估计网络.首先，设计编码器-解码器模型，将视觉Transformer结构作为编码器在多个尺度上提取特征.其次，设计残差通道注意力融合的解码器，优化提取到的多尺度特征并实现上下级特征融合以提高上下文信息的利用率.最后，在多个尺度下对单目图像进行深度估计.本文提出的算法在KITTI数据集上进行实验.实验结果表明，所提出算法的深度图像质量和物体轮廓信息均高于现有算法，其绝对相对误差、平方相对误差和均方根误差分别达到了0.119、0.857和4.571,在不同阈值下的准确度达到了0.959、0.995和0.999,验证了所提算法的正确性和有效性. 相似文献

16.

融合自适应常识门的图像描述生成模型

杨有陈立志方小龙潘龙越《计算机应用》2022,42(12):3900-3905

针对传统的图像描述模型不能充分利用图像信息且融合特征方式单一的问题,提出了一种融合自适应常识门（ACG）的图像描述生成模型。首先,使用基于视觉常识区域的卷积神经网络（VC R-CNN）提取视觉常识特征,并将常识特征分层输入到Transformer编码器中;然后,在编码器的每一分层中设计了ACG,从而对视觉常识特征和编码特征进行自适应融合操作;最后,将融合常识信息的编码特征送入Transformer解码器中完成训练。使用MSCOCO数据集进行训练和测试,结果表明所提模型在评价指标BLEU-4、CIDEr和SPICE上分别达到了39.2、129.6和22.7,相较于词性堆叠交叉注意网络（POS-SCAN）模型分别提升了3.2%、2.9%和2.3%。所提模型的效果明显优于使用单一显著区域特征的Transformer模型,能够对图像内容进行准确的描述。相似文献

17.

基于双通道Transformer的地铁站台异物检测

刘瑞康刘伟铭段梦飞谢玮戴愿《计算机工程》2024,(4):197-207

Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transformer块和通道交叉注意力机制的DualF ormer模型,用以检测地铁站台屏蔽门与列车门间隙中存在的异物。针对输入图像块尺寸固定的问题,提出双通道策略,通过设计2种不同的特征提取通道对不同尺度的输入图像块进行特征提取,增强网络对粗、细粒度特征的提取能力,提高对多尺度目标的识别精度;针对计算成本高的问题,构建金字塔轻量化Transformer块,将级联卷积引入到多头自注意力(MHSA)模块中,并利用卷积的维度压缩能力来降低模型的计算成本;针对局部与全局信息交互匮乏的问题,提出通道交叉注意力机制,利用提取到的粗细粒度特征在通道层面进行交互,优化局部与全局信息在网络中的权重。在标准化地铁异物检测数据集上的实验结果表明,DualFormer模型参数量为1.98×10⁷,实现了89.7%的精度和24帧/s的速度,优于对比的Tra... 相似文献

18.

自适应融合特征的人群计数网络

下载免费PDF全文

左健豪姜文刚《计算机工程与应用》2021,57(21):203-208

针对人群计数方法中存在的尺度变化和多层级特征融合不佳的问题,基于U-Net的编码器-解码器网络结构,提出一种自适应特征融合网络,来进行精准的人群计数。提出自适应特征融合模块,根据解码器分支的需要,高效地聚合编码器分支提取的高层语义信息和底层的边缘信息;提出自适应上下文信息提取器,从不同感受野下提取多尺度的上下文信息并自适应加权融合,提高网络对于人头尺度变化的鲁棒性。在ShanghaiTech、UCF-CC-50和UCG-QNRF上的实验表明,与目前主流的人群计数算法相比,该算法具有更强的准确性和鲁棒性。相似文献

19.

结合局部全局特征与多尺度交互的三维多器官分割网络

下载免费PDF全文

柴静雯李安康张浩马泳梅晓光马佳义《中国图象图形学报》2024,29(3):655-669

目的高度适形放射治疗是常用的癌症治疗方法,该方法的有效性依赖于对癌组织和周边多个危及器官（organ at risk,OAR）解剖结构的精确刻画,因此研究三维图像多器官的高精度自动分割具有重要意义。以视觉Transformer(vision Transformer,ViT)和卷积神经网络（convolutional neural network,CNN）结合为代表的三维医学图像分割方法表现出了丰富的应用优势。然而,这类方法往往忽略同一尺度内和不同尺度间的信息交互,使得CNN和ViT特征的提取和融合受限。本文提出一种端到端多器官分割网络LoGoFUNet(local-global-features fusion UNet),旨在应对现有方法的缺陷。方法首先,针对单一器官分割,提出在同一尺度下并行提取并融合CNN和ViT特征的LoGoF(local-global-features fusion)编码器,并构建了一个端到端的三维医学图像分割多尺度网络M0。此外,考虑到器官内部以及器官之间的相互关系,该方法在M0网络的基础上设计并引入了多尺度交互（multi-scale interacti... 相似文献

20.

跨模态交互融合与全局感知的RGB-D显著性目标检测

孙福明胡锡航武景宇孙静王法胜《软件学报》2024,35(4):1899-1913

近年来, RGB-D显著性检测方法凭借深度图中丰富的几何结构和空间位置信息, 取得了比RGB显著性检测模型更好的性能, 受到学术界的高度关注. 然而, 现有的RGB-D检测模型仍面临着持续提升检测性能的需求. 最近兴起的Transformer擅长建模全局信息, 而卷积神经网络(CNN)擅长提取局部细节. 因此, 如何有效结合CNN和Transformer两者的优势, 挖掘全局和局部信息, 将有助于提升显著性目标检测的精度. 为此, 提出一种基于跨模态交互融合与全局感知的RGB-D显著性目标检测方法, 通过将Transformer网络嵌入U-Net中, 从而将全局注意力机制与局部卷积结合在一起, 能够更好地对特征进行提取. 首先借助U-Net编码-解码结构, 高效地提取多层次互补特征并逐级解码生成显著特征图. 然后, 使用Transformer模块学习高级特征间的全局依赖关系增强特征表示, 并针对输入采用渐进上采样融合策略以减少噪声信息的引入. 其次, 为了减轻低质量深度图带来的负面影响, 设计一个跨模态交互融合模块以实现跨模态特征融合. 最后, 5个基准数据集上的实验结果表明, 所提算法与其他最新的算法相比具有显著优势. 相似文献