期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈彦林王志社邵文禹杨帆孙婧《红外技术》2023,45(3):266-275

目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了一种红外与可见光图像多尺度Transformer融合方法。以Swin Transformer为组件,架构了Conv Swin Transformer Block模块,利用卷积层增强图像全局特征的表征能力。构建了多尺度自注意力编码-解码网络,实现了图像全局特征提取与全局特征重构;设计了特征序列融合层,利用SoftMax操作计算特征序列的注意力权重系数,突出了源图像各自的显著特征,实现了端到端的红外与可见光图像融合。在TNO、Roadscene数据集上的实验结果表明,该方法在主观视觉描述和客观指标评价都优于其他典型的传统与深度学习融合方法。本方法结合自注意力机制,利用Transformer建立图像的长距离依赖关系,构建了图像全局特征融合模型,比其他深度学习融合方法具有更优的融合性能和更强的泛化能力。相似文献

2.

融合多尺度特征和语义信息的单目深度估计

周伟强韩军《电光与控制》2022,(2):67-71

针对目前的无监督学习方法在单目图像深度估计中存在深度估计不准确、边缘模糊的问题,提出了一种融合多尺度特征信息和语义信息的无监督单目深度估计网络.该网络不仅引入了从编码器到解码器的跳层连接来实现不同尺度特征的提取和融合,还在编码器和解码器之间引入多个空洞卷积并行的语义层来增加感受野,使得结果更加准确.最后在KITTI数据... 相似文献

3.

基于动态感受野的自适应多尺度信息融合的图像转换

尹梦晓林振峰杨锋《电子与信息学报》2022,43(8):2386-2394

为提高图像转换模型生成图像的质量,该文针对转换模型中的生成器进行改进,同时探究多样化的图像转换,拓展转换模型的生成能力.在生成器的改进方面,利用选择性(卷积)核模块(SKBlock)的动态感受野机制获取和融合生成器中每个上采样特征的多尺度信息,借助特征的多尺度信息和动态感受野构造选择性(卷积)核的生成式对抗网络(SK-GAN).与传统生成器相比,SK-GAN以动态感受野获取多尺度信息的生成结构提高了生成图像的质量.在多样化图像转换方面,基于SK-GAN在草图合成真实图像任务提出带引导图像的选择性(卷积)核的生成式对抗网络(GSK-GAN).该模型利用引导图像指导源图像的转换,通过引导图像编码器提取引导图像特征,然后由参数生成器(PG)和特征转换层(FT)将引导图像特征的信息传递至生成器.此外,该文还提出双分支引导图像编码器以提高转换模型的编辑能力,以及利用引导图像的隐变量分布实现随机样式的图像生成.实验表明,改进后的生成器有助于提高生成图像质量,SK-GAN在多个数据集中获得合理的生成结果.GSK-GAN不仅保证了生成图像的质量,还能生成更多样式的图像. 相似文献

4.

基于Transformer和空间注意力的红外与可见光图像融合

耿俊吴子豪李文海李晓瑜《激光与红外》2024,54(3):457-465

目前,已经有很多研究人员将卷积神经网络应用到红外与可见光图像融合任务中,并取得了较好的融合效果。其中有很多方法是基于自编码器架构的网络模型,这类方法通过自监督方式进行训练,在测试阶段需要采用手工设计的融合策略对特征进行融合。但现有的基于自编码器网络的方法很少能够充分地利用浅层特征和深层特征,而且卷积神经网络受到感受野的限制,建立长距离依赖较为困难,因而丢失了全局信息。而Transformer借助于自注意力机制,可以建立长距离依赖,有效获取全局上下文信息。在融合策略方面,大多数方法设计的较为粗糙,没有专门考虑不同模态图像的特性。因此,在编码器中结合了CNN和Transformer,使编码器能够提取更加全面的特征。并将注意力模型应用到融合策略中,更精细化地优化特征。实验结果表明,该融合算法相较于其他图像融合算法在主观和客观评价上均取得了优秀的结果。相似文献

5.

融合注意力机制与密集多尺度特征的异质噪声虹膜分割方法

尤轩昂赵鹏慕晓冬白坤练赛《激光与光电子学进展》2022,59(4):101-112

针对当前分割方法不能兼顾可见光与近红外光谱的异质噪声虹膜图像的分割精度与效率问题,提出一种基于注意力机制与密集多尺度特征融合的编-解码网络.首先,引入基于深度可分离卷积的改进残差瓶颈单元,降低参数量与计算量的同时防止信息丢失与梯度混淆;其次,改进密集空洞空间金字塔模块的空洞率组合并放置于编码器后,以增强多尺度特征融合;... 相似文献

6.

结合信息感知与多尺度特征的红外与可见光图像融合

下载免费PDF全文

曲海成胡倩倩张雪聪《红外技术》2023,(7):685-695

现有的基于深度学习图像融合算法无法同时满足融合效果与运算效率,且在建模过程中大部分采用基于单一尺度的融合策略,无法很好地提取源图像中上下文信息。为此本文提出了一种基于信息感知与多尺度特征结合的端到端图像融合网络。该网络由编码器、融合策略和解码器组成。具体来说,通过编码器提取红外与可见光图像的多尺度特征,并设计特征增强融合模块来融合多个尺度的不同模态特征,最后设计了一个轻量级的解码器将不同尺度的低级细节与高级语义信息结合起来。此外,利用源图像的信息熵构造一个信息感知损失函数来指导融合网络的训练,从而生成具有丰富信息的融合图像。在TNO、MSRS数据集上对提出的融合框架进行了评估实验。结果表明：与现有的融合方法相比,该网络具有较高计算效率;同时在主观视觉评估和客观指标评价上都优于其它方法。相似文献

7.

基于MSD-Vnet的三维医学图像配准

李姗姗张娜娜张媛媛丁维奇《电视技术》2021,45(1):51-56

基于编解码结构的卷积神经网络在医学图像配准中具有巨大的应用优势,但是依然存在不足.基于此,提出一种基于多尺度跳过连接、选择核注意力机制及深度监督V-net(MSD-Vnet)的三维医学图像配准方法.该方法使用多尺度跳过连接提高网络对解剖结构位置信息的定位能力,选择核注意力机制根据输入特征的多个尺度自适应调整感受野大小来提高配准精度,并利用深度监督V-net帮助网络更好地学习来防止过拟合.最后,以戴斯相似性系数(Dice Similarity Coefficient,DSC)为度量指标,在ADNI数据集上对提出的方法进行评估.实验结果表明,与目前流行的方法相比,提出的方法达到了较满意的效果. 相似文献

8.

基于改进U-Net网络的甲状腺结节超声图像分割方法

王波李梦翔刘侠《电子与信息学报》2022,44(2):514-522

针对甲状腺结节尺寸多变、超声图像中甲状腺结节边缘模糊导致难以分割的问题,该文提出一种基于改进U-net网络的甲状腺结节超声图像分割方法.该方法首先将图片经过有残差结构和多尺度卷积结构的编码器路径进行降尺度特征提取;然后,利用带有注意力模块的跳跃长连接部分对特征张量进行边缘轮廓保持操作;最后,使用带有残差结构和多尺度卷积... 相似文献

9.

卷积神经网络结合显著性目标掩图的红外与可见光图像融合

万刘永程健庆刘义海《舰船电子对抗》2022,45(1):63-67

传统的基于多尺度变换理论的红外与可见光融合,提取特征单一,融合规则需要手动设计,难以应对多场景的需求,而深度学习的方法具有良好的特征提取能力,能够对多种特征进行学习.使用基于卷积神经网络的方法对图像融合进行研究,将网络分为特征提取网络和特征融合网络2个部分.首先使用图像处理软件获得红外图像的显著性目标掩图,然后以目标掩... 相似文献

10.

基于自编码器结构改进的无监督图像异常检测

陈大鹏姚剑敏严群林志贤《信息技术与信息化》2023,(8):4-7

基于自编码器结构的无监督学习算法已经被广泛应用在异常检测中如智能制造、医疗影像、安防监控等领域。针对现有的基于自编码器结构的图像异常算法模型与传统有监督模型相比仍存在识别精度差、鲁棒性较差、训练效率低的问题,提出了基于图像特征重建方法的自编码器架构和基于迁移学习思想对自编码器进行特征增强处理的异常检测算法。通过引入预先训练的特征提取网络作为前置图像特征提取模块完成对输入图像多尺度特征的提取和融合,得到输入图像的多尺度特征融合图,再据此选择搭另一个预训练网络和自编码器组成Teacher-Student模型,完成自编码器模型的快速收敛。基于多尺度特征融合图的重建思想是利用了图像卷积特征的可判别性,实现了对图像潜在的异常信息的辨识。在自编码器与预训练网络构成的T-S模型中,经过预训练的T模型将S模型的解空间限定在一定范围,极大加速了模型的训练过程。在MVTec-AD标准数据集上将本文所提方法与现有方法进行实验对比,验证了方法的可行性。相似文献

11.

基于深度多级小波变换的图像盲去模糊算法

陈书贞曹世鹏崔美玥练秋生《电子与信息学报》2021,43(1):154-161

近年来卷积神经网络广泛应用于单幅图像去模糊问题,卷积神经网络的感受野大小、网络深度等会影响图像去模糊算法性能。为了增大感受野以提高图像去模糊算法的性能,该文提出一种基于深度多级小波变换的图像盲去模糊算法。将小波变换嵌入编-解码结构中,在增大感受野的同时加强图像特征的稀疏性。为在小波域重构高质量图像,该文利用多尺度扩张稠密块提取图像的多尺度信息,同时引入特征融合块以自适应地融合编-解码之间的特征。此外,由于小波域和空间域对图像信息的表示存在差异,为融合这些不同的特征表示,该文利用空间域重建模块在空间域进一步提高重构图像的质量。实验结果表明该文方法在结构相似度(SSIM)和峰值信噪比(PSNR)上具有更好的性能,而且在真实模糊图像上具有更好的视觉效果。相似文献

12.

一种有效融合多尺度特征的图像语义分割方法

许光宇汤伟建《光电子．激光》2022,33(3):264-271

卷积神经网络在高级计算机视觉任务中展现出强大的特征学习能力,已经在图像语义分割任务中取得了显著的效果。然而,如何有效地利用多尺度的特征信息一直是个难点。本文提出一种有效融合多尺度特征的图像语义分割方法。该方法包含4个基础模块,分别为特征融合模块(feature fusion module,FFM)、空间信息模块(spatial information module,SIM)、全局池化模块(global pooling module,GPM)和边界细化模块(boundary refinement module,BRM)。FFM采用了注意力机制和残差结构,以提高融合多尺度特征的效率,SIM由卷积和平均池化组成,为模型提供额外的空间细节信息以辅助定位对象的边缘信息,GPM提取图像的全局信息,能够显著提高模型的性能,BRM以残差结构为核心,对特征图进行边界细化。本文在全卷积神经网络中添加4个基础模块, 从而有效地利用多尺度的特征信息。在PASCAL VOC 2012数据集上的实验结果表明该方法相比全卷积神经网络的平均交并比提高了8.7%,在同一框架下与其他方法的对比结果也验证了其性能的有效性。相似文献

13.

Face anti-spoofing based on multi-modal and multi-scale features fusion

Kong Chao Ou Weihua Gong Xiaofeng Li Weian Han Jie Yao Yi Xiong Jiahao 《中国邮电高校学报(英文版)》2022,29(6):73-82

Face anti-spoofing is used to assist face recognition system to judge whether the detected face is real face or fake face. In the traditional face anti-spoofing methods, features extracted by hand are used to describe the difference between living face and fraudulent face. But these handmade features do not apply to different variations in an unconstrained environment. The convolutional neural network (CNN) for face deceptions achieves considerable results. However, most existing neural network-based methods simply use neural networks to extract single-scale features from single-modal data, while ignoring multi-scale and multi-modal information. To address this problem, a novel face anti-spoofing method based on multi-modal and multi-scale features fusion ( MMFF) is proposed. Specifically, first residual network ( Resnet )-34 is adopted to extract features of different scales from each modality, then these features of different scales are fused by feature pyramid network (FPN), finally squeeze-and-excitation fusion ( SEF) module and self-attention network ( SAN) are combined to fuse features from different modalities for classification. Experiments on the CASIA-SURF dataset show that the new method based on MMFF achieves better performance compared with most existing methods. 相似文献

14.

MLDNet: Multi-level dense network for multi-focus image fusion

《Signal Processing: Image Communication》2020

In this study, we propose a new deep learning architecture named Multi-Level Dense Network (MLDNet) for multi-focus image fusion (MFIF). We introduce shallow and dense feature extraction in our feature extraction module to extract images features in a more robust way. In particular, we extracted the features from a mixture of many distributions from prior to the complex distribution through densely connected convolutional layers, then the extracted features are fused to form dense local feature maps. We added global feature fusion into the proposed architecture in order to merge the dense local feature maps of each source image into a fused image representation for the reconstruction of the final fused image. Our proposed MLDNet learns feature extraction, feature fusion and reconstruction within the same network to provide an end-to-end solution for MFIF. Experimental results demonstrate that our proposed method achieved significant performance against different state-of-the-art MFIF methods. 相似文献

15.

Multi-view convolutional vision transformer for 3D object recognition

《Journal of Visual Communication and Image Representation》2023

With the rapid development of three-dimensional (3D) vision technology and the increasing application of 3D objects, there is an urgent need for 3D object recognition in the fields of computer vision, virtual reality, and artificial intelligence robots. The view-based method projects 3D objects into two-dimensional (2D) images from different viewpoints and applies convolutional neural networks (CNN) to model the projected views. Although these methods have achieved excellent recognition performance, there is not sufficient information interaction between the features of different views in these methods. Inspired by the recent success achieved by vision transformer (ViT) in image recognition, we propose a hybrid network by taking advantage of CNN to extract multi-scale local information of each view, and of transformer to capture the relevance of multi-scale information between different views. To verify the effectiveness of our multi-view convolutional vision transformer (MVCVT), we conduct experiments on two public benchmarks, ModelNet40 and ModelNet10, and compare with those of some state-of-the-art methods. The final results show that MVCVT has competitive performance in 3D object recognition. 相似文献

16.

基于多尺度特征结合细节恢复的单幅图像去雾方法

张世辉路佳琪宋丹丹张晓微《电子与信息学报》2022,44(11):3967-3976

为提高单幅图像去雾方法的准确性及其去雾结果的细节可见性,该文提出一种基于多尺度特征结合细节恢复的单幅图像去雾方法。首先,根据雾在图像中的分布特性及成像原理,设计多尺度特征提取模块及多尺度特征融合模块,从而有效提取有雾图像中与雾相关的多尺度特征并进行非线性加权融合。其次,构造基于所设计多尺度特征提取模块和多尺度特征融合模块的端到端去雾网络,并利用该网络获得初步去雾结果。再次,构造基于图像分块的细节恢复网络以提取细节信息。最后,将细节恢复网络提取出的细节信息与去雾网络得到的初步去雾结果融合得到最终清晰的去雾图像,实现对去雾后图像视觉效果的增强。实验结果表明,与已有代表性的图像去雾方法相比,所提方法能够对合成图像及真实图像中的雾进行有效去除,且去雾结果细节信息保留完整。相似文献

17.

属性一致的物体轮廓划分模型

孙劲光李桃董祥军《电子与信息学报》2021,43(10):2985-2992

该文提出一种基于全卷积深度残差网络、结合生成式对抗网络思想的基于属性一致的物体轮廓划分模型。采用物体轮廓划分网络作为生成器进行物体轮廓划分;该网络运用结构相似性作为区域划分的重构损失,从视觉系统的角度监督指导模型学习;使用全局和局部上下文判别网络作为双路判别器,对区域划分结果进行真伪判别的同时,结合对抗式损失提出一种联合损失用于监督模型的训练,使区域划分内容真实、自然且具有属性一致性。通过实例验证了该方法的实时性、有效性。相似文献

18.

DCA-CycleGAN: Unsupervised single image dehazing using Dark Channel Attention optimized CycleGAN

《Journal of Visual Communication and Image Representation》2022

Single image dehazing has great significance in computer vision. In this paper, we propose a novel unsupervised Dark Channel Attention optimized CycleGAN (DCA-CycleGAN) to deal with the challenging scene with uneven and dense haze concentration. Firstly, the DCA-CycleGAN adopts the dark channel as input and then generate attention through a DCA subnetwork to handle the nonhomogeneous haze. Secondly, in addition to the conventional global discriminator, we also leverage two local discriminators to enhance the dehazing performance on the local dense haze, and a new local adversarial loss calculated strategy is been proposed. Specifically, the dehazing generator consists of two subnetworks: an auto-encoder and a dark channel attention subnetwork. The auto-encoder consists of an encoder, a feature transformation module, and a decoder. The dark channel attention subnetwork has the same structure as the encoder and the feature transformation module to ensure the same receptive field, which utilizes the dark channel to generate attention map and fine-tune the auto-encoder. Experimental results against several state-of-the-art methods demonstrate that our method can generate better visual effects, and is effective. 相似文献