首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
目的 盲图像质量评价(blind image quality assessment,BIQA)在图像质量控制领域具有重要的实际意义。虽然目前针对自然失真图像的盲图像质量评价取得了合理的结果,但评价准确性仍有待进一步提升。方法 提出一种自适应语义感知网络(self-adaptive semantic awareness network,SSA-Net)的盲图像质量评价方法,通过理解失真图像的内容和感知图像失真的类型来提高预测的准确性。首先,利用深度卷积神经网络(deep convolutional neuralnetwork,DCNN)获取各个阶段的语义特征,并提出多头位置注意力(multi-head position attention,MPA)模块通过聚合特征图的长距离语义信息来加强对图像内容的理解。接着,提出基于多尺度内核的自适应特征感知(self-adaptivefeature awareness,SFA)模块感知图像的失真类型,并结合图像内容来捕获图像的全局失真和局部失真情况。最后,提出多级监督回归(multi-level supervision regression,MSR)网络通过利用低层次的语义特征辅助高层次的语义特征得到预测分数。结果 本文方法在7个数据库上与11种不同方法进行了比较,在LIVEC(LIVE in the Wild ImageQuality Challenge)、BID(blurred image database)、KonIQ-10k(Konstanz authentic image quality 10k database)和SPAQ(smartphone photography attribute and quality)4个自然失真图像数据库中的斯皮尔曼等级相关系数(Spearman rankorder correlation coefficient,SRCC)值分别为0.867、0.877、0.913和0.915,获得了所有方法中最好的性能结果。同时在两个人工失真图像数据库中获得了排名前2的SRCC值。实验结果表明,与其他先进方法相比,本文方法在自然失真图像质量评价数据库上的表现更为优异。结论 本文方法通过结合图像内容理解与不同失真类型感知,能更好地适应自然图像的失真,提高评价准确性。  相似文献   

2.
目的 全景图像的质量评价和传输、处理过程并不是在同一个空间进行的,传统的评价算法无法准确地反映用户在观察球面场景时产生的真实感受,针对观察空间与处理空间不一致的问题,本文提出一种基于相位一致性的全参考全景图像质量评价模型。方法 将平面图像进行全景加权,使得平面上的特征能准确反映球面空间质量畸变。采用相位一致性互信息的相似度获取参考图像和失真图像的结构相似度。接着,利用相位一致性局部熵的相似度反映参考图像和失真图像的纹理相似度。将两部分相似度融合可得全景图像的客观质量分数。结果 实验在全景质量评价数据集OIQA(omnidirectional image quality assessment)上进行,在原始图像中引入4种不同类型的失真,将提出的算法与6种主流算法进行性能对比,比较了基于相位信息的一致性互信息和一致性局部熵,以及评价标准依据4项指标。实验结果表明,相比于现有的6种全景图像质量评估算法,该算法在PLCC(Pearson linear correlation coefficient)和SRCC(Spearman rank order correlation coefficient)指标上比WS-SSIM(weighted-to-spherically-uniform structural similarity)算法高出0.4左右,并且在RMSE(root of mean square error)上低0.9左右,4项指标最优,能够获得更好的拟合效果。结论 本文算法解决了观察空间和映射空间不一致的问题,并且融合了基于人眼感知的多尺度互信息相似度和局部熵相似度,获得与人眼感知更为一致的客观分数,评价效果更为准确,更加符合人眼视觉特征。  相似文献   

3.
结合梯度信息的特征相似性图像质量评估   总被引:3,自引:0,他引:3       下载免费PDF全文
目的 图像的边缘信息对于图像质量的评估非常重要.基于底层特征的图像质量评估算法(FSIM),虽然考虑了图像的底层特征,但该算法对边缘信息的识别能力不理想.针对以上问题,将FSIM算法与对边缘信息更敏感的梯度结构相似度(GSSIM)算法相结合得到一种既符合人眼视觉系统特点又能有效识别图像边缘的新的图像质量评估算法(FGSIM).方法 该算法将FSIM算法的相位一致性部分与GSSIM算法的提取图像信息的部分相结合从而得到一种新的图像质量评估算法FGSIM.其中,采用相位一致性表示图像的特征,用于保持评估算法接近人类视觉系统的特点,提取图像信息的部分通过图像的梯度来实现,用于更有效的识别图像边缘.结果 分别使用FSIM、GSSIM以及FGSIM算法对不同运动模糊程度、不同高斯模糊程度以及不同高斯噪声的图像进行质量评估,将得到的数据用曲线图表示,从图中可以看出:在运动模糊实验中,随图像模糊程度的增大,FGSIM算法的数值由0.8943下降到0.3443,变化更加明显,对运动模糊表现出更好的敏感性;在高斯模糊和高斯噪声实验中,FGSIM算法数值变化的程度虽然不如GSSIM算法好,但相较FSIM算法有一定的提高.FGSIM算法在公共测试图像库中与FSIM、GSSIM算法进行实验比较,FGSIM算法的散点图较FSIM算法稍差些,但与GSSIM算法相比具有非常大的改进,其散点图比GSSIM更为集中.采用较为常用的衡量评估方法性能的指标:皮尔逊相关系数、斯皮尔曼秩相关系数、KROCC 和均方根误差对评估算法的性能进行衡量,数据显示,FGSIM算法的性能比GSSIM算法好.结论 实验结果表明,FGSIM算法是一种既符合人眼视觉系统特点又能有效识别图像边缘的新的图像质量评估算法,该算法对边缘信息的识别能力更强,对图像质量的变化更加敏感.  相似文献   

4.
目的 现有方法存在特征提取时间过长、非对称失真图像预测准确性不高的问题,同时少有工作对非对称失真与对称失真立体图像的分类进行研究,为此提出了基于双目竞争的非对称失真立体图像质量评价方法。方法 依据双目竞争的视觉现象,利用非对称失真立体图像两个视点的图像质量衰减程度的不同,生成单目图像特征的融合系数,融合从左右视点图像中提取的灰度空间特征与HSV (hue-saturation-value)彩色空间特征。同时,量化两个视点图像在结构、信息量和质量衰减程度等多方面的差异,获得双目差异特征。并且将双目融合特征与双目差异特征级联为一个描述能力更强的立体图像质量感知特征向量,训练基于支持向量回归的特征—质量映射模型。此外,还利用双目差异特征训练基于支持向量分类模型的对称失真与非对称失真立体图像分类模型。结果 本文提出的质量预测模型在4个数据库上的SROCC (Spearman rank order correlation coefficient)和PLCC (Pearson linear correlation coefficient)均达到0.95以上,在3个非对称失真数据库上的均方根误差(root of mean square error,RMSE)取值均优于对比算法。在LIVE-II(LIVE 3D image quality database phase II)、IVC-I(Waterloo-IVC 3D image qualityassessment database phase I)和IVC-II (Waterloo-IVC 3D image quality assessment database phase II)这3个非对称失真立体图像测试数据库上的失真类型分类测试中,对称失真立体图像的分类准确率分别为89.91%、94.76%和98.97%,非对称失真立体图像的分类准确率分别为95.46%,92.64%和96.22%。结论 本文方法依据双目竞争的视觉现象融合左右视点图像的质量感知特征用于立体图像质量预测,能够提升非对称失真立体图像的评价准确性和鲁棒性。所提取双目差异性特征还能够用于将对称失真与非对称失真立体图像进行有效分类,分类准确性高。  相似文献   

5.
目的 图像美学属性评价可以提供丰富的美学要素,极大地增强图像美学的可解释性。然而现有的图像美学属性评价方法并没有考虑到图像场景类别的多样性,导致评价任务的性能不够理想。为此,本文提出一种深度多任务卷积神经网络(multi task convolutional neural network,MTCNN)模型,利用场景信息辅助图像的美学属性预测。方法 本文模型由双流深度残差网络组成,其中一支网络基于场景预测任务进行训练,以提取图像的场景特征;另一支网络提取图像的美学特征。然后融合这两种特征,通过多任务学习的方式进行训练,以预测图像的美学属性和整体美学分数。结果 为了验证模型的有效性,在图像美学属性数据集(aesthetics and attributes database,AADB)上进行实验验证。结果显示,在斯皮尔曼相关系数(Spearman rank-order correlation coefficient,SRCC)指标上,本文方法各美学属性预测的结果较其他方法的最优值平均提升了6.1%,本文方法整体美学分数预测的结果较其他方法的最优值提升了6.2%。结论 提出的图像美学属性预测方法,挖掘了图像中的场景语义与美学属性的耦合关系,有效地提高了图像美学属性及美学分数预测的准确率。  相似文献   

6.
目的 显示设备的多样化使得图像重定向的作用日益凸显。不同的重定向方法产生不同视觉感受的重定向图像,而如何评价重定向图像的质量,优化重定向算法是当前研究的热点与难点,为此,提出一种结合双向相似性变换的重定向图像质量评价方法。方法 首先对原始图像和重定向图像进行像素点双向匹配,利用网格顶点坐标对计算前向变换矩阵和后向变换矩阵。然后由相似性变换矩阵与标准变换矩阵间的距离得到重定向图像的几何失真。由网格面积缺失得到重定向图像的信息损失。最后结合网格的显著性,融合前向匹配与后向匹配的几何失真和信息损失得到重定向图像的质量。结果 该方法在RetargetMe和CUHK数据库上的KRCC(Kendall rank correlation coefficient)和SROCC(Spearman rank-order correlation coefficient)性能分别达到了0.46和0.71,较现有方法有较大提升。在前向匹配与后向匹配测试中,双向匹配的测试结果优于单向匹配。结论 本文方法将图像的重定向处理看做相似性变换过程。实验结果表明,从相似性变换矩阵中提取的相关特征能够较精确度量重定向图像的几何失真,而由此引发的网格面积缺失也能准确反映出重定向图像的信息损失。另外,采用双向匹配机制一定程度上减少了像素匹配误差对实验结果的影响,有效提升了重定向图像质量预测的准确性。该方法对重定向图像的质量评价效果好,适用于重定向图像的质量预测及算法优化。  相似文献   

7.
目的 人脸超分辨率重建是特定应用领域的超分辨率问题,为了充分利用面部先验知识,提出一种基于多任务联合学习的深度人脸超分辨率重建算法。方法 首先使用残差学习和对称式跨层连接网络提取低分辨率人脸的多层次特征,根据不同任务的学习难易程度设置损失权重和损失阈值,对网络进行多属性联合学习训练。然后使用感知损失函数衡量HR(high-resolution)图像与SR(super-resolution)图像在语义层面的差距,并论证感知损失在提高人脸语义信息重建效果方面的有效性。最后对人脸属性数据集进行增强,在此基础上进行联合多任务学习,以获得视觉感知效果更加真实的超分辨率结果。结果 使用峰值信噪比(PSNR)和结构相似度(SSIM)两个客观评价标准对实验结果进行评价,并与其他主流方法进行对比。实验结果显示,在人脸属性数据集(CelebA)上,在放大8倍时,与通用超分辨率MemNet(persistent memory network)算法和人脸超分辨率FSRNet(end-to-end learning face super-resolution network)算法相比,本文算法的PSNR分别提升约2.15 dB和1.2 dB。结论 实验数据与效果图表明本文算法可以更好地利用人脸先验知识,产生在视觉感知上更加真实和清晰的人脸边缘和纹理细节。  相似文献   

8.
目的 传统的立体视觉舒适度评价模型,在学习阶段一般采用回归算法,且需要大量的包含主观测试数据的训练样本,针对这个问题,提出一种利用多核增强学习分类算法的立体图像舒适度评价模型。方法 首先,考虑人们在实际观测图像时,对于先后观测到的不同图像进行相互比较的情况,将评价模型看成是偏好分类器,构造包含偏好标签的偏好立体图像对(PSIP),构成PSIP训练集;其次,提取多个视差统计特征和神经学模型响应特征;然后,利用基于AdaBoost的多核学习算法来建立偏好标签与特征之间的关系模型,并分析偏好分类概率(即相对舒适度概率)与最终的视觉舒适度之间的映射关系。结果 在独立立体图像库上,与现有代表性回归算法相比较,本文算法的Pearson线性相关系数(PLCC)在0.84以上,Spearman等级相关系数(SRCC)在0.80以上,均优于其他模型的各评价指标;而在跨库测试中,本文算法的PLCC、SRCC指标均优于传统的支持向量回归算法。结论 相比于传统的回归算法,本文算法具有更好的评价性能,能够更为准确地预测立体图像视觉舒适度。  相似文献   

9.
目的 基于深度学习的飞机目标识别方法在遥感图像解译领域取得了很大进步,但其泛化能力依赖于大规模数据集。条件生成对抗网络(conditional generative adversarial network,CGAN)可用于产生逼真的生成样本以扩充真实数据集,但对复杂遥感场景的建模能力有限,生成样本质量低。针对这些问题,提出了一种结合CGAN样本生成的飞机识别框架。方法 改进条件生成对抗网络,利用感知损失提高生成器对遥感图像的建模能力,提出了基于掩膜的结构相似性(structural similarity,SSIM)度量损失函数(masked-SSIM loss)以提高生成样本中飞机区域的图像质量,该损失函数与飞机的掩膜相结合以保证只作用于图像中的飞机区域而不影响背景区域。选取一个基于残差网络的识别模型,与改进后的生成模型结合,构成飞机识别框架,训练过程中利用生成样本代替真实的卫星图像,降低了对实际卫星数据规模的需求。结果 采用生成样本与真实样本训练的识别模型在真实样本上的进行实验,前者的准确率比后者低0.33%;对于生成模型,在加入感知损失后,生成样本的峰值信噪比(peak signal to noise ratio,PSNR)提高了0.79 dB,SSIM提高了0.094;在加入基于掩膜的结构相似性度量损失函数后,生成样本的PSNR提高了0.09 dB,SSIM提高了0.252。结论 本文提出的基于样本生成的飞机识别框架生成了质量更高的样本,这些样本可以替代真实样本对识别模型进行训练,有效地解决了飞机识别任务中的样本不足问题。  相似文献   

10.
目的 图像修复技术虽然取得了长足进步,但是当图像中缺失区域较大时,非缺失区域提供的信息量非常有限,从而导致难以产生语义信息一致的内容来增强修复图像和真实图像的视觉一致性;同时图像修复常使用两阶段网络结构,基于该结构的模型不仅需要较长的训练时间,还会导致图像修复效果对第1阶段输出结果依赖性较强。针对上述问题,提出了一种基于双解码器的增强语义一致的图像修复方法。方法 使用双解码器网络结构消除两阶段修复方法中存在的依赖性问题,同时有效缩短模型的训练时间;利用一致性损失、感知损失和风格损失,更好地捕获图像的上下文语义信息,解决图像修复任务中出现的视觉不一致的问题。此外,本文使用了跳跃连接,并引入多尺度注意力模块和扩张卷积,进一步提高了网络的特征提取能力。结果 为了公正地评价,在CelebA、Stanford Cars和UCF Google Street View共3个数据集上对具有规则和不规则缺失区域的图像分别进行实验,采用客观评价指标:均方误差(L2)、峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity,SSIM)、FID (Fréchet inception distance)和IS (inception score)进行评价。实验结果表明本文方法修复的图像不仅在视觉上有明显的提升,而且取得了较优的数值。如规则缺失区域下,在CelebA数据集中,本文方法的FID (越小越好)比性能第2的模型在数值上减少了39.2%;在UCF Google Street View数据集中,本文方法的PSNR比其他模型在数值上分别提高了12.64%、6.77%、4.41%。结论 本文方法有效减少了模型的训练时间,同时消除了两阶段网络模型中的依赖性问题,修复的图像也呈现出更好的视觉一致性。  相似文献   

11.
白宗文  弋婷婷  周美丽  魏嵬 《计算机工程》2021,47(5):213-220,228
传统图像修复方法在修复受损区域较大的图像时会出现修复结果过于平滑或模糊的现象,并且较难重建合理的人脸图像结构。在传统生成对抗网络的鉴别器中引入多尺度特征融合方法,将不同深度的特征图经过上采样后直接相加,使浅层信息和深层信息有效结合。通过借助高层特征把握图像的整体规律,同时利用低层特征填充人脸图像的细节纹理,进而使一张图像的分辨率及其语义特征相互融合,实现有效的人脸图像修复。在CelebA数据集上的实验结果表明,该方法的峰值信噪比、相似性结构、L1损失指标均优于区域归一化方法,取得了较好的视觉效果。  相似文献   

12.
王雪松  张淳  程玉虎 《控制与决策》2023,38(12):3499-3506
为缓解传统零样本图像分类模型中存在的领域偏移问题,提出一种基于未知类语义约束自编码的零样本图像分类模型.首先,利用预训练的ResNet101网络提取所有已知类和未知类图像的视觉特征;其次,通过编码器将提取的图像深度视觉特征从视觉空间映射到语义空间;然后,通过解码器将映射后得到的语义向量重构为视觉特征向量,在语义自编码器的训练过程中,利用未知类图像的聚类视觉中心和未知类语义类原型的分布对齐施加约束,以缓解领域偏移问题;最后,基于经编码器预测得到的测试图像语义向量和各测试类语义类原型之间的相似性,采用最近邻算法实现零样本图像分类.在AwA2和CUB数据集上的实验结果表明,所提出模型具有较高的分类准确度.  相似文献   

13.
目的 低光照图像增强是图像处理中的基本任务之一。虽然已经提出了各种方法,但它们往往无法在视觉上产生吸引人的结果,这些图像存在细节不清晰、对比度不高和色彩失真等问题,同时也对后续目标检测、语义分割等任务有不利影响。针对上述问题,提出一种语义分割和HSV(hue,saturation and value)色彩空间引导的低光照图像增强方法。方法 首先提出一个迭代图像增强网络,逐步学习低光照图像与增强图像之间像素级的最佳映射,同时为了在增强过程中保留语义信息,引入一个无监督的语义分割网络并计算语义损失,该网络不需要昂贵的分割注释。为了进一步解决色彩失真问题,在训练时利用HSV色彩空间设计HSV损失;为了解决低光照图像增强中出现细节不清晰的问题,设计了空间一致性损失,使增强图像与对应的低光照图像尽可能细节一致。最终,本文的总损失函数由5个损失函数组成。结果 将本文方法与LIME(low-light image enhancement)、RetinexNet(deep retinex decomposition)、EnlightenGAN(deep light enhancement using generative adversarial networks)、Zero-DCE(zero-reference deep curve estimation)和SGZ(semantic-guided zero-shot learning)5种方法进行了比较。在峰值信噪比(peak signal-to noise ratio,PSNR)上,本文方法平均比Zero-DCE(zero-reference deep curve estimation)提高了0.32dB;在自然图像质量评价(natural image quality evaluation,NIQE)方面,本文方法比EnlightenGAN提高了6%。从主观上看,本文方法具有更好的视觉效果。结论 本文所提出的低光照图像增强方法能有效解决细节不清晰、色彩失真等问题,具有一定的应用价值。  相似文献   

14.
Visual Ontology Construction for Digitized Art Image Retrieval   总被引:1,自引:0,他引:1       下载免费PDF全文
Current investigations on visual information retrieval are generally content-based methods. The significant difference between similarity in low-level features and similarity in high-level semantic meanings is still a major challenge in the area of image retrieval. In this work, a scheme for constructing visual ontology to retrieve art images is proposed. The proposed ontology describes images in various aspects, including type & style, objects and global perceptual effects. Concepts in the ontology could be automatically derived. Various art image classification methods are employed based on low-level image features. Non-objective semantics are introduced, and how to express these semantics is given. The proposed ontology scheme could make users more naturally find visual information and thus narrows the “semantic gap”. Experimental implementation demonstrates its good potential for retrieving art images in a human-centered manner.  相似文献   

15.
目的 人脸正面化重建是当前视觉领域的热点问题。现有方法对于模型的训练数据具有较高的需求,如精确的输入输出图像配准、完备的人脸先验信息等。但该类数据采集成本较高,可应用的数据集规模较小,直接将现有方法应用于真实的非受控场景中往往难以取得理想表现。针对上述问题,提出了一种无图像配准和先验信息依赖的任意视角人脸图像正面化重建方法。方法 首先提出了一种具有双输入路径的人脸编码网络,分别用于学习输入人脸的视觉表征信息以及人脸的语义表征信息,两者联合构造出更加完备的人脸表征模型。随后建立了一种多类别表征融合的解码网络,通过以视觉表征为基础、以语义表征为引导的方式对两种表征信息进行融合,融合后的信息经过图像解码即可得到最终的正面化人脸图像重建结果。结果 首先在Multi-PIE(multi-pose, illumination and expression)数据集上与8种较先进方法进行了性能评估。定量和定性的实验结果表明,所提方法在客观指标以及视觉质量方面均优于对比方法。此外,相较于当前性能先进的基于光流的特征翘曲模型(flow-based feature warping model,FFWM)方法,本文方法能够节省79%的参数量和42%的计算操作数。进一步基于CASIA-WebFace(Institute of Automation, Chinese Academy of Sciences—WebFace)数据集对所提出方法在真实非受控场景中的表现进行了评估,识别精度超过现有方法10%以上。结论 本文提出的双层级表征集成推理网络,能够挖掘并联合人脸图像的底层视觉特征以及高层语义特征,充分利用图像自身信息,不仅以更低的计算复杂度取得了更优的视觉质量和身份识别精度,而且在非受控的场景下同样展现出了出色的泛化性能。  相似文献   

16.
传统图像标注方法中人工选取特征费时费力,传统标签传播算法忽视语义近邻,导致视觉相似而语义不相似,影响标注效果.针对上述问题,文中提出融合深度特征和语义邻域的自动图像标注方法.首先构建基于深度卷积神经网络的统一、自适应深度特征提取框架,然后对训练集划分语义组并建立待标注图像的邻域图像集,最后根据视觉距离计算邻域图像各标签的贡献值并排序得到标注关键词.在基准数据集上实验表明,相比传统人工综合特征,文中提出的深度特征维数更低,效果更好.文中方法改善传统视觉近邻标注方法中的视觉相似而语义不相似的问题,有效提升准确率和准确预测的标签总数.  相似文献   

17.
目的 遥感图像语义分割是根据土地覆盖类型对图像中每个像素进行分类,是遥感图像处理领域的一个重要研究方向。由于遥感图像包含的地物尺度差别大、地物边界复杂等原因,准确提取遥感图像特征具有一定难度,使得精确分割遥感图像比较困难。卷积神经网络因其自主分层提取图像特征的特点逐步成为图像处理领域的主流算法,本文将基于残差密集空间金字塔的卷积神经网络应用于城市地区遥感图像分割,以提升高分辨率城市地区遥感影像语义分割的精度。方法 模型将带孔卷积引入残差网络,代替网络中的下采样操作,在扩大特征图感受野的同时能够保持特征图尺寸不变;模型基于密集连接机制级联空间金字塔结构各分支,每个分支的输出都有更加密集的感受野信息;模型利用跳线连接跨层融合网络特征,结合网络中的高层语义特征和低层纹理特征恢复空间信息。结果 基于ISPRS (International Society for Photogrammetry and Remote Sensing) Vaihingen地区遥感数据集展开充分的实验研究,实验结果表明,本文模型在6种不同的地物分类上的平均交并比和平均F1值分别达到69.88%和81.39%,性能在数学指标和视觉效果上均优于SegNet、pix2pix、Res-shuffling-Net以及SDFCN (symmetrical dense-shortcut fully convolutional network)算法。结论 将密集连接改进空间金字塔池化网络应用于高分辨率遥感图像语义分割,该模型利用了遥感图像不同尺度下的特征、高层语义信息和低层纹理信息,有效提升了城市地区遥感图像分割精度。  相似文献   

18.
卷积神经网络因为其强大的学习能力,已经在语义分割任务中取得了显著的效果,但是如何有效地利用网络在浅层次的视觉特征和深层次的语义特征一直是研究的热点,以此为出发点,提出了一种融合多级特征信息的图像语义分割方法。通过空洞卷积提取各层级的特征,并不断迭代深层特征来丰富低级视觉信息,最后与高级语义特征合并融合,得到精细的语义分割结果。实验在PASCAL VOC 2012数据集上与主流的五种方法进行了比较,在GTX1080Ti的环境下该方法与其中性能第二的模型mIoU(mean intersection-over-union)值相比提高了2.1%,与其中性能第一的模型mIoU值仅相差0.4%,表明该方法能有效利用多层级的特征信息,实现了图像语义分割的目的。  相似文献   

19.
Image fusion aims to integrate complementary information in source images to synthesize a fused image comprehensively characterizing the imaging scene. However, existing image fusion algorithms are only applicable to strictly aligned source images and cause severe artifacts in the fusion results when input images have slight shifts or deformations. In addition, the fusion results typically only have good visual effect, but neglect the semantic requirements of high-level vision tasks. This study incorporates image registration, image fusion, and semantic requirements of high-level vision tasks into a single framework and proposes a novel image registration and fusion method, named SuperFusion. Specifically, we design a registration network to estimate bidirectional deformation fields to rectify geometric distortions of input images under the supervision of both photometric and end-point constraints. The registration and fusion are combined in a symmetric scheme, in which while mutual promotion can be achieved by optimizing the naive fusion loss, it is further enhanced by the mono-modal consistent constraint on symmetric fusion outputs. In addition, the image fusion network is equipped with the global spatial attention mechanism to achieve adaptive feature integration. Moreover, the semantic constraint based on the pre-trained segmentation model and Lovasz-Softmax loss is deployed to guide the fusion network to focus more on the semantic requirements of high-level vision tasks. Extensive experiments on image registration, image fusion, and semantic segmentation tasks demonstrate the superiority of our SuperFusion compared to the state-of-the-art alternatives. The source code and pre-trained model are publicly available at https://github.com/Linfeng-Tang/SuperFusion.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号