首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
目前基于深度学习的图像去噪算法无法综合考虑局部和全局的特征信息, 进而影响细节处的图像去噪效果, 针对该问题, 提出了融合CNN和Transformer的图像去噪网络(hybrid CNN and Transformer image denoising network, HCT-Net). 首先, 提出CNN和Transformer耦合模块(CNN and Transformer coupling block, CTB), 构造融合卷积和通道自注意力的双分支结构, 缓解单纯依赖Transformer造成的高额计算开销, 同时动态分配注意力权重使网络关注重要图像特征. 其次, 设计自注意力增强卷积模块(self-attention enhanced convolution module, SAConv), 采用递进式组合模块和非线性变换, 减弱噪声信号干扰, 提升在复杂噪声水平下识别局部特征的能力. 在6个基准数据集上的实验结果表明, HCT-Net相比当前一些先进的去噪方法具有更好的特征感知能力, 能够抑制高频的噪声信号从而恢复图像的边缘和细节信息.  相似文献   

2.
图像标题生成是指通过计算机将图像翻译成描述该图像的标题语句。针对现有图像标题生成任务中,未充分利用图像的局部和全局特征以及时间复杂度较高的问题,本文提出一种基于卷积神经网络(Convolution Neural Networks,CNN)和Transformer的混合结构图像标题生成模型。考虑卷积网络所具有的空间和通道特性,首先将轻量化高精度的注意力ECA与卷积网络CNN进行融合构成注意力残差块,用于从输入图像中提取视觉特征;然后将特征输入到序列模型Transformer中,在编码器端借助自注意学习来获得所参与的视觉表示,在语言解码器中捕获标题中的细粒度信息以及学习标题序列间的相互作用,进而结合视觉特征逐步得到图像所对应的标题描述。将模型在MSCOCO数据集上进行实验,BLEU-1、BLEU-3、BLEU-4、Meteor和CIDEr指标分别提高了0.3、0.5、0.7、0.4、1.6个百分点。  相似文献   

3.
Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transformer块和通道交叉注意力机制的DualF ormer模型,用以检测地铁站台屏蔽门与列车门间隙中存在的异物。针对输入图像块尺寸固定的问题,提出双通道策略,通过设计2种不同的特征提取通道对不同尺度的输入图像块进行特征提取,增强网络对粗、细粒度特征的提取能力,提高对多尺度目标的识别精度;针对计算成本高的问题,构建金字塔轻量化Transformer块,将级联卷积引入到多头自注意力(MHSA)模块中,并利用卷积的维度压缩能力来降低模型的计算成本;针对局部与全局信息交互匮乏的问题,提出通道交叉注意力机制,利用提取到的粗细粒度特征在通道层面进行交互,优化局部与全局信息在网络中的权重。在标准化地铁异物检测数据集上的实验结果表明,DualFormer模型参数量为1.98×107,实现了89.7%的精度和24帧/s的速度,优于对比的Tra...  相似文献   

4.
目的 以卷积神经网络为代表的深度学习方法已经在单帧图像超分辨领域取得了丰硕成果,这些方法大多假设低分辨图像不存在模糊效应。然而,由于相机抖动、物体运动等原因,真实场景下的低分辨率图像通常会伴随着模糊现象。因此,为了解决模糊图像的超分辨问题,提出了一种新颖的Transformer融合网络。方法 首先使用去模糊模块和细节纹理特征提取模块分别提取清晰边缘轮廓特征和细节纹理特征。然后,通过多头自注意力机制计算特征图任一局部信息对于全局信息的响应,从而使Transformer融合模块对边缘特征和纹理特征进行全局语义级的特征融合。最后,通过一个高清图像重建模块将融合特征恢复成高分辨率图像。结果 实验在2个公开数据集上与最新的9种方法进行了比较,在GOPRO数据集上进行2倍、4倍、8倍超分辨重建,相比于性能第2的模型GFN(gated fusion network),峰值信噪比(peak signal-to-noive ratio,PSNR)分别提高了0.12 d B、0.18 d B、0.07 d B;在Kohler数据集上进行2倍、4倍、8倍超分辨重建,相比于性能第2的模型GFN,PSNR值分别...  相似文献   

5.
目的 红外图像在工业中发挥着重要的作用。但是由于技术原因,红外图像的分辨率一般较低,限制了其普遍适用性。许多低分辨率红外传感器都和高分辨率可见光传感器搭配使用,一种可行的思路是利用可见光传感器捕获的高分辨率图像,辅助红外图像进行超分辨率重建。方法 本文提出了一种使用高分辨率可见光图像引导红外图像进行超分辨率的神经网络模型,包含两个模块:引导Transformer模块和超分辨率重建模块。考虑到红外和可见光图像对一般存在一定的视差,两者之间是不完全对齐的,本文使用基于引导Transformer的信息引导与融合方法,从高分辨率可见光图像中搜索相关纹理信息,并将这些相关纹理信息与低分辨率红外图像的信息融合得到合成特征。然后这个合成特征经过后面的超分辨率重建子网络,得到最终的超分辨率红外图像。在超分辨率重建模块,本文使用通道拆分策略来消除深度模型中的冗余特征,减少计算量,提高模型性能。结果 本文方法在FLIR-aligned数据集上与其他代表性图像超分辨率方法进行对比。实验结果表明,本文方法可以取得优于对比方法的超分辨率性能。客观结果上,本文方法比其他红外图像引导超分辨率方法在峰值信噪比(pea...  相似文献   

6.
目的 X光图像违禁物品检测一直是安检领域的一个基础问题,安检违禁物品形式各异,尺度变化大,以及透视性导致大量物体堆放时出现重叠遮挡现象,传统图像处理模型很容易出现漏检误检,召回率低。针对以上问题,提出一种融合多尺度特征与全局上下文信息的特征增强融合网络(feature enhancement fusion network, FEFNet)用于X光违禁物品检测。方法 首先针对特征主干网络darknet53,加入空间坐标的注意力机制,将位置信息嵌入到通道注意力中,分别沿两个空间方向聚合特征,增强特征提取器对违禁目标的特征提取能力,抑制背景噪声干扰。然后,将特征提取主干网络输出的特征编码为1维向量,利用自监督二阶融合获取特征空间像素相关性矩阵,进而获取完整的全局上下文信息,为视觉遮挡区域提供全局信息指导。针对违禁物品尺度不一的问题,提出多尺度特征金字塔融合模块,增加一层小感受野预测特征用于提高对小尺度违禁目标的检测能力。最后,通过融合全局上下文特征信息和局部多尺度细节特征解决违禁物品之间的视觉遮挡问题。结果 在SIXRay-Lite(security inspection X-ray)数据集...  相似文献   

7.
针对现有自监督学习的单目图像深度估计在分辨率较大情况下存在边缘模糊、物体轮廓不清晰等问题,本文提出一种结合视觉Transformer的多尺度通道注意力融合单目图像深度估计网络.首先,设计编码器-解码器模型,将视觉Transformer结构作为编码器在多个尺度上提取特征.其次,设计残差通道注意力融合的解码器,优化提取到的多尺度特征并实现上下级特征融合以提高上下文信息的利用率.最后,在多个尺度下对单目图像进行深度估计.本文提出的算法在KITTI数据集上进行实验.实验结果表明,所提出算法的深度图像质量和物体轮廓信息均高于现有算法,其绝对相对误差、平方相对误差和均方根误差分别达到了0.119、0.857和4.571,在不同阈值下的准确度达到了0.959、0.995和0.999,验证了所提算法的正确性和有效性.  相似文献   

8.
目标检测任务是计算机视觉领域中基础且备受关注的工作,遥感图像目标检测任务因在交通、军事、农业等方面具有重要应用价值,也成为研究的一大热点。相比自然图像,遥感图像由于受到复杂背景的干扰,以及天气、小型和不规则物体等诸多因素的影响,遥感图像目标检测任务要实现较高的精度是极具挑战性的。文中提出了一种新颖的基于移位窗口Transformer的目标检测网络。模型应用了移位窗口式Transformer模块作为特征提取的骨干,其中,Transformer的自注意力机制对于检测混乱背景下的目标十分有效,移位窗口式的模式则有效避免了大量的平方级复杂度计算。在获得骨干网络提取的特征图之后,模型使用了金字塔架构以融合不同尺度、不同语义的局部和全局特征,有效地减少了特征层之间的信息丢失,并捕捉到固有的多尺度层级关系。此外,文中还提出了自混合视觉转换器模块和跨层视觉转换器模块。自混合视觉转换器模块重新渲染了深层特征图以增强目标特征识别和表达,跨层视觉转换器模块则依据特征上下文交互等级重新排列各特征层像素的信息表达。模块融入到自下而上和自上而下双向特征路径之中,以充分利用包含不同语义的全局和局部信息。所提网络模型...  相似文献   

9.
红外与可见光图像融合是在复杂环境中获得高质量目标图像的一种有效手段,广泛应用于目标检测、人脸识别等领域。传统的红外与可见光图像融合方法未充分利用图像的关键信息,导致融合图像的视觉效果不佳、背景细节信息丢失。针对该问题,提出基于注意力与残差级联的端到端融合方法。将源图像输入到生成器中,通过层次特征提取模块提取源图像的层次特征,基于U-net连接的解码器融合层次特征并生成初始融合图像。将生成器与输入预融合图像的判别器进行对抗训练,同时利用细节损失函数优化生成器,补充融合图像缺失的信息。此外,在判别器中,采用谱归一化技术提高生成对抗网络训练的稳定性。实验结果表明,该方法的信息熵、标准差、互信息、空间频率分别为7.118 2、46.629 2、14.236 3和20.321,相比FusionGAN、LP、STDFusionNet等融合方法,能够充分提取源图像的信息,所得图像具有较优的视觉效果和图像质量。  相似文献   

10.
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到...  相似文献   

11.
利用分块相似系数构造感知图像Hash   总被引:1,自引:0,他引:1  
提出一种基于图像分块相似系数的感知稳健图像Hash.先对图像预处理,再进行重叠分块,在密钥控制下,利用高斯低通滤波器生成伪随机参考图像块,分别计算每个分块与参考图像块的相关系数得到图像特征序列.依此将相邻两个分块特征值合并以缩短Hash长度,同时对压缩后的特征序列进行重排,进一步提高图像Hash的安全性.最后对归一化特征值进行量化,并运用Huffman方法对其编码,进一步压缩Hash长度.理论分析和实验结果表明,该图像Hash方法对JPEG压缩、适度的噪声干扰、水印嵌入、图像缩放以及高斯低通滤波等常见图像处理有较好的鲁棒性,能有效区分不同图像,冲突概率低,可用于图像篡改检测.  相似文献   

12.
针对现有X线图像拼接方法中分别存在的需要固定标志物、鲁棒性差及全景图像存在伪影等问题,提出一种旋转不变的图像自动拼接方法.基于特征点配准,结合改进的、旋转不变的相关度法进行特征匹配,对图像重合度要求较低.在图像融合中则采用2维动态权值和平衡曝光度等策略.经实验验证,本文配准算法在保证结果准确性的同时提高了鲁棒性;本文融合算法可有效地平衡曝光度差异,并避免拼接伪影,极大地提高了全景图像质量.  相似文献   

13.
图像拼接技术综述*   总被引:10,自引:2,他引:8  
给出了图像拼接的一般流程,在此基础上将图像拼接技术分为两个关键技术——图像配准技术和图像融合技术,并分别对图像配准技术和图像融合技术的经典算法及最新算法作一概述和比较。  相似文献   

14.
提出一种对鱼眼图像进行校正和配准的算法。首先把鱼眼图像从相等距离投影模型映射到参数化球面投影模型,使得合成球面全景图成为一个平移求解问题。然后使用非线性优化算法进行图像的配准。在合成场景的球面全景图以后,通过重投影球面全景图到视平面来完成虚拟场景的实时漫游。  相似文献   

15.
汉字从创始至今走过了漫长的历史,它是目前世界上仅存的表意形文字。汉字在造字思维上注重形意结合——以意造形、以形表意,这种思维贯穿了我们的历史和文化。文章以汉字的造字思维为切入点,重点分析了汉字中的意象思维及其在插画中的应用,这种意象思维为我们提供了极为广阔的创作空间。  相似文献   

16.
图像镶嵌技术是近年来发展迅速的图像处理技术之一,是计算机视觉领域和计算机图形学领域都十分关注的研究热点之一。通过对现有遥感图像镶嵌方法的研究,时其进行了归纳和总结,并介绍了几种常见的图像镶嵌关键技术。  相似文献   

17.
图像拼接方法探讨   总被引:12,自引:2,他引:12  
本文系统的阐述了图像拼接技术的由来、现状,应用领域以及拼接方法,对图像拼接的两个主要过程:图像配准和图像融合分别进行了详细介绍.图像配准是图像拼接的核心技术,本文还对现有的图像配准方法进行归类总结,对每个配准算法进行优缺点描述。对目前现有以及常用的图像融合方法也进行了详细的介绍。最后提出了图像拼接技术的不足.  相似文献   

18.
本文简述了红外与可见光图像融合的意义及其应用,介绍了多种红外与可见光序列图像融合方法。在对这些融合方法进行比较分析的基础上,总结了红外与可见光序列图像融合的研究现状、当前研究热点及未来的发展趋势。  相似文献   

19.
车辆运动模糊图像的快速恢复   总被引:2,自引:0,他引:2  
论文针对运动造成的模糊图像,根据运动造成的图像模糊的特点,建立了原始图像与模糊图像间的关系,在此基础上提出了一种运动模糊图像的快速恢复算法,并用于车辆运动模糊车牌图像恢复中。实验结果验证了该方法的有效性。  相似文献   

20.
探讨数字化图像监视和记录系统的构建与程序设计技术,通过详细的程序设计实例, 讲述用图像摄取控件高效设计硬盘录像系统的程序设计技巧.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号