首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于计算机视觉的Transformer研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
Transformer是一种基于自注意力机制、并行化处理数据的深度神经网络.近几年基于Transformer的模型成为计算机视觉任务的重要研究方向.针对目前国内基于Transformer综述性文章的空白,对其在计算机视觉上的应用进行概述.回顾了Transformer的基本原理,重点介绍了其在图像分类、目标检测、图像分割...  相似文献   

2.
3.
一些主流的图像任意风格迁移模型在保持内容图像的显著性信息和细节特征方面依然有局限性, 生成的图像往往具有内容模糊、细节失真等问题. 针对以上问题, 本文提出一种可以有效保留内容图像细节特征的图像任意风格迁移模型. 模型包括灵活地融合从编码器提取到的浅层至深层的多层级图像特征; 提出一种新的特征融合模块, 该模块可以高质量地融合内容特征和风格特征. 此外, 还提出一个新的损失函数, 该损失函数可以很好地保持内容和风格全局结构, 消除伪影. 实验结果表明, 本文提出的图像任意风格迁移模型可以很好地平衡风格和内容, 保留内容图像完整的语义信息和细节特征, 生成视觉效果更好的风格化图像.  相似文献   

4.
基于元网络的任意风格快速迁移方法得到业界的高度关注和评价。然而,该模型的结果图中经常出现灰色风格不协调的像素缺块,颜色色调与目标风格图不一致,严重影响了迁移质量。提出了该方法的改进策略。使用Gram矩阵作为风格统计量,用于元网络信息输入和计算网络训练损失函数。同时,综合Gram矩阵平均池化操作和元网络分组全连接策略,有效避免了传统Gram矩阵带来网络参数整体过大的问题。实验结果显示,该方法不仅有效去除了不协调风格缺块问题,而且在纹理和颜色布局上较原方法取得了更好的视觉效果。通过理论分析、实验佐证,在算法收敛性和视觉效果方面,进一步确认了采用Gram矩阵作为风格损失和特征统计量的优越性。  相似文献   

5.
目前大多数人脸识别方法依赖于卷积神经网络,通过级联的形式构建多层处理单元,利用卷积操作融合局部特征,忽略了人脸全局语义信息,缺乏对人脸重点区域的关注度。针对上述问题,提出一种基于改进视觉Transformer的人脸识别方法,引入Shuffle Transformer作为特征提取骨干网络,通过自注意力机制以及Shuffle操作捕捉特征图全局信息,建立特征点之间的长距离依赖关系,提高模型的特征感知能力;同时,结合ArcFace损失函数和中心损失函数的特点,设计融合损失作为目标函数,利用类内约束扩大角度间隔,提高特征空间的辨别性。该方法在LFW、CALFW、CPLFW、AgeDB-30和CFP五个具有挑战性的基准测试人脸数据集上分别取得了99.83%、95.87%、90.05%、98.05%、97.23%的平均准确率,能够有效提升人脸特征提取能力,识别效果优于同等规模卷积神经网络。  相似文献   

6.
现有的风格迁移算法大多是实现艺术作品到真实场景,如照片等的转换任务。在这种任务设定下,图像内容的边界等结构信息可能会出现一定程度的变化,然而这种变化不利于下游任务的完成,因而不适用于大部分工业场景。为此提出一种新的结构保持的风格迁移方法,该方法分为频域约束的图像生成模块和基于memory bank机制的语义匹配模块。前者用以保证转换前后图像的整体语义结构一致性,而后者保证了图像的语义与风格匹配,从而物体内部结构一致。为了验证该方法在工业场景中的迁移效果,采用光伏板数据集,在虚拟到真实的迁移方向上,所提出的风格迁移算法能在完成风格转换的同时较好地解决图像结构形变问题,进而满足后续任务的需求。  相似文献   

7.
针对山水画的特点和风格,在循环一致性生成式对抗网络(Cycle Generative Adversarial Networks,Cycle-GAN)的基础上,在网络中引入注意力机制(Attention Mechanism),通过对图像主要特征赋予更高的学习权重来获得更好的图像风格迁移效果,增强图像风格化后的部分细节.在...  相似文献   

8.
基于Transformer的视觉目标跟踪算法能够很好地捕获目标的全局信息,但是,在对目标特征的表述上还有进一步提升的空间.为了更好地提升对目标特征的表达能力,提出一种基于混合注意力的Transformer视觉目标跟踪算法.首先,引入混合注意力模块捕捉目标在空间和通道维度中的特征,实现对目标特征上下文依赖关系的建模;然后,通过多个不同空洞率的平行空洞卷积对特征图进行采样,以获得图像的多尺度特征,增强局部特征表达能力;最后,在Transformer编码器中加入所构建的卷积位置编码层,为跟踪器提供精确且长度自适应的位置编码,提升跟踪定位的精度.在OTB100、VOT2018和LaSOT等数据集上进行大量实验,实验结果表明,通过基于混合注意力的Transformer网络学习特征间的关系,能够更好地表示目标特征.与其他主流目标跟踪算法相比,所提出算法具有更好的跟踪性能,且能够达到26帧/s的实时跟踪速度.  相似文献   

9.
Transformer是基于自注意力机制的编码器-解码器架构模型,擅长建立远距离依赖关系,已经成为自然语言处理领域的主流模型.受Transformer在自然语言处理领域中取得巨大成功的启发,近两年一些开创性的工作开始研究如何将Transformer应用于计算机视觉领域,并取得了显著的成果,目前视觉Transformer依然是研究的热点.本文对近年来Transformer在多个视觉任务上的应用与发展进行梳理、分析与总结.首先阐述了视觉Transformer基本结构与实现原理,分析了模型结构的特点与优势,梳理了视觉Transformer的研究进展.其次,介绍了Transformer在高层视觉任务、底层视觉任务和多模态任务上的典型应用模型,并详细对比了在图像分类、检测和分割领域典型视觉Transformer模型的性能指标.最后总结了当前视觉Transformer各类模型存在的问题与难点,并指出未来的发展方向.  相似文献   

10.
目前,我国高速公路拥堵程度居高不下,而交通流预测作为实现智能交通系统的重要一环,若能对其实现高精度的预测,那么将能够高效地管理交通,从而缓解拥堵。针对该问题,提出了一种考虑时空关联的多通道交通流预测方法(MCST-Transformer)。首先,将Transformer结构用于不同数据的内在规律提取,然后引入空间关联模块对不同数据间的关联特征进行挖掘,最后,借助通道注意力整合优化全局信息。采用广东省高速公路数据,实现了两小时内92个收费站的高精度流量预测。结果表明:MCST-Transformer优于传统机器学习方法以及部分基于注意力机制的时间序列模型,在120 min预测跨度下,相比贝叶斯回归,MAPE降低了5.1%;对比Seq2Seq-Att以及Seq2Seq这些深度学习算法,所提方法的总体MAPE也能降低0.5%,说明通过多通道的方式能够区分不同数据的特性,进而更好地预测。  相似文献   

11.
Transformer模型在自然语言处理领域取得了很好的效果,同时因其能够更好地连接视觉和语言,也激发了计算机视觉界的极大兴趣。本文总结了视觉Transformer处理多种识别任务的百余种代表性方法,并对比分析了不同任务内的模型表现,在此基础上总结了每类任务模型的优点、不足以及面临的挑战。根据识别粒度的不同,分别着眼于诸如图像分类、视频分类的基于全局识别的方法,以及目标检测、视觉分割的基于局部识别的方法。考虑到现有方法在3种具体识别任务的广泛流行,总结了在人脸识别、动作识别和姿态估计中的方法。同时,也总结了可用于多种视觉任务或领域无关的通用方法的研究现状。基于Transformer的模型实现了许多端到端的方法,并不断追求准确率与计算成本的平衡。全局识别任务下的Transformer模型对补丁序列切分和标记特征表示进行了探索,局部识别任务下的Transformer模型因能够更好地捕获全局信息而取得了较好的表现。在人脸识别和动作识别方面,注意力机制减少了特征表示的误差,可以处理丰富多样的特征。Transformer可以解决姿态估计中特征错位的问题,有利于改善基于回归的方法性能,还减少了三维估计时深度映射所产生的歧义。大量探索表明视觉Transformer在识别任务中的有效性,并且在特征表示或网络结构等方面的改进有利于提升性能。  相似文献   

12.
目的 微光图像存在低对比度、噪声伪影和颜色失真等退化问题,造成图像的视觉感受质量较差,同时也导致后续图像识别、分类和检测等任务的精度降低。针对以上问题,提出一种融合注意力机制和上下文信息的微光图像增强方法。方法 为提高运算精度,以U型结构网络为基础构建了一种端到端的微光图像增强网络框架,主要由注意力机制编/解码模块、跨尺度上下文模块和融合模块等组成。由混合注意力块(包括空间注意力和通道注意力)引导主干网络学习,其空间注意力模块用于计算空间位置的权重以学习不同区域的噪声特征,而通道注意力模块根据不同通道的颜色信息计算通道权重,以提升网络的颜色信息重建能力。此外,跨尺度上下文模块用于聚合各阶段网络中的深层和浅层特征,借助融合机制来提高网络的亮度和颜色增强效果。结果 本文方法与现有主流方法进行定量和定性对比实验,结果显示本文方法显著提升了微光图像亮度,并且较好保持了图像颜色一致性,原微光图像较暗区域的噪点显著去除,重建图像的纹理细节清晰。在峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity,SSIM)和图像感知...  相似文献   

13.
目的 高光谱图像因设备及环境因素容易受到噪声污染,导致图像的可见性和分析精度降低,因此高光谱图像去噪任务已经成为遥感图像处理领域国内外研究热点。当前的高光谱图像去噪方法主要面临两个难题:1)对特征的全局信息利用不足。当前基于卷积神经网络的方法受限于卷积核的大小,难以捕获特征的全局信息;2)卷积神经网络和 Transformer 在结构上存在差异,导致两者难以融合,因此,需要考虑合理的特征交互方式,来平衡局部和全局特征提取之间的关系。方法 针对上述问题,本文提出了基于 Transformer 和通道混合并行卷积的高光谱图像去噪模型,包括 3 个模块:通道混合特征提取模块、基于块下采样的全局增强模块和自适应双向特征融合模块。通过这 3 个模块的相互作用,可以充分结合全局和局部的特征信息,处理不同区域中的噪声和纹理差异,有效提高模型对空间细节信息的恢复能力。结果 实验在 2 个数据集上与主流的 5 种方法进行比较,在 Pavia 数据集中设置不同高斯噪声强度的情况下,相比于性能第 2 的模型,峰值信噪比(peak signal-to-noise ratio,PSNR)值最大提高了0. 4 dB;在 ICVL 数据集中设置各种混合噪声的情况下,相比于性能第 2 的模型,PSNR 最大提高了 2. 18 dB。同时可视化的去噪结果图像体现了本文所提出的去噪模型的优异性能。结论 本文方法在各种噪声情况下均具有较好的去噪效果,显著优于当前主流方法,能够有效去除高光谱图像中噪声,同时保留图像丰富的纹理信息。  相似文献   

14.
机器人足球视觉系统中的实时图像处理   总被引:5,自引:5,他引:5  
视觉系统是整个机器人足球系统的重要组成部分。根据机器人足球视觉系统的特点,提出基于游程长度编码(RLE)的实时快速图像处理算法。算法使用RLE对图像进行压缩,并且在处理阶段高效识别出图像中目标的尺寸和位置。压缩阶段算法的时间复杂度与图像尺寸成线性关系,图像处理阶段算法的时间复杂度与图像中目标的个数和每个目标所占的扫描行数成线性关系。  相似文献   

15.
表格文档在日常生活中运用十分广泛 ,它应用于人口普查、银行票据、各类报表等领域 ,对这类文档进行计算机自动处理具有重要的现实意义。表格文档信息处理系统主要由文档原始图像获取、文档结构提取和填写信息识别等部分组成。在分析了国内外表格文档信息自动录入系统的优缺点后 ,采用一种基于接触式图像传感器 (CIS)摄取表格文档的原始图像信号 ,利用硬件获得了高质量的图像信号。采用光学字符识别 (OCR)技术对填写的表格文档信息进行识别。该表格文档信息处理系统具有对表格文档的纸张和填写的要求低和识别准确度高的特点。  相似文献   

16.
针对现有基于视觉注意力和基于文本注意力的图像描述自动生成模型无法同时兼顾描述图像细节和整体图像的问题,提出了一种基于演化深度学习的图像描述生成模型(evolutionary deep learning model for image captioning, EDLMIC),该模型是一种包含图像编码器、演化神经网络和自适应融合解码器三个子模块的图像描述自动生成模型,能够有效地融合视觉信息和文本信息,自动计算这两种信息在每个时间步所占的比例,从而基于融合的视觉文本信息更好地生成给定图像的相关描述。在Flickr30K和COCO2014两个公开数据集的实验结果表明,EDLMIC模型在METEOR、ROUGE-L、CIDEr和SPICE四个指标均优于其他基线模型,并且在多种不同的生活场景中具有较好的性能。  相似文献   

17.
详细地介绍了用于数字图像处理的开放源代码的计算机视觉类库--OpenCV.利用OpenCV中的数字图像处理函数使复杂的问题变得简单化.介绍了OpenCV的特点及功能,对最新版本的OpenCV新增的功能作了详细的论述,并且讨论了在C Builder环境下如何配置OpenCV,最后在此基础上给出了两个应用实例.对数字图像处理的研究具有一定的实用价值.  相似文献   

18.
航拍图像目标检测存在多尺度目标检测精度低、检测速度慢、漏检和误检严重等问题.针对这些问题,提出一种融合卷积注意力机制和轻量化网络的目标检测算法(pro-YOLOv4),并应用于多尺度航拍图像目标检测.首先,利用K-means聚类算法对航拍数据集进行聚类分析并优化锚框参数,以提高对目标检测的有效性;其次,采用轻量级网络结构,精简网络复杂度,提高检测速度;最后,引入卷积注意力模块来解决复杂场景对于航拍目标检测的干扰,从而有效降低误检率和漏检率.在航拍数据集RSOD和NWPU VHR-10上进行实验对比,实验结果表明,pro-YOLOv4检测效果较YOLOv4有明显提升,平均检测精度分别提高了3.42%和3.98%.该算法不仅对多尺度目标均表现出较好检测性能,还降低了目标漏检率,并具有较好的鲁棒性和泛化能力.  相似文献   

19.
目的 图像超分辨率重建的目的是将低分辨率图像复原出具有更丰富细节信息的高分辨率图像。近年来,基于Transformer的深度神经网络在图像超分辨率重建领域取得了令人瞩目的性能,然而,这些网络往往参数量巨大、计算成本较高。针对该问题,设计了一种轻量级图像超分辨率重建网络。方法 提出了一种轻量级图像超分辨率的蓝图可分离卷积Transformer网络(blueprint separable convolution Transformer network,BSTN)。基于蓝图可分离卷积(blueprint separable convolution,BSConv)设计了蓝图前馈神经网络和蓝图多头自注意力模块。然后设计了移动通道注意力模块(shift channel attention block,SCAB)对通道重点信息进行加强,包括移动卷积、对比度感知通道注意力和蓝图前馈神经网络。最后设计了蓝图多头自注意力模块(blueprint multi-head self-attention block,BMSAB),通过蓝图多头自注意力与蓝图前馈神经网络以较低的计算量实现了自注意力过程。结果 本文方法在4个数据集上与10种先进的轻量级超分辨率方法进行比较。客观上,本文方法在不同数据集上取得了不同程度的领先,并且参数量和浮点运算量都处于较低水平。当放大倍数分别为2、3和4时,在Set5数据集上相比SOTA(state-of-theart)方法,峰值信噪比(peak signal to noise ratio,PSNR)分别提升了0.11dB、0.16dB和0.17dB。主观上,本文方法重建图像清晰,模糊区域小,具有丰富的细节。结论 本文所提出的蓝图可分离卷积Transformer网络BSTN以较少的参数量和浮点运算量达到了先进水平,能获得高质量的超分辨率重建结果。  相似文献   

20.
This paper describes a frame-based computer vision system named FABIUS implemented in Prolog. Advantages of using frames for computer vision are that they are modular and understandable; structural, decomposable objects can be described by part frame hierarchies, and specialization frame hierarchies enable property inheritance and flexible, efficient object classification. Image processing operations, written in C, are triggered as demons when specific slots in a frame are accessed. Prolog provides the problem solving facilities of backtracking and pattern matching. The system is shown to be well suited to rapid development of applications and alternative interpretation strategies, and its operation is illustrated when applied to the task of identifying vehicles in cluttered real-world scenes.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号