首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
本文针对人体行为识别模型中鉴别能力有限的问题,同时避免双流中计算光流的较大时间成本,提出基于通道注意力机制和三维卷积时空注意力模型的行为识别方法。首先,该卷积网络模型使用ResNeXt残差模块,利用三维卷积核有效地提取视频帧时空特征。然后,在此基础上给每个残差模块增加通道注意力机制学习不同特征图的权重,进而形成基于通道域的注意力权重,增强网络结构对人体行为的表征能力。最后,在UCF-101和HMDB-51数据集上,通过交叉熵损失函数训练不同网络深度的行为分类模型。实验结果表明,该模型可以有效提取视频中的时空特征,并在人体行为识别任务中有着较高效率和优秀的准确度。  相似文献   

2.
针对遥感图像水体分割任务,提出了一种多尺度融合注意力模块改进的UNet网络——A-MSFAM-UNet,该方法在GF-2遥感图像水体分割任务中实现了端到端高分辨率遥感图像水体分割。首先,针对以往注意力模块全局池化操作带来的局部信息不敏感问题,设计了一种多尺度融合注意力模块(MSFAM),该模块使用点卷积融合通道全局信息、深度可分离卷积弥补全局池化造成的信息丢失。MSFAM用于UNet跳跃连接后的特征融合部分重新分配特征点权重以提高特征融合效率,增强网络获取不同尺度信息的能力。其次,空洞卷积用于VGG16主干网络扩展感受野,在不损失分辨率的情况下聚合全局信息。结果表明,A-MSFAM-UNet优于其他通道注意力(SENet、ECANet)改进的UNet,在GF-2水体分割数据集上平均交并比(MIoU)、平均像素精度(MPA)和准确率(Acc)分别达到了96.02%、97.98%和99.26%。  相似文献   

3.
人体行为识别是计算机视觉中最具吸引力和实践性的研究领域之一,近年来,双流卷积神经网络因其可以同时捕获行为的空间信息和运动信息来进行人体行为的识别而越发的流行。然而,现有的基于双流卷积神经网络的行为识别方法的卷积方式无法全面的捕获相邻光流帧之间的运动信息和边缘的表观信息。为了解决这一问题,提出了一种利用全局特征金字塔和空间注意模块的来识别人类行为的双流网络结构。首先,在时间流提出了一个主要由卷积编码器和全局多头自注意(global multi-head self attention,GMSA)机制组成的全局特征金字塔结构.较小的卷积核在早期阶段捕获低维度特性,而较大的卷积核在卷积编码器后捕获其高维特性。而全局多头注意力则捕获全局的运动信息。其次,设计了一个空间注意模块。通过使用平均池化操作来聚合特征映射的空间信息来生成一维映射来表示空间上的平均合并特征,然后经过3*3的卷积核进行卷积来对RGB图像的边缘表观信息进行提取。最后,利用长短期记忆(long short-term memory, LSTM)来提取密集光流中的时间序列信息。在数据集UCF101、HMDB51上进行实验,实验表明,与...  相似文献   

4.
针对骨架行为识别对时空特征提取不充分以及难以捕捉全局上下文信息的问题,研究了一种将时空注意力机制和自适应图卷积网络相结合的人体骨架行为识别方案。首先,构建基于非局部操作的时空注意力模块,辅助模型关注骨架序列中最具判别性的帧和区域;其次,利用高斯嵌入函数和轻量级卷积神经网络的特征学习能力,并考虑人体先验知识在不同时期的影响,构建自适应图卷积网络;最后,将自适应图卷积网络作为基本框架,并嵌入时空注意力模块,与关节信息、骨骼信息以及各自的运动信息构建双流融合模型。该算法在NTU RGB+D数据集的两种评价标准下分别达到了90.2%和96.2%的准确率,在大规模的数据集Kinetics上体现出模型的通用性,验证了该算法在提取时空特征和捕捉全局上下文信息上的优越性。   相似文献   

5.
针对VGG16网络识别驾驶员分心时参数量多、分类准确率低的问题,提出了一种基于多尺度通道的分类模块MCAM.分类模块MCAM包括MCM模块和MSE模块.MCM模块将卷积特征图分离为4个子特征图,使用不同的卷积核对4个子特征图进行空间信息提取,以期提高分类准确率;MSE模块为改进的通道注意力,其使用一维卷积来改进原始通道...  相似文献   

6.
针对红外视频缺少纹理细节特征以致在人体行为识别中难以兼顾计算复杂度与识别准确率的问题,提出一种基于全局双线性注意力的红外视频行为识别方法。为高效计算红外视频中的人体行为,设计基于两级检测网络的关节点提取模块来获得人体关节点信息,创新性地将所形成的关节点三维热图作为红外视频人体行为识别网络的输入特征;为了在轻量化计算的基础上进一步提升识别准确率,提出一种全局双线性注意力的三维卷积网络,从空间和通道两个维度提升注意力的建模能力,捕获全局结构信息。在InfAR和IITR-IAR数据集上的实验结果表明,该方法在红外视频行为识别中的有效性。  相似文献   

7.
细粒度图像识别研究的内容是大类下的子类别识别问题,其关键是找到图像中的关键区域并从中提取有效特征.针对现有方法在定位关键区域时无法兼顾准确性和计算量的问题,提出了一种引入高效通道注意力模块的多分支网络.首先,在递归注意力卷积神经网络的基础上引入通道注意力定位图像中目标的位置.然后,用深度超参数化卷积替换传统卷积操作,增加了网络可学习的参数.最后,用改进的注意力部件模块切割出多个图像关键区域部件,以捕捉丰富的局部信息.实验结果表明,本方法在弱监督情况下的识别效果较好,在两个常用细粒度数据集Stanford Cars、Food-101上的识别准确率分别为95.4%和90.6%.  相似文献   

8.
3维卷积神经网络(3D CNN)与双流卷积神经网络(two-stream CNN)是视频中人体行为识别研究的常用架构,且各有优势。该文旨在研究结合两种架构且复杂度低、识别精度高的人体行为识别模型。具体地,该文提出基于通道剪枝的双流-非局部时空残差卷积神经网络(TPNLST-ResCNN),该网络采用双流架构,分别在时间流子网络和空间流子网络采用时空残差卷积神经网络(ST-ResCNN),并采用均值融合算法融合两个子网络的识别结果。进一步地,为了降低网络的复杂度,该文提出了针对时空残差卷积神经网络的通道剪枝方案,在实现模型压缩的同时,可基本保持模型的识别精度;为了使得压缩后网络能更好地学习到输入视频中人体行为变化的长距离时空依赖关系,提高网络的识别精度,该文提出在剪枝后网络的首个残差型时空卷积块前引入一个非局部模块。实验结果表明,该文提出的人体行为识别模型在公共数据集UCF101和HMDB51上的识别准确率分别为98.33%和74.63%。与现有方法相比,该文模型具有参数量小、识别精度高的优点。  相似文献   

9.
为了有效地识别学生在线课堂行为,提出了一种融合全局注意力机制和时空图卷积 网络的人体骨架行为识别模型。首先在时空图卷积网络的空间图卷积网络和时间卷积网络之 间加入全局注意力模块,空间图卷积网络输出的空间特征图作为注意力模块的输入。其次引 入按时间维度的平均池化和最大池化操作,以增加模型学习全局特征信息的能力。最后用三 个加入注意力机制的时空图卷积神经网络和类激活图(class activation map,CAM),构造对遮挡数据识别能力更强 的丰富激活图卷积网络(RA-GCNv2-A)模型,并通过迁移学习实现学生在线课堂行为识别功 能。 在NTU-RGB+D和NTU-RGB+D120数据集上进行实验验证,与RA-GCNv2模型相比,在NTU-RGB +D 和NTU-RGB+D120数据集上的识别准确率分别提高了(cross-subject,CS)1.3%、(cross-view,CV)1.2%和(cross-subject,CSub)1.6%、 (cross-setup,CSet)1.4%。实验结果表明,提出的方法是一种有效的学生在线课堂 行为识别方法。  相似文献   

10.
蔡仁昊  程宁  彭志勇  董施泽  安建民  金钢 《红外与激光工程》2022,51(12):20220253-1-20220253-11
伴随高速飞行器的不断发展,目标检测识别作为精确制导的关键一环,需要更高实时性、高准确性地进行目标定位和识别。当前,针对装甲车辆、车辆阵地等时间敏感目标精确检测识别的需求日益迫切,深度学习算法在特征提取及分类器设计上具备优势。文中以特定复杂背景下的小尺寸红外车辆目标为研究对象,针对样本数据少、平台资源受限、实时性要求高、检测精度高等需求,开展基于红外弱小车辆目标检测识别的轻量化深度学习算法研究。项目基于YOLOv5算法进行轻量化剪裁,减小模型的结构,提高实时性;提出了混合域注意力机制模块EPA,该模块通过不降维的局部跨信道交互策略使算法更快速有效地关注重要通道,抑制无效通道,并将通道注意力机制与空间注意力机制结合,使得算法更关注与目标相关的像素信息。提出了残差密集注意模块(RDAB),该模块由密集残差块与注意力机制EPA构成,通过密集卷积层来提取充分的局部特征,通过注意力机制获取更有效的通道与像素信息,可以使得算法以较小的模型结构获得较好的检测效果。运用设计的网络对数据增广后的小尺寸红外车辆目标数据进行检测识别,并与多种典型算法进行对比实验。由实验结果可知,文中提出的JH-YOLOv5-RDAB网络检测识别效果优于其他网络,权重大小仅为6.6 MB,仅为YOLOv5s算法模型权重的一半,但算法检测效果更优,与93.7 MB的YOLOv5l算法的检测效果接近,mAP50达到95.1%。实验结果表明:该网络在红外弱小车辆目标检测上的优越性和可行性。  相似文献   

11.
近年来,基于骨架的人体动作识别任务因骨架数据的鲁棒性和泛化能力而受到了广泛关注。其中,将人体骨骼建模为时空图的图卷积网络取得了显著的性能。然而图卷积主要通过一系列3D卷积来学习长期交互联系,这种联系偏向于局部并且受到卷积核大小的限制,无法有效地捕获远程依赖关系。该文提出一种协作卷积Transformer网络(Co-ConvT),通过引入Transformer中的自注意力机制建立远程依赖关系,并将其与图卷积神经网络(GCNs)相结合进行动作识别,使模型既能通过图卷积神经网络提取局部信息,也能通过Transformer捕获丰富的远程依赖项。另外,Transformer的自注意力机制在像素级进行计算,因此产生了极大的计算代价,该模型通过将整个网络分为两个阶段,第1阶段使用纯卷积来提取浅层空间特征,第2阶段使用所提出的ConvT块捕获高层语义信息,降低了计算复杂度。此外,原始Transformer中的线性嵌入被替换为卷积嵌入,获得局部空间信息增强,并由此去除了原始模型中的位置编码,使模型更轻量。在两个大规模权威数据集NTU-RGB+D和Kinetics-Skeleton上进行实验验证,该模型分...  相似文献   

12.
In visual tracking, both convolution and attention are widely employed for feature enhancement and fusion. However, convolution does not adequately model global dependencies of samples due to its operation on local neighbors, while attention gives too much attention to global dependencies and too little to local dependencies. It is intrinsically infeasible to combine both methods to integrate global and local information. However, a recently-proposed model called involution uses kernels differing in spatial extent but sharing across channels, making it possible to take advantage of both convolution and attention. We propose an attention-involution (Att-Inv) model that uses an attention mechanism to generate involution kernels to take both global and local dependencies of samples into account. To improve the performance of our tracker, we develop and implement strategies of backbone network modification, template updates, and regression of bounding box distributions. We evaluate our tracker using benchmarks such as GOT10k, LaSOT, TrackingNet and OxUvA. Experimental results show that it is competitive with state-of-the-art trackers.  相似文献   

13.
杨真真  孙雪  邵静  杨永鹏 《信号处理》2022,38(9):1912-1921
为了提高U-Net网络性能的同时尽可能减少额外计算量,本文提出了一种新的多尺度偶数卷积注意力UNet(Multiscale Even Convolution Attention U-Net,MECAU-Net)网络。该网络在编码端采用2×2偶数卷积代替3×3卷积进行特征提取,并借鉴多尺度思想,采用4×4偶数卷积将得到的信息直接传递给主干部分,以获取更全面的图像信息并减少额外计算开销,同时还采用对称填充解决偶数卷积提取信息过程中产生的偏移问题。此外,在2×2偶数卷积模块后加入卷积注意力模块,结合空间和通道注意力,在提取更丰富的信息的同时几乎不增加额外开销。最后,在两个医学图像数据集上进行仿真实验,实验结果表明提出的MECAU-Net网络相对于U-Net在稍微增加计算成本的情况下,分割性能得到了较大的提升,并比其他对比网络取得更好的分割性能的同时还降低了参数量。  相似文献   

14.
姚少卿  苏志刚 《信号处理》2020,36(11):1940-1946
基于深度学习的语义分割算法可以实现安检违禁品自动识别,并获得违禁品的位置、类别及形状信息。但传统的语义分割算法在面对违禁品尺寸不一且目标多样的识别任务时表现较差。针对该问题,本文提出了一种基于语义分割技术的多目标违禁品识别算法。编码阶段,设计使用空洞空间金字塔卷积模块(Atrous Spatial Pyramid Convolution Block, ASPC),提升网络对于特征图多尺度信息的挖掘能力。同时引入注意力机制,对ASPC模块的特征提取过程进行监督,进一步提升模块的特征提取能力。解码阶段,受U-Net模型启发,采用逐级上采样操作,同时加入1×1卷积实现通道降维,减少计算量,提升模型运行速度。实验结果显示,本文提出的算法在多目标违禁品识别任务中表现良好,平均交并比(mIoU)得分78.62,处理单张图片用时(Time)68ms。   相似文献   

15.
目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了一种红外与可见光图像多尺度Transformer融合方法。以Swin Transformer为组件,架构了Conv Swin Transformer Block模块,利用卷积层增强图像全局特征的表征能力。构建了多尺度自注意力编码-解码网络,实现了图像全局特征提取与全局特征重构;设计了特征序列融合层,利用SoftMax操作计算特征序列的注意力权重系数,突出了源图像各自的显著特征,实现了端到端的红外与可见光图像融合。在TNO、Roadscene数据集上的实验结果表明,该方法在主观视觉描述和客观指标评价都优于其他典型的传统与深度学习融合方法。本方法结合自注意力机制,利用Transformer建立图像的长距离依赖关系,构建了图像全局特征融合模型,比其他深度学习融合方法具有更优的融合性能和更强的泛化能力。  相似文献   

16.
在车辆重识别(re-identification,Re-ID) 任务中,通过对全局及局部信息的联合提取已成为目前主流的方法,是许多重识别模型在提取局部信息时只关注了丰富程度而忽略了完整性。针对该问题,提出了一种基于关系融合和特征分解的算法。该算法从空间与通道维度出发,设计对骨干网络所提取的特征沿垂直、水平、通道3维度分割,首先,为了更好地凸显车辆的前景区域,提出一种混合注意力模块(mixed attention module,MAM) ,之后,为了在空间维度上挖掘丰富特征信息的同时使得网络关注更完整的感兴趣区域,设计对垂直及水平方向的分割后的特征实现基于图的关系融合。为了赋予网络捕捉更具判别性信息的能力,在通道方向上对分割后的局部特征实现特征分解。最后,在全局分支特征与局部分支下所提取的鲁棒性特征的共同作用下实现车辆重识别。实验结果表明,本文算法在两个主流车辆重识别数据集上取得了更先进的性能。  相似文献   

17.
为提升目标检测任务在复杂环境下的识别效果,提出了一种基于特征融合的红外与可见光目标检测方法。该方法首先采用并列的卷积神经网络分别提取红外和可见光特征信息,并利用通道和空间注意力机制提升有效特征的权重;其次,为充分利用红外和可见光特征进行信息互补,设计了特征自适应融合结构,以自主学习方式将红外与可见光特征以最优方式加权融合;最后,针对不同尺度目标,通过交替采样方式充分融合深层和浅层特征,保障各维度目标检测效果。通过实验表明,所提方法可以充分利用并融合不同模式、尺度的目标特征信息,实现目标准确识别及定位。同时,在实际电网设备检测中,该方法也体现出较优的鲁棒性和泛化性。  相似文献   

18.
针对现有深度学习分类方法对稳态视觉诱发电位相位与频率信息利用不充分的问题,该文提出一种用于稳态视觉诱发电位(SSVEP)分类的卷积神经网络模型.该模型以经过快速傅里叶变换后的复向量作为输入,首先对各个导联的实部向量和虚部向量进行卷积,学习相位信息;随后引入空间注意力机制,对判别频率信息进行增强;然后使用2维卷积和最大池...  相似文献   

19.
针对现有图像拼接检测网络模型存在边缘信息关注度不够、像素级精准定位效果不够好等问题,提出一种融入残差注意力机制的DeepLabV3+图像拼接篡改取证方法,该方法利用编-解码结构实现像素级图像的拼接篡改定位。在编码阶段,将高效注意力模块融入ResNet101的残差模块中,通过残差模块的堆叠以减小不重要的特征比重,凸显拼接篡改痕迹;其次,利用带有空洞卷积的空间金字塔池化模块进行多尺度特征提取,将得到的特征图进行拼接后通过空间和通道注意力机制进行语义信息建模。在解码阶段,通过融合多尺度的浅层和深层图像特征提升图像的拼接伪造区域的定位精度。实验结果表明,在CASIA 1.0、COLUMBIA和CARVALHO数据集上的拼接篡改定位精度分别达到了0.761、0.742和0.745,所提方法的图像拼接伪造区域定位性能优于一些现有的方法,同时该方法对JPEG压缩也具有更好的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号