首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 175 毫秒
1.
基于端到端的深度学习模型已经被广泛应用于自动调制识别。现有的深度学习方案大多数依赖于丰富的样本分布,而大批量的标记训练集通常很难获得。提出了一种基于数据驱动和选择性核卷积神经网络(Convolutional Neural Network,CNN)的自动调制识别框架。首先开发深度密集生成式对抗网络增强5种调制信号的原始数据集;其次选择平滑伪Wigner-Ville分布作为信号的时频表示,并将注意力模块用于聚焦时频图像分类中的差异区域;最后将真实信号输入轻量级卷积神经网络进行时间相关性提取,并融合信号的时频特征完成分类。实验结果表明,所提算法提高了在低信噪比情况下的识别精度,表现出较强的鲁棒性。  相似文献   

2.
针对卷积神经网络和图卷积网络的两类算法在校园暴力行为识别中识别速度和识别率不高的问题,本文提出一种结合多信息流数据融合和时空注意力机制的轻量级图卷积网络.以人体骨架为研究对象,首先融合关节点和骨架相关的多信息流数据,通过减少网络参数量来提高运算速度;其次构建基于非局部运算的时空注意力模块关注最具动作判别性的关节点,通过...  相似文献   

3.
针对骨架行为识别对时空特征提取不充分以及难以捕捉全局上下文信息的问题,研究了一种将时空注意力机制和自适应图卷积网络相结合的人体骨架行为识别方案。首先,构建基于非局部操作的时空注意力模块,辅助模型关注骨架序列中最具判别性的帧和区域;其次,利用高斯嵌入函数和轻量级卷积神经网络的特征学习能力,并考虑人体先验知识在不同时期的影响,构建自适应图卷积网络;最后,将自适应图卷积网络作为基本框架,并嵌入时空注意力模块,与关节信息、骨骼信息以及各自的运动信息构建双流融合模型。该算法在NTU RGB+D数据集的两种评价标准下分别达到了90.2%和96.2%的准确率,在大规模的数据集Kinetics上体现出模型的通用性,验证了该算法在提取时空特征和捕捉全局上下文信息上的优越性。   相似文献   

4.
3维卷积神经网络(3D CNN)与双流卷积神经网络(two-stream CNN)是视频中人体行为识别研究的常用架构,且各有优势。该文旨在研究结合两种架构且复杂度低、识别精度高的人体行为识别模型。具体地,该文提出基于通道剪枝的双流-非局部时空残差卷积神经网络(TPNLST-ResCNN),该网络采用双流架构,分别在时间流子网络和空间流子网络采用时空残差卷积神经网络(ST-ResCNN),并采用均值融合算法融合两个子网络的识别结果。进一步地,为了降低网络的复杂度,该文提出了针对时空残差卷积神经网络的通道剪枝方案,在实现模型压缩的同时,可基本保持模型的识别精度;为了使得压缩后网络能更好地学习到输入视频中人体行为变化的长距离时空依赖关系,提高网络的识别精度,该文提出在剪枝后网络的首个残差型时空卷积块前引入一个非局部模块。实验结果表明,该文提出的人体行为识别模型在公共数据集UCF101和HMDB51上的识别准确率分别为98.33%和74.63%。与现有方法相比,该文模型具有参数量小、识别精度高的优点。  相似文献   

5.
王军  鹿姝  李云伟 《信号处理》2020,36(9):1429-1439
连续手语识别的难点之一是手语数据中存在时空维度的冗余信息,以及手语数据与给定标签序列的对齐问题。因此,本文提出一种融合注意力机制和连接时序分类的连续手语识别模型,可以提取手语数据中彩色和深度视频片段的短期时空特征以及手部运动轨迹特征,将三种模态的特征融合后使用空间注意力加权并按照时间顺序输入到双向长短期记忆网络中进行时序建模,以获取长期时空特征,最后利用融合注意力机制和连接时序分类模型的解码网络以端到端的方式实现连续手语的准确识别。本模型在自行采集的中国手语数据集上进行测试,得到了高达0.935的准确率。   相似文献   

6.
当下基于深度学习的手语识别方法很多是参照了行为识别的方法,这种方法对整个视频进行特征提取,只关注了视频的全局信息而忽略了手语局部手势特征的学习,而基于传统算法的手语识别需要复杂的人工设计特征过程.为了加强对手语局部特征的学习,提取手部区域,将Mask R-CNN应用到手部区域检测任务中,通过在网络中融入跟踪模块,提升连...  相似文献   

7.
为高效提取视频时空特征以提高视频预测准确性,提出了注意力时空解耦3D卷积LSTM算法.首先,将卷积LSTM内部单元的传统2D卷积运算改为3D卷积,额外提取视频帧间短期空间运动信息;并借助注意力机制自动捕捉视频帧间长期动态信息的相关性.其次,由于卷积LSTM网络中特征信息在所有层的Z型传递方式会导致梯度消失,为此在网络结构中加入层间高速通道优化不同层间LSTM单元视频信息流的传递过程.同时,时间特征和空间特征在网络中会彼此干扰学习冗余功能,造成特征信息的低效获取以及网络预测质量的降低,为此在损失函数中加入时空解耦运算分离时间特征和空间特征的学习.最后,针对训练编码阶段和预测解码阶段的数据输入过程,提出数据输入重采样,在模型训练和预测阶段使用相近相反的数据输入策略减少编码器和解码器的差异.在合成数据集以及人体动作数据库上的实验结果表明,该算法模型在时空特征提取上有更好的性能.  相似文献   

8.
行为识别是计算机视觉领域的一个重要研究方向,已被广泛应用于视频监控、人群分析、人机交互、虚拟现实等领域.而时空建模是视频行为识别的一个重要部分,有效地进行时空建模可以极大地提高行为识别的精度.现有的先进算法采用3D CNN学习强大的时空表示,但在计算上是复杂的,这也使得相关部署昂贵;此外,改进的具有时间迁移操作的2D CNN算法也被用来进行时空建模,这种算法通过沿时间维度移动一部分特征通道用以进行高效的时序建模.然而,时间迁移操作不允许自适应地重新加权时空特征.以前的工作没有考虑将这两种方法结合利用起来,取长补短,以便更好地建模时空特征.本文提出了一个协作网络用以有效地结合3D CNN和2D卷积形式的时间迁移模块.特别是一个新的嵌入注意力机制的协同时空模块(Collaborative Spatial-temporal module,CSTM)被提出用以有效的学习时空特征.本文在与时序相关的数据集(Something-Something v1,v2,Jester)上验证了该算法的有效性,并且获得了竞争性的性能.  相似文献   

9.
文章针对形状复杂、边界模糊的脑肿瘤难以实现精确分割的问题,提出一种基于卷积注意力机制和Transformer多头注意力机制的U型分割网络。文章首先设计了基于通道注意力和空间注意力的卷积模块,提高了模块对局部关键特征的提取能力;其次使用一种结构更精简的Transformer模块作为网络的瓶颈层,利用其多头注意力机制对全局特征进行充分感知;最后在BraTS 2021数据集上进行了实验。实验结果表明文章算法在增强肿瘤区域、肿瘤核心区域和整个肿瘤区域的Dice系数评分分别为87.51%,90.69%和93.47%,可以有效提高脑肿瘤分割精度。  相似文献   

10.
现有的行为识别算法不能充分地提取抽象的行为特征,为此提出了基于三维残差卷积神经网络(3D Residual Convolutional Neural Network,R3D)的人体行为识别算法。该网络在三维卷积神经网络(3D Convolutional Neural Network,3D-CNN)基础上加入了残差模块,可以更好地提取时空域的特征,然后通过改变步长大小进行特征图降维,提高网络效率,并加入批量归一化层和Softplus激活函数,提高网络的收敛速度和拟合能力;之后添加Dropout层,降低过拟合风险,并且使用全局平均池化层(Global Average Pooling,GAP)代替全连接层,克服了网络参数量过大的问题;最后,使用Softmax进行分类。实验结果表明,使用R3D网络在HMDB-51数据集上获得了62.3%的识别率。  相似文献   

11.
在动作识别任务中,如何充分学习和利用视频的空间特征和时序特征的相关性,对最终识别结果尤为重要。针对传统动作识别方法忽略时空特征相关性及细小特征,导致识别精度下降的问题,本文提出了一种基于卷积门控循环单元(convolutional GRU, ConvGRU)和注意力特征融合(attentional feature fusion,AFF) 的人体动作识别方法。首先,使用Xception网络获取视频帧的空间特征提取网络,并引入时空激励(spatial-temporal excitation,STE) 模块和通道激励(channel excitation,CE) 模块,获取空间特征的同时加强时序动作的建模能力。此外,将传统的长短时记忆网络(long short term memory, LSTM)网络替换为ConvGRU网络,在提取时序特征的同时,利用卷积进一步挖掘视频帧的空间特征。最后,对输出分类器进行改进,引入基于改进的多尺度通道注意力的特征融合(MCAM-AFF)模块,加强对细小特征的识别能力,提升模型的准确率。实验结果表明:在UCF101数据集和HMDB51数据集上分别达到了95.66%和69.82%的识别准确率。该算法获取了更加完整的时空特征,与当前主流模型相比更具优越性。  相似文献   

12.
Currently, video-based Sign language recognition (SLR) has been extensively studied using deep learning models such as convolutional neural networks (CNNs) and recurrent neural networks (RNNs). In addition, using multi view attention mechanism along with CNNs could be an appealing solution that can be considered in order to make the machine interpretation process immune to finger self-occlusions. The proposed multi stream CNN mixes spatial and motion modelled video sequences to create a low dimensional feature vector at multiple stages in the CNN pipeline. Hence, we solve the view invariance problem into a video classification problem using attention model CNNs. For superior network performance during training, the signs are learned through a motion attention network thus focusing on the parts that play a major role in generating a view based paired pooling using a trainable view pair pooling network (VPPN). The VPPN, pairs views to produce a maximally distributed discriminating features from all the views for an improved sign recognition. The results showed an increase in recognition accuracies on 2D video sign language datasets. Similar results were obtained on benchmark action datasets such as NTU RGB D, MuHAVi, WEIZMANN and NUMA as there is no multi view sign language dataset except ours.  相似文献   

13.
To solve the problem of low sign language recognition rate under the condition of small samples, a simple and effective static gesture recognition method based on an attention mechanism is proposed. The method proposed in this paper can enhance the features of both the details and the subject of the gesture image. The input of the proposed method depends on the intermediate feature map generated by the original network. Also, the proposed convolutional model is a lightweight general module, which can be seamlessly integrated into any CNN(Convolutional Neural Network) architecture and achieve significant performance gains with minimal overhead. Experiments on two different datasets show that the proposed method is effective and can improve the accuracy of sign language recognition of the benchmark model, making its performance better than the existing methods.  相似文献   

14.
针对红外视频缺少纹理细节特征以致在人体行为识别中难以兼顾计算复杂度与识别准确率的问题,提出一种基于全局双线性注意力的红外视频行为识别方法。为高效计算红外视频中的人体行为,设计基于两级检测网络的关节点提取模块来获得人体关节点信息,创新性地将所形成的关节点三维热图作为红外视频人体行为识别网络的输入特征;为了在轻量化计算的基础上进一步提升识别准确率,提出一种全局双线性注意力的三维卷积网络,从空间和通道两个维度提升注意力的建模能力,捕获全局结构信息。在InfAR和IITR-IAR数据集上的实验结果表明,该方法在红外视频行为识别中的有效性。  相似文献   

15.
16.
针对直接利用卷积自编码网络未考虑视频时间信息的问题,该文提出基于贝叶斯融合的时空流异常行为检测模型。空间流模型采用卷积自编码网络对视频单帧进行重构,时间流模型采用卷积长短期记忆(LSTM)编码-解码网络对短期光流序列进行重构。接着,分别计算空间流模型和时间流模型下每帧的重构误差,设计自适应阈值对重构误差图进行二值化,并基于贝叶斯准则对空间流和时间流下的重构误差进行融合,得到融合重构误差图,并在此基础上进行异常行为判断。实验结果表明,该算法在UCSD和Avenue视频库上的检测效果优于现有异常检测算法。  相似文献   

17.
遥感图像内容丰富,一般的深度模型提取遥感图像特征时容易受复杂背景干扰,对关键特征的提取效果不佳,并且难以表达图像的空间信息,该文提出一种基于多尺度池化和范数注意力机制的深度卷积神经网络,在通道层面与空间层面自适应地给显著特征加权.首先,在多尺度池化通道注意力模块中,结合空间金字塔池化的思想,对每个通道上的特征图进行不同...  相似文献   

18.
桑海峰  赵子裕  何大阔 《电子学报》2020,48(6):1052-1061
视频帧中复杂的环境背景、照明条件等与行为无关的视觉信息给行为空间特征带来了大量的冗余和噪声,一定程度上影响了行为识别的准确性.针对这一点,本文提出了一种循环区域关注单元以捕捉空间特征中与行为相关的区域视觉信息,并根据视频的时序特性又提出了循环区域关注模型.其次,本文又提出了一种能够突显整段行为视频序列中较为重要帧的视频帧关注模型,以减少异类行为视频序列间相似的前后关联给识别带来的干扰.最后,提出了一个能够端到端训练的网络模型:基于循环区域关注和视频帧关注的视频行为识别网络(Recurrent Region Attention and Video Frame Attention based video action recognition Network,RFANet).在两个视频行为识别基准UCF101数据集和HMDB51数据集上的实验表明,本文提出的端到端网络RFANet能够可靠地识别出视频中行为的所属类别.受双流结构启发,本文构建了双模态RFANet网络.在相同的训练环境下,双模态RFANet网络在两个数据集上达到了最优的性能.  相似文献   

19.
本文提出了一种基于多尺度特征残差学习卷积神经网络的视频超分辨率方法,考虑到视频帧间的时空相关性,所提的方法采用由双三次插值预处理后的连续五帧视频作为卷积神经网络的输入,经由网络重建中间帧作为输出,依次按顺序重建直至获得整个高分辨率视频。本文所提出的卷积神经网络主要由多尺度特征提取、残差学习、亚像素卷积层、残差连接(skip-connection)四大部分组成,通过对视频的多尺度特征的提取获得更丰富的不同尺度特征和残差学习达到较好地恢复高频信息的目的。本文采用峰值信噪比(PSNR)和结构相似性指数(SSIM)作为损失函数优化网络。实验结果表明,本方法在平均评价指标上较其他方法均有一定的提升(PSNR +3.151dB,SSIM +0.102),从主观评价上看可以有效地减少视频边缘模糊的现象。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号