首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
传统的2D卷积神经网络在进行视频识别时容易丢失目标在时间维度上的相关特征信息,导致识别准确率降低。针对该问题,本文采用3D卷积网络作为基本的网络框架,使用3D卷积核进行卷积操作提取视频中的时空特征,同时集成多个3D卷积神经网络模型对动态手势进行识别。为了提高模型的收敛速度和训练的稳定性,运用批量归一化(BN)技术优化网络,使优化后的网络训练时间缩短。实验结果表明,本文方法对于动态手势的识别具有较好的识别结果,在Sheffield Kinect Gesture (SKIG)数据集上识别准确率达到98.06%。与单独使用RGB信息、深度信息以及传统2D CNN相比,手势识别率均有所提高,验证了本文方法的可行性和有效性。  相似文献   

2.
针对复杂环境中动态手势识别精度低且鲁棒性不强的问题,提出一种基于多模态融合的动态手势识别算法TF-MG。TF-MG结合深度信息和三维手部骨架信息,利用2种不同网络分别提取对应特征信息,然后将提取的特征融合输入分类网络,实现动态手势识别。针对深度信息运用运动历史图像方法,将运动轨迹压缩到单帧图像,使用MobileNetV2提取特征。针对三维手部骨架信息采用门控循环神经单元组成的DeepGRU对手部骨架信息进行特征提取。实验结果表明,在DHG-14/28数据集上,对14类手势识别精度达到93.29%,对28类手势识别精度达到92.25%。相对其他对比算法实现了更高的识别精度。  相似文献   

3.
近年来,利用计算机技术实现基于多模态数据的情绪识别成为自然人机交互和人工智能领域重要 的研究方向之一。利用视觉模态信息的情绪识别工作通常都将重点放在脸部特征上,很少考虑动作特征以及融合 动作特征的多模态特征。虽然动作与情绪之间有着紧密的联系,但是从视觉模态中提取有效的动作信息用于情绪 识别的难度较大。以动作与情绪的关系作为出发点,在经典的 MELD 多模态情绪识别数据集中引入视觉模态的 动作数据,采用 ST-GCN 网络模型提取肢体动作特征,并利用该特征实现基于 LSTM 网络模型的单模态情绪识别。 进一步在 MELD 数据集文本特征和音频特征的基础上引入肢体动作特征,提升了基于 LSTM 网络融合模型的多 模态情绪识别准确率,并且结合文本特征和肢体动作特征提升了上下文记忆模型的文本单模态情绪识别准确率, 实验显示虽然肢体动作特征用于单模态情绪识别的准确度无法超越传统的文本特征和音频特征,但是该特征对于 多模态情绪识别具有重要作用。基于单模态和多模态特征的情绪识别实验验证了人体动作中含有情绪信息,利用 肢体动作特征实现多模态情绪识别具有重要的发展潜力。  相似文献   

4.
在人机交互领域中,大多数手势识别算法无法有效地消除采集背景对待提取手势区域的影响。与此同时,对手势运动信息的准确建模也存在困难。针对目前人机交互中的上述问题,提出利用深度可分离残差卷积长短期记忆(LSTM)网络的方法对动态手势的特征信息进行建模和识别。首先,利用常规3D卷积操作对输入的视频帧进行特征的初步提取,通过较大的卷积核尺寸以扩大其感受野;然后,通过可分离卷积残差操作对输入的浅层特征进行特征的再提取,实现对高维特征的提取建模;最后,将经过前两个阶段提取出的特征信息经过3D池化操作后输入到LSTM网络中,对输入的视频数据的时序信息进行建模,并在输入中引入注意力机制。在大规模孤立手势数据集上进行的相关实验结果表明,所提方法的准确率与原始的围绕稀疏关键点的混合特征(MFSK)+视觉词袋(BoVW)+支持向量机(SVM)网络相比提高了21.02个百分点。  相似文献   

5.
在人机交互领域中,大多数手势识别算法无法有效地消除采集背景对待提取手势区域的影响。与此同时,对手势运动信息的准确建模也存在困难。针对目前人机交互中的上述问题,提出利用深度可分离残差卷积长短期记忆(LSTM)网络的方法对动态手势的特征信息进行建模和识别。首先,利用常规3D卷积操作对输入的视频帧进行特征的初步提取,通过较大的卷积核尺寸以扩大其感受野;然后,通过可分离卷积残差操作对输入的浅层特征进行特征的再提取,实现对高维特征的提取建模;最后,将经过前两个阶段提取出的特征信息经过3D池化操作后输入到LSTM网络中,对输入的视频数据的时序信息进行建模,并在输入中引入注意力机制。在大规模孤立手势数据集上进行的相关实验结果表明,所提方法的准确率与原始的围绕稀疏关键点的混合特征(MFSK)+视觉词袋(BoVW)+支持向量机(SVM)网络相比提高了21.02个百分点。  相似文献   

6.
基于表面肌电信号(sEMG)的手势识别在人机交互中发挥着重要作用,然而,由于sEMG具有非线性和随机性,因此提升基于稀疏多通道sEMG的手势识别准确率难度较高。提出一种融合注意力机制的多视图卷积手势识别模型。首先使用200 ms滑动窗口提取经典的sEMG特征集构建多视图输入,其次利用高效通道注意力对多视图特征在通道维度进行加权,以强化有效特征同时弱化无效特征,最后通过多视图卷积从带有注意力权重的肌电特征中提取高层特征,利用高层特征融合模块对其进行融合以降低数据维度并提高模型鲁棒性。在NinaPro DB1、NinaPro DB5、NinaPro DB7 3个肌电公共数据集上进行训练和评估,结果表明,该模型在200 ms滑动采样窗口上的平均识别准确率分别为87.98%、94.97%和89.67%,整段手势动作的平均投票准确率分别为97.38%、98.41%和97.09%,平均信息传输率为1 308.71 bit/min。与传统机器学习方法和近年来前沿的深度学习手势识别方法相比,所提模型在单模态肌电和多模态手势识别上均具有更高的识别准确率,验证了其有效性和通用性。  相似文献   

7.
针对现有的动态手势识别方法对长时间序列的时空特征难以精确匹配的问题,提出了一种基于宽残差和双向长短时记忆网络的时空特征一致手势识别方法。首先使用已经训练好的3D卷积神经网络从视频的空间和时间维度同步提取出短时特征,再经双向空间长短时记忆网络同步解析后形成长时空特征连接单元,并作为残差网络的输入。为了验证算法的有效性,使用Kinect传感器构建了一个全新的多模式手势数据集,在三个手势识别公开数据集SLVM、Montalbano和SKIG上的实验表明,提出的方法有很好的性能表现,识别精度超越了目前已公开的最佳识别率。  相似文献   

8.
针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1%和66.1%的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高.  相似文献   

9.
为了增强能见度深度学习模型在小样本条件下的准确率和鲁棒性,提出一种基于可见光-远红外图像的多模态能见度深度学习方法.首先,利用图像配准获取视野范围与分辨率均相同的可见光-远红外输入图像对;然后,构造三分支并行结构的多模态特征融合网络;分别在可见光图像、远红外图像及其累加特征图中提取不同性质的大气特征,各分支的特征信息通过网络结构实现模态互补与融合;最后在网络末端输出图像场景所对应的能见度的等级.采用双目摄像机收集不同天气情况下的室外真实可见光-远红外图像作为实验数据,在不同性能指标、多角度下的实验结果表明,与传统单模态能见度深度学习模型相比,多模态能见度模型可显著提高小样本条件下能见度检测的准确率和鲁棒性.  相似文献   

10.
目的 在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多。但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少。为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion, ZSAR-MF)框架。方法 本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成。具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network, CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估。结果 本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4 %左右。结论 本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率。  相似文献   

11.
针对基于深度学习的动态手势识别方法网络规模庞大、提取的时空特征尺度单一、有效特征的提取能力不足等问题,提出了一种深度网络框架。首先,使用时域多尺度信息融合的时空卷积模块改进3D残差网络结构,大幅度缩小网络规模,获得多种尺度的时空感受野特征;其次,引入一种全局信息同步的时空特征通道注意力机制,使用极少量参数构建特征图通道之间的全局依赖关系,使模型更加高效地获取动态手势的关键特征。在自建手势数据集SHC和公开手势数据集SKIG上的实验结果显示,提出的手势识别方法参数量更少且多尺度时空特征提取能力强,识别率高于目前的主流算法。  相似文献   

12.
为解决卷积神经网络提取特征遗漏、手势多特征提取不充分问题, 本文提出基于残差双注意力与跨级特征融合模块的静态手势识别方法. 设计了一种残差双注意力模块, 该模块对ResNet50网络提取的低层特征进行增强, 能够有效学习关键信息并更新权重, 提高对高层特征的注意力, 然后由跨级特征融合模块对不同阶段的高低层特征进行融合, 丰富高级特征图中不同层级之间的语义和位置信息, 最后使用全连接层的Softmax分类器对手势图像进行分类识别. 本文在ASL美国手语数据集上进行实验, 平均准确率为99.68%, 相比基础ResNet50网络准确率提升2.52%. 结果验证本文方法能充分提取与复用手势特征, 有效提高手势图像的识别精度.  相似文献   

13.
手势识别旨在理解人体的动态手势,是人机交互领域极其重要的交互方式之一。该方法通过将二维稠密网扩展为三维稠密网,并加入Inception结构,提出了一种基于浅三维稠密网的多模态手势识别方法,将其命名为Spatial Temporal 3D(ST3D) dense network。所提出的方法在手势识别公开数据集大规模离散手势数据集(IsoGD)上进行了评估,并取得了目前最好效果。实验证明,所提方法能够有效地学习到视频样本中手势的短期、中期以及长期时空特征。  相似文献   

14.
针对已有卷积神经网络在手势识别过程中精度不高的问题,提出了一种双通道卷积神经网络的特征融合与动态衰减学习率相结合的复合型手势识别方法。通过两个相互独立的通道进行手势图像的特征提取,首先使用SENet(Squeeze-and-Excitation Networks)构成的第一通道提取全局特征,然后使用RBNet(Residual Block Networks)构成的第二通道提取局部特征,并将全局特征和局部特征进行通道维度上的融合。同时,利用动态衰减的学习率训练双通道网络模型。与其他卷积神经网络模型的对比实验结果表明,提出的复合型手势识别方法的手势识别率高,参数数量少,适用于不同手势图像数据集的识别。  相似文献   

15.
准确及时地手势识别在增强现实技术中具有重要的意义。针对表征复杂手势序列的时空特征,提出了一种基于异步多时域时空特征的手势识别方法。该方法通过轻量级三维卷积网络提取视频序列的不同时间步态的短期时空特征,通过改进的卷积长短期记忆网络学习长期时空特征,将不同步态的时空特征融合为异步多时域特征,以此来对手势进行分类识别。通过与其他主流方法进行比较,实验结果证明了提出的方法具有较高的动态手势识别率。  相似文献   

16.
17.
基于多模态融合的人体动作识别技术被广泛研究与应用,其中基于特征级或决策级的融合是在单一级别阶段下进行的,无法将真正的语义信息从数据映射到分类器。提出一种多级多模态融合的人体动作识别方法,使其更适应实际的应用场景。在输入端将深度数据转换为深度运动投影图,并将惯性数据转换成信号图像,通过局部三值模式分别对深度运动图和信号图像进行处理,使每个输入模态进一步转化为多模态。将所有的模态通过卷积神经网络训练进行提取特征,并把提取到的特征通过判别相关分析进行特征级融合。利用判别相关分析最大限度地提高两个特征集中对应特征的相关性,同时消除每个特征集中不同类之间的特征相关性,将融合后的特征作为多类支持向量机的输入进行人体动作识别。在UTD-MHAD和UTD Kinect V2 MHAD两个多模态数据集上的实验结果表明,多级多模态融合框架在两个数据集上的识别精度分别达到99.8%和99.9%,具有较高的识别准确率。  相似文献   

18.
针对人工提取特征的单一性及卷积神经网络提取特征的遗漏性问题,提出了一种基于多特征加权融合的静态手势识别方法.首先,提取分割后的手势图像的傅里叶和Hu矩等形状特征,将两者融合作为手势图像的局部特征;设计双通道卷积神经网络提取手势图像的深层次特征,采用主成分分析方法对提取的特征进行降维;然后,将提取的局部特征和深层次特征进行加权融合作为手势识别的有效特征描述;最后,使用Softmax分类器进行手势图像分类.实验结果验证了提出方法的有效性,在手势图像数据集上的识别准确率达到了99%以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号