首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
目的 在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多。但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少。为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion, ZSAR-MF)框架。方法 本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成。具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network, CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估。结果 本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4 %左右。结论 本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率。  相似文献   

2.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性.  相似文献   

3.
提出了基于注意力机制的多模态人体行为识别算法;针对多模态特征的有效融合问题,设计基于注意力机制的双流特征融合卷积网络(TAM3DNet, two-stream attention mechanism 3D network);主干网络采用结合注意力机制的注意力3D网络(AM3DNet, attention mechanism 3D network),将特征图与注意力图进行加权后得到加权行为特征,从而使网络聚焦于肢体运动区域的特征,减弱背景和肢体静止区域的影响;将RGB-D数据的颜色和深度两种模态数据分别作为双流网络的输入,从两条分支网络得到彩色和深度行为特征,然后将融合特征进行分类得到人体行为识别结果。  相似文献   

4.
针对人员交互行为识别存在的多模态数据融合方法导致的识别准确率与模型性能无法同时满足的问题,提出一种基于改进时空图卷积网络的人员交互行为识别方法。将单模态骨架数据引入级联的密集时空图卷积块网络中获得丰富的时空特征信息,提高特征复用率;设计一种增强时空图卷积网络(EST-GCN)单元提高网络对关节点之间的信息表征能力;引入一种运动特征因子衡量肢体不同关节的重要程度,提高模型识别效果。在Kinetics数据集和办案区场景数据集上的实验结果表明,所提出方法在识别效果上具有一定优势,且该方法在模型复杂度及运行效率上具有很好的竞争力。  相似文献   

5.
掌纹图像蕴含丰富特征,容易与手背静脉、指节纹及手形特征进行多模态融合,因此成为生物特征识别领域的热点.文中主要从掌纹的采集、感兴趣区域的检测、特征提取与匹配3方面介绍掌纹识别的基本流程.探讨基于不同特征融合的多模态识别策略.根据特征提取方法的不同,掌纹识别算法可分为基于手工设计的算法(如编码特征、结构特征、统计特征、子空间特征)和基于特征学习的算法(如机器学习和深度学习),文中对上述算法进行详细对比和分析.最后讨论未来掌纹识别面临的挑战和发展,特别是复杂场景下跨平台的掌纹识别系统.  相似文献   

6.
针对现有的人体骨架动作识别方法对肢体信息挖掘不足以及时间特征提取不足的问题,提出了一种基于姿态校正模块与姿态融合模块的模型PTF-SGN,实现了对骨架图关键时空信息的充分利用。首先,对骨架图数据进行预处理,挖掘肢体和关节点的位移信息并提取特征;然后,姿态校正模块通过无监督学习的方式获取姿态调整因子,并对人体姿态进行自适应调整,增强了模型在不同环境下的鲁棒性;其次,提出一种基于时间注意力机制的姿态融合模块,学习骨架图中的短时刻特征与长时刻特征并融合长短时刻特征,加强了对时间特征的表征能力;最后,将骨架图的全局时空特征输入到分类网络中得到动作识别结果。在NTU60 RGB+D、NTU120 RGB+D两个3D骨架数据集和Penn-Action、HARPET两个2D骨架数据集上的实验结果表明,该模型能够有效地识别骨架时序数据的动作。  相似文献   

7.
针对现有的人体行为识别算法不能充分利用网络多层次时空信息的问题,提出了一种基于三维残差稠密网络的人体行为识别算法。首先,所提算法使用三维残差稠密块作为网络的基础模块,模块通过稠密连接的卷积层提取人体行为的层级特征;其次,经过局部特征聚合自适应方法来学习人体行为的局部稠密特征;然后,应用残差连接模块来促进特征信息流动以及减轻训练的难度;最后,通过级联多个三维残差稠密块实现网络多层局部特征提取,并使用全局特征聚合自适应方法学习所有网络层的特征用以实现人体行为识别。设计的网络算法在结构上增强了对网络多层次时空特征的提取,充分利用局部和全局特征聚合学习到更具辨识力的特征,增强了模型的表达能力。在基准数据集KTH和UCF-101上的大量实验结果表明,所提算法的识别率(top-1精度)分别达到了93.52%和57.35%,与三维卷积神经网络(C3D)算法相比分别提升了3.93和13.91个百分点。所提算法框架有较好的鲁棒性和迁移学习能力,能够有效地处理多种视频行为识别任务。  相似文献   

8.
针对室内场景图像语义分割结果不精确、显著图粗糙的问题,提出一种基于多模态特征优化提取和双路径引导解码的网络架构(feature regulator and dual-path guidance,FG-Net)。具体来说,设计的特征调节器对每个阶段的多模态特征依次进行噪声过滤、重加权表示、差异性互补和交互融合,通过强化RGB和深度特征聚合,优化特征提取过程中的多模态特征表示。然后,在解码阶段引入特征交互融合后丰富的跨模态线索,进一步发挥多模态特征的优势。结合双路径协同引导结构,在解码阶段融合多尺度、多层次的特征信息,从而输出更细致的显著图。实验在公开数据集NYUD-v2和SUN RGB-D上进行,在主要评价指标mIoU上达到48.5 %,优于其他先进算法。结果表明,该算法实现了更精细的室内场景图像语义分割,表现出了较好的泛化性和鲁棒性。  相似文献   

9.
针对视频理解中的时序难点以及传统方法计算量大的困难,提出了一种带有时空模块的方法用于动作识别.该方法采用残差网络作为框架,加入时空模块提取图像以及时序信息,并且加入RGB差值信息增强数据,采用NetVLAD方法聚合所有的特征信息,最后实现行为动作的分类.实验结果表明,基于时空模块的多模态方法具有较好的识别精度.  相似文献   

10.
现有的大多数步态识别方法是基于轮廓的步态识别方法,然而轮廓容易受到遮挡的影响,从而导致识别准确率下降。在现实的监控场景下,遮挡几乎是不可避免的,提高遮挡情况下的步态识别精度是算法能够“落地”于实际应用的前提。针对此问题,提出了结合轮廓与姿态的时空融合步态识别方法。利用姿态具有抵抗遮挡的能力,设计多模态空间特征融合模块,利用特征重用策略和模态融合策略以提高空间特征的信息容量;设计多尺度时间特征提取模块,利用独立分支提取不同时间尺度下的时间信息,提出一种基于注意力的特征融合策略以自适应地整合时间信息;设计空间特征集合分支,以深监督方式提高时空特征的表达能力。在公开数据集上的实验结果表明了所提方法的有效性,模型在遮挡情况下具有较好的鲁棒性。  相似文献   

11.
低光照图像分割一直是图像分割的难点,低光照引起的低对比度和高模糊性使得这类图像分割比一般图像分割困难很多。为了提高低光照环境下语义分割的准确度,根据低光照图像自身特征,提出一种噪声指导下过滤光照风格的低光照场景语义分割模型(SFIS)。该模型综合利用信噪比作为先验知识,通过指导长距离分支中的自注意力操作、长/短距离分支的特征融合,对图像中不同噪声的区域采用不同距离的交互。还进一步设计了一个光照过滤器,该模块从图像的整体风格中进一步提取光照风格信息。通过交替训练光照过滤器与语义分割模型,逐步减小不同光照条件之间的光照风格差距,从而使分割网络学习到光照不变特征。提出的模型在数据集LLRGBD上优于之前的工作,取得了较好的结果。在真实数据集LLRGBD-real上的mIoU达到66.8%,说明所提出的长短距离分支模块和光照过滤器模块能够有效提升模型在低光照环境下的语义分割能力。  相似文献   

12.
在低照度环境下拍摄到的视频往往有对比度低、噪点多、细节不清晰等问题, 严重影响后续的目标检测、分割等计算机视觉任务. 现有的低照度视频增强方法大都是基于卷积神经网络构建的, 由于卷积无法充分利用像素之间的长程依赖关系, 生成的视频往往会有部分区域细节丢失、颜色失真的问题. 针对上述问题, 提出了一种局部与全局相融合的孪生低照度视频增强网络模型, 通过基于可变形卷积的局部特征提取模块来获取视频帧的局部特征, 并且设计了一个轻量级自注意力模块来捕获视频帧的全局特征, 最后通过特征融合模块对提取到的局部特征和全局特征进行融合, 指导模型能生成颜色更真实、更具细节的增强视频. 实验结果表明, 本方法能有效提高低照度视频的亮度, 生成颜色和细节都更丰富的视频, 并且在峰值信噪比和结构相似性等评价指标中也都优于近几年提出的方法.  相似文献   

13.
针对低照度条件下获取的水上图像亮度和对比度低以及质量差的问题,提出一种基于局部生成对抗网络的图像增强方法.以残差网络作为基本框架设计生成器,通过加入金字塔扩张卷积模块提取与学习图像深层特征和多尺度空间特征,从而减少结构信息丢失.设计一个自编码器作为注意力网络,估计图像中的光照分布并指导图像不同亮度区域的自适应增强.构建...  相似文献   

14.
目的 现有的低照度图像增强算法常存在局部区域欠增强、过增强及色彩偏差等情况,且对于极低照度图像增强,伴随着噪声放大及细节信息丢失等问题。对此,提出了一种基于照度与场景纹理注意力图的低光图像增强算法。方法 首先,为了降低色彩偏差对注意力图估计模块的影响,对低光照图像进行了色彩均衡处理;其次,试图利用低照度图像最小通道约束图对正常曝光图像的照度和纹理进行注意力图估计,为后续增强模块提供信息引导;然后,设计全局与局部相结合的增强模块,用获取的照度和场景纹理注意力估计图引导图像亮度提升和噪声抑制,并将得到的全局增强结果划分成图像块进行局部优化,提升增强性能,有效避免了局部欠增强和过增强的问题。结果 将本文算法与2种传统方法和4种深度学习算法比较,主观视觉和客观指标均表明本文增强结果在亮度、对比度以及噪声抑制等方面取得了优异的性能。在VV(Vasileios Vonikakis)数据集上,本文方法的BTMQI(blind tone-mapped quality index)和NIQMC(no-reference image quality metric for contrast distortion)指标均达到最优值;在178幅普通低照度图像上本文算法的BTMQI和NIQMC均取得次优值,但纹理突出和噪声抑制优势显著。结论 大量定性及定量的实验结果表明,本文方法能有效提升图像亮度和对比度,且在突出暗区纹理时,能有效抑制噪声。本文方法用于极低照度图像时,在色彩还原、细节纹理恢复和噪声抑制方面均具有明显优势。代码已共享在Github上:https://github.com/shuanglidu/LLIE_CEIST.git。  相似文献   

15.
针对动态复杂场景下的操作动作识别,提出一种基于手势特征融合的动作识别框架,该框架主要包含RGB视频特征提取模块、手势特征提取模块与动作分类模块。其中RGB视频特征提取模块主要使用I3D网络提取RGB视频的时间和空间特征;手势特征提取模块利用Mask R-CNN网络提取操作者手势特征;动作分类模块融合上述特征,并输入到分类器中进行分类。在EPIC-Kitchens数据集上,提出的方法识别抓取手势的准确性高达89.63%,识别综合动作的准确度达到了74.67%。  相似文献   

16.
夏鼎  王亚立  乔宇 《集成技术》2021,10(5):23-33
现有人体行为识别算法主要依赖于粗粒度的视频特征,但这些特征不足以有效描述人体行为的动作构成,从而降低了深度学习模型对易混淆行为的识别能力.该研究提出了一种基于人体部件的视频行为识别方法,通过学习人体细粒度部件的动作表示,自底向上地学习人体行为视频表征.该方法主要包含:(1)部件特征增强模块,用于增强基于图像的人体部件特...  相似文献   

17.
目的 微光图像存在低对比度、噪声伪影和颜色失真等退化问题,造成图像的视觉感受质量较差,同时也导致后续图像识别、分类和检测等任务的精度降低。针对以上问题,提出一种融合注意力机制和上下文信息的微光图像增强方法。方法 为提高运算精度,以U型结构网络为基础构建了一种端到端的微光图像增强网络框架,主要由注意力机制编/解码模块、跨尺度上下文模块和融合模块等组成。由混合注意力块(包括空间注意力和通道注意力)引导主干网络学习,其空间注意力模块用于计算空间位置的权重以学习不同区域的噪声特征,而通道注意力模块根据不同通道的颜色信息计算通道权重,以提升网络的颜色信息重建能力。此外,跨尺度上下文模块用于聚合各阶段网络中的深层和浅层特征,借助融合机制来提高网络的亮度和颜色增强效果。结果 本文方法与现有主流方法进行定量和定性对比实验,结果显示本文方法显著提升了微光图像亮度,并且较好保持了图像颜色一致性,原微光图像较暗区域的噪点显著去除,重建图像的纹理细节清晰。在峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity,SSIM)和图像感知...  相似文献   

18.
江泽涛  覃露露  秦嘉奇  张少钦 《软件学报》2021,32(12):3977-3991
由于低照度环境下所采集的图像存在亮度低、对比度差、出现噪声和色彩失衡等低质问题,严重影响其在图像处理应用中的性能.为了提升低照度图像质量,以获得具有完整结构和细节且自然清晰的图像,结合Retinex理论与卷积神经网络,提出了一种基于MDARNet的低照度图像增强方法,并引入Attention机制模块和密集卷积模块以提升性能.首先,MDARNet利用同时包含二维和一维的3个不同尺度卷积核对图像进行初步特征提取,并用像素注意模块对多尺度特征图进行针对性学习;其次,设计跳跃连接结构对图像进行特征提取,使图像特征被最大限度地利用;最后,用通道注意模块和像素注意模块同时对提取到的特征图进行权重学习和照度估计.实验结果表明:MDARNet能够有效提升低照度图像的亮度、对比度、色彩等;且相较于一些经典算法,该方法在视觉效果及客观评价指标(PSNR,SSIM,MS-SSIM,MSE)能够得到更好的效果.  相似文献   

19.
低照度是夜晚拍摄时常见的一种现象,不充分的光照会使图像细节损失严重,降低图像视觉质量。针对现有低照度图像增强方法对不同尺度特征的感知和表达能力存在不足的问题,提出一种基于U-Net的多尺度低照度图像增强网络(MSU-LIIEN)。采用特征金字塔作为基本处理框架,实现对低照度图像的特征提取。在特征金字塔构建的3个分支结构中均使用U-Net作为骨干网,对提取到的浅层图像特征进行编码与解码操作,同时引入结构细节残差融合块以增强网络模型提取和表征低照度图像特征信息的能力。在此基础上,对提取到的特征信息逐层融合,恢复正常光照图像。实验结果表明,MSU-LIIEN在LOL-datasets和Brighting Train数据集中相比于性能排名第二的KinD模型,平均峰值信噪比分别提高16.21%和46.67%,且在主观视野感受和客观评价指标方面均优于所有对比的经典模型,不但能有效提升低照度图像的整体亮度,而且能很好地保持图像中的细节信息和清晰的物体边缘轮廓,使增强后的图像整体画面真实自然。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号