首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
针对传统3D卷积神经网络(CNN)对医学和自然场景视频中的动作识别存在输入片段帧数少、正向推理速度慢、网络层数浅、参数量和计算量大的问题,基于2D深度卷积和1D卷积设计了局部时空深度分离卷积模块(LSDW)和时序卷积模块(TCM),进而提出了轻量级局部多片段网络MLNet.首先,MLNet的输入是视频中的多个局部片段,这些片段通过间隔采样得到;其次,将输入中的多个局部片段通过LSDW提取相应的时空特征;最后,通过TCM对LSDW输出特征在时序维度进行融合,得到视频动作的全局表示.实验结果表明,利用该方法在公开数据集UCF101和HX上测试,其识别精度分别达到了76%和94.23%,与时序3D卷积网络方法(T3D)相比,识别率分别至少提升了4.89和4.6个百分点,在拥有低的参数量和计算量的同时提高了识别精度和网络的正向推理速度.  相似文献   

2.
纪绪 《信息与电脑》2023,(12):169-171+183
文章针对计算机视觉领域的手写数字识别问题,介绍了神经网络原理、卷积神经网络(Convolutional Neural Networks,CNN)构成、TensorFlow框架等相关知识,并应用卷积神经网络在MNIST数据集上进行验证。实验结果表明,基于卷积神经网络识别手写数字具有较高的准确性。  相似文献   

3.
传统的2D卷积神经网络在进行视频识别时容易丢失目标在时间维度上的相关特征信息,导致识别准确率降低。针对该问题,本文采用3D卷积网络作为基本的网络框架,使用3D卷积核进行卷积操作提取视频中的时空特征,同时集成多个3D卷积神经网络模型对动态手势进行识别。为了提高模型的收敛速度和训练的稳定性,运用批量归一化(BN)技术优化网络,使优化后的网络训练时间缩短。实验结果表明,本文方法对于动态手势的识别具有较好的识别结果,在Sheffield Kinect Gesture (SKIG)数据集上识别准确率达到98.06%。与单独使用RGB信息、深度信息以及传统2D CNN相比,手势识别率均有所提高,验证了本文方法的可行性和有效性。  相似文献   

4.
视频动作识别是计算机视觉领域一个十分具有挑战性的课题,主要任务是利用深度学习等视频智能分析技术识别的深层信息推导出视频人体行为动作.通过结合双流卷积神经网络和三维卷积神经网络的结构特点,提出了一种面向时空特征融合的GSTIN(GoogLeNet based on spatio-temporal intergration network).GSTIN中设计了时空特征融合模块InBST(inception blend spatio-temporal feature),提升网络对空间特征与时间特征的利用能力;在时空特征融合模块InBST基础上,构建了适合动作识别的多流网络结构.GSTIN在动作识别数据集UCF101、HMDB51上识别精度分别达到了93.8%和70.6%,这表明GSTIN与其他动作识别网络相比具有较好的识别性能.  相似文献   

5.
视频行为识别是图像和视觉领域的一个基础问题,在基于深度学习的行为识别模型中,2D卷积方法模型参数较少,但是准确率不高;3D卷积方法在一定程度上提高了准确率,但会产生较多的参数和计算量。为了在保持准确率的前提下降低3D卷积神经网络行为识别模型的参数量,减少计算资源消耗,提出了时域零填充卷积网络行为识别算法,对视频进行3D卷积时不在时间维度上填充额外数据,以此来保证时域信息的完整性。为了充分利用有限的时间信息,设计了适合此填充方式的网络结构:先以时域不填充的方式使用3D卷积提取时空信息,然后利网络重组结构将3D卷积变为2D卷积来进一步提取特征。实验表明,该网络的参数量为10.385×106,不使用预训练权重的情况下在UCF101数据集上准确率为60.28%,与其他3D卷积网络行为识别方法相比在资源占用和准确率上都有明显优势。  相似文献   

6.
针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1%和66.1%的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高.  相似文献   

7.
为了实现对人脸表情的自动识别,笔者设计和开发了一款基于C3D卷积神经网络(Convolutional Neural Network,CNN)的人脸表情识别系统。首先,利用已有Cohn-Kanade数据集和CASMEⅡ数据集作为训练数据。其次,使用Keras和TensorFlow的深度学习框架搭建C3D CNN,创建数据集并进行训练,以得到人脸表情识别模型。最后,使用PyQt5设计和开发人脸表情识别系统。结果表明,该系统具有页面简洁明了、方便用户操作等特点,可为心理诊断等领域提供一定的判断依据。  相似文献   

8.
张瑞  李其申  储珺 《计算机工程》2019,45(1):259-263
由于人体动作的多样性、场景嘈杂、摄像机运动视角多变等特性,导致人体动作识别的难度增加。为此,基于3D卷积神经网络,提出一种新的人体动作识别算法。以连续的16帧视频为一组输入,采用视频图像的灰度、x方向梯度、y方向梯度、x方向光流、y方向光流做多通道处理,训练网络参数,经过5层3D卷积、5层3D池化增加提取特征中时间维度的动作信息,最终通过2层全连接与softmax分类器得到识别分类结果。在UCF101数据库上进行实验,结果表明,相比iDT、P-CNN、LRCN算法,该算法具有较高的识别准确率,且运行速度更快。  相似文献   

9.
为了提高人与机器人的语音交互能力,提出一个基于视频特征与音频特征融合的动作三元组分类的神经网络框架,其本质是从音视频中提取高度概括动作的指令组。该框架包含三个模块,分别是视频特征提取网络模块、音频特征提取网络模块、特征融合模块。视频特征提取网络模块使用I3D网络结构提取视频特征;音频特征提取网络模块使用卷积神经网络以及双向长短期记忆网络提取音频特征;特征融合模块将视频特征和音频特征进行融合并输出动作三元组的分类。通过在制作的动作音视频数据集上的实验证明,所提出的音视频特征融合网络能达到74.92%的准确率,且具有较强的鲁棒性。  相似文献   

10.
基于YOLO算法的计算机图像识别技术是电梯中智能视频监控的重要组成部分,采用CNN网络结构来实现检测,通过卷积神经网络提取图像信息,可以使得到的信息更准确而且算法简洁且识别目标速度快,对于人脸识别、非法目标识别、异常行为分析等功能也很完善,可以便于社区业务相关人员的安全管理.  相似文献   

11.
二维人脸识别受光照、遮挡和姿态的影响较大.为了克服二维人脸识别的缺点,本文提出了一种基于深度学习的多模态融合三维人脸识别算法.该方法首先使用卷积自编码器将彩色图像和深度图进行融合,将融合后的图像作为网络的输入进行预训练,并且设计了一种新的损失函数cluster loss,结合Softmax损失,预训练了一个精度非常高的模型.之后使用迁移学习将预训练的模型进行微调,得到了一个轻量级神经网络模型.将原始数据集进行一系列处理,使用处理之后的数据集作为测试集,测试的识别准确率为96.37%.实验证明,该方法弥补了二维人脸识别的一些缺点,受光照和遮挡的影响非常小,并且相对于使用高精度三维人脸图像的三维人脸识别,本文提出的算法速度快,并且鲁棒性高.  相似文献   

12.
人脸特征点定位是根据输入的人脸数据自动定位出预先按人脸生理特征定义的眼角、鼻尖、嘴角和脸部轮廓等面部关键特征点,在人脸识别和分析等系统中起着至关重要的作用。本文对基于深度学习的人脸特征点自动定位进行综述,阐释了人脸特征点自动定位的含义,归纳了目前常用的人脸公开数据集,系统阐述了针对2维和3维数据特征点的自动定位方法,总结了各方法的研究现状及其应用,分析了当前人脸特征点自动定位技术在深度学习应用中的现状、存在问题及发展趋势。在公开的2维和3维人脸数据集上对不同方法进行了比较。通过研究可以看出,基于深度学习的2维人脸特征点的自动定位方法研究相对比较深入,而3维人脸特征点定位方法的研究在模型表示、处理方法和样本数量上都存在挑战。未来基于深度学习的3维人脸特征点定位方法将成为研究趋势。  相似文献   

13.
在临床实践中, 精确评估疼痛对于疼痛管理和诊断至关重要. 但传统的评估方法主观性高且依赖医生经验, 迫切需要更可靠客观的替代方法. 利用深度学习的方法实现基于面部表情的疼痛检测研究近年已取得显著进展, 但复杂的结构和高计算成本制约了其实际应用. 因此, 本文提出了一个改进的3D卷积神经网络, 采用轻量级的3D卷积神经网络L3D作为骨干网络, 并结合改进的SE注意力机制, 把多个不同尺度的特征进行融合, 捕捉疼痛序列中具有较强辨别能力的时空特征. 在UNBC-McMaster和BioVid数据集上进行评估, 与最新方法相比, 该方法在疼痛检测性能以及计算复杂度上取得了优势.  相似文献   

14.
点云数据蕴含丰富的空间信息,可以通过激光雷达、3D传感器等设备大量采集,被广泛应用于自动驾驶、虚拟现实、城市规划和3D重建等领域。点云语义分割作为3D场景理解、识别和各种应用的基础而受到广泛关注。但不规则的点云数据无法直接作为传统卷积神经网络的输入,而图卷积神经网络可以利用图卷积算子直接对点云数据进行特征提取,使得图卷积神经网络已逐步成为点云语义分割领域的一个重要研究方向。基于此,对图卷积神经网络在3D点云语义分割应用中的研究进展进行综述,根据图卷积的类型对基于图卷积神经网络的点云语义分割方法进行分类,按照不同类别对比分析主流方法的模型架构及其特点,描述几个相关点云语义分割领域常用的公共数据集和评价指标,对点云语义分割方法进行总结和展望。  相似文献   

15.
目的 人脸姿态偏转是影响人脸识别准确率的一个重要因素,本文利用3维人脸重建中常用的3维形变模型以及深度卷积神经网络,提出一种用于多姿态人脸识别的人脸姿态矫正算法,在一定程度上提高了大姿态下人脸识别的准确率。方法 对传统的3维形变模型拟合方法进行改进,利用人脸形状参数和表情参数对3维形变模型进行建模,针对面部不同区域的关键点赋予不同的权值,加权拟合3维形变模型,使得具有不同姿态和面部表情的人脸图像拟合效果更好。然后,对3维人脸模型进行姿态矫正并利用深度学习对人脸图像进行修复,修复不规则的人脸空洞区域,并使用最新的局部卷积技术同时在新的数据集上重新训练卷积神经网络,使得网络参数达到最优。结果 在LFW(labeled faces in the wild)人脸数据库和StirlingESRC(Economic Social Research Council)3维人脸数据库上,将本文算法与其他方法进行比较,实验结果表明,本文算法的人脸识别精度有一定程度的提高。在LFW数据库上,通过对具有任意姿态的人脸图像进行姿态矫正和修复后,本文方法达到了96.57%的人脸识别精确度。在StirlingESRC数据库上,本文方法在人脸姿态为±22°的情况下,人脸识别准确率分别提高5.195%和2.265%;在人脸姿态为±45°情况下,人脸识别准确率分别提高5.875%和11.095%;平均人脸识别率分别提高5.53%和7.13%。对比实验结果表明,本文提出的人脸姿态矫正算法有效提高了人脸识别的准确率。结论 本文提出的人脸姿态矫正算法,综合了3维形变模型和深度学习模型的优点,在各个人脸姿态角度下,均能使人脸识别准确率在一定程度上有所提高。  相似文献   

16.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

17.
针对行人重识别研究中训练样本的不足,为提高识别精度及泛化能力,提出一种基于卷积神经网络的改进行人重识别方法。首先对训练数据集进行扩充,使用生成对抗网络无监督学习方法生成无标签图像;然后与原数据集联合作半监督卷积神经网络训练,通过构建一个Siamese网络,结合分类模型和验证模型的特点进行训练;最后加入无标签图像类别分布方法,计算交叉熵损失来进行相似度量。实验结果表明,在Market-1501、CUHK03和DukeMTMC-reID数据集上,该方法相比原有的Siamese方法在Rank-1和mAP等性能指标上有近3~5个百分点的提升。当样本较少时,该方法具有一定应用价值。  相似文献   

18.
医学影像的诊断是许多临床决策的基础,而医学影像的智能分析是医疗人工智能的重要组成部分。与此同时,随着越来越多3D空间传感器的兴起和普及,3D计算机视觉正变得越发重要。本文关注医学影像分析和3D计算机的交叉领域,即医学3D计算机视觉或医学3D视觉。本文将医学3D计算机视觉系统划分为任务、数据和表征3个层面,并结合最新文献呈现这3个层面的研究进展。在任务层面,介绍医学3D计算机视觉中的分类、分割、检测、配准和成像重建,以及这些任务在临床诊断和医学影像分析中的作用和特点。在数据层面,简要介绍了医学3D数据中最重要的数据模态:包括计算机断层成像(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)、正电子放射断层成像(positron emission tomography,PET)等,以及一些新兴研究提出的其他数据格式。在此基础上,整理了医学3D计算机视觉中重要的研究数据集,并标注其数据模态和主要视觉任务。在表征层面,介绍并讨论了2D网络、3D网络和混合网络在医学3D数据的表征学习上的优缺点。此外,针对医学影像中普遍存在的小数据问题,重点讨论了医学3D数据表征学习中的预训练问题。最后,总结了目前医学3D计算机视觉的研究现状,并指出目前尚待解决的研究挑战、问题和方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号