首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
步态识别是根据人体的行走方式进行身份识别. 目前, 大多数步态识别方法通过浅层神经网络进行特征提取, 在室内步态数据集表现良好, 然而在近年新公布的室外步态数据集中性能表现不佳. 为了解决室外步态数据集带来的严峻挑战, 提出了一种基于视频残差神经网络的深度步态识别模型. 在特征提取阶段, 基于提出的视频残差块构建深层3D卷积神经网络(3D CNN), 提取整个步态序列的时空动力学特征; 然后, 引入时序池化和水平金字塔映射降低采样特征分辨率并提取局部步态特征; 使用联合损失函数驱动训练过程, 最后通过BNNeck平衡损失函数并调整特征空间. 实验分别在公开的室内 (CASIA-B)、室外(GREW、Gait3D)这3个步态数据集上进行. 实验结果表明, 该模型在室外步态数据集中的准确率以及收敛速度优于其他模型.  相似文献   

2.
为了克服单一神经网络模型提取表情特征困难,以及堆叠深层网络结构会造成训练过程复杂、参数冗余等问题,本文提出了一种引入注意力机制的轻量级CNN通道和卷积自编码器预训练通道的双通道模型.在轻量级CNN通道中以具有残差思想的深度可分离卷积结构进行深层次特征提取并且减少了模型参数量,还引入了通道域注意力机制使得该通道能够学习到...  相似文献   

3.
杨明羽  叶春明 《计算机工程》2021,47(12):278-284
针对现有美式手语(ASL)识别算法准确率低和模型训练时间长的问题,提出一种结合双向二维主成分分析(Bi-2DPCA)与卷积神经网络(CNN)并基于贝叶斯优化的识别算法。利用Bi-2DPCA算法对原始图像做数据降维处理,提取行、列方向的特征图,使用卷积神经网络对特征图进行训练分类,同时采用贝叶斯优化算法对模型超参数进行自动调参。在24分类ASL数据集上的实验结果表明,该算法的识别准确率达到99.15%,训练时间相比传统CNN算法减少90.3%。  相似文献   

4.
针对当前卷积神经网络(CNN)利用端层特征进行面部表情识别存在模型结构繁琐、训练参数过多、识别不够理想的问题,提出一种基于改进CNN与支持向量机(SVM)相结合的优化算法。首先,利用连续卷积的思想设计网络模型,以获取更多非线性激活;然后,采用自适应全局平均池化(GAP)层取代传统CNN中的全连接层,以减少网络参数量;最后,用SVM分类器代替传统Softmax函数实现表情识别,以提高模型泛化能力。实验结果表明,所提算法在Fer2013和CK+数据集上分别取得了73.4%和98.06%的识别准确率,与传统LeNet-5算法相比,在Fer2013数据集上提升了2.2个百分点,且该网络模型结构简单、参数量较少,具有良好的鲁棒性。  相似文献   

5.
塑料手机外壳出厂合格检测时, 使用传统的人工辨别外观缺陷, 费时费力. 利用深度学习的卷积神经网络模型训练一个分类器, 实现手机外壳外观出现的划痕缺陷自动化检测, 可以极大的提高工作效率. 实验首先建立基本的卷积神经网络模型, 训练模型获得识别基线, 再设计修改逐步提高检测准确率. 为了解决小数据集训练中的模型过拟合和提高检测精度, 综合使用了丢弃层、数据增强技术和批量标准化, 减少参数量, 并应用迁移学习等方法. 实验结果证明, 分类器模型能有效提升准确率, 在小数据集上达到非常好的划痕缺陷识别效果.  相似文献   

6.
许华杰  杨洋  李桂兰 《计算机科学》2021,48(10):220-225
材质识别旨在识别自然材质图像中的主要对象及其所属材料类别.针对材质图像数据集通常数据量少、人工标注局部纹理区域困难所导致的材质识别准确率低的问题,提出了一种基于注意力机制和深度卷积神经网络的材质识别方法,该方法的核心是材质识别深度卷积神经网络(MaterialNet).MaterialNet利用深度残差网络对图像进行特征提取,采用所提出的级联空洞空间金字塔池化的方式引入注意力机制,使网络可以通过端到端训练自适应地关注包含纹理特征的关键区域,从而有效识别材质的局部纹理特征.在FMD材质数据集上进行实验,结果表明,MaterialNet的总体识别准确率可达到82.3%,比当前主流的B-CNN和CNN+FV材质识别方法分别提高了7.2%和4.5%,对多种材质的识别准确率较高且具有参数量少、计算量小等优点.  相似文献   

7.
针对传统3D卷积神经网络(CNN)对医学和自然场景视频中的动作识别存在输入片段帧数少、正向推理速度慢、网络层数浅、参数量和计算量大的问题,基于2D深度卷积和1D卷积设计了局部时空深度分离卷积模块(LSDW)和时序卷积模块(TCM),进而提出了轻量级局部多片段网络MLNet.首先,MLNet的输入是视频中的多个局部片段,这些片段通过间隔采样得到;其次,将输入中的多个局部片段通过LSDW提取相应的时空特征;最后,通过TCM对LSDW输出特征在时序维度进行融合,得到视频动作的全局表示.实验结果表明,利用该方法在公开数据集UCF101和HX上测试,其识别精度分别达到了76%和94.23%,与时序3D卷积网络方法(T3D)相比,识别率分别至少提升了4.89和4.6个百分点,在拥有低的参数量和计算量的同时提高了识别精度和网络的正向推理速度.  相似文献   

8.
纪绪 《信息与电脑》2023,(12):169-171+183
文章针对计算机视觉领域的手写数字识别问题,介绍了神经网络原理、卷积神经网络(Convolutional Neural Networks,CNN)构成、TensorFlow框架等相关知识,并应用卷积神经网络在MNIST数据集上进行验证。实验结果表明,基于卷积神经网络识别手写数字具有较高的准确性。  相似文献   

9.
现有卷积神经网络模型剪枝方法仅依靠自身参数信息难以准确评估参数重要性,容易造成参数误剪且影响网络模型整体性能。提出一种改进的卷积神经网络模型剪枝方法,通过对卷积神经网络模型进行稀疏正则化训练,得到参数较稀疏的深度卷积神经网络模型,并结合卷积层和BN层的稀疏性进行结构化剪枝去除冗余滤波器。在CIFAR-10、CIFAR-100和SVHN数据集上的实验结果表明,该方法能有效压缩网络模型规模并降低计算复杂度,尤其在SVHN数据集上,压缩后的VGG-16网络模型在参数量和浮点运算量分别减少97.3%和91.2%的情况下,图像分类准确率仅损失了0.57个百分点。  相似文献   

10.
在深度学习中,随着卷积神经网络(CNN)的深度不断增加,进行神经网络训练所需的数据会越来越多,但基因结构变异在大规模基因数据中属于小样本事件,导致变异基因的图像数据十分匮乏,严重影响了CNN的训练效果,造成了基因结构变异检测精度差、假阳性率高等问题.为增加基因结构变异样本数量,提高CNN识别基因结构变异的精度,提出了一...  相似文献   

11.
步态是一种能够在远距离、非侵犯的条件下识别身份的生物特征,但在实际场景中,步态很容易受到拍摄视角、行走环境、物体遮挡、着装等因素的影响.在跨视角识别问题上,现有方法只注重将多种视角的步态模板转化到固定视角下,且视角跨度的增大加深了错误的累积.为了提取有效的步态特征用于跨视角步态识别,本文提出了一种基于生成对抗网络的跨视角步态特征提取方法,该方法只需训练一个模型即可将步态模板转换到任意视角下的正常行走状态,并最大化地保留原本的身份特征信息,从而提高步态识别的准确率.在CASIA-B和OUMVLP数据集上的实验结果表明,该方法在解决跨视角步态识别问题上具有一定的鲁棒性和可行性.  相似文献   

12.
Hand Gesture Recognition (HGR) is a promising research area with an extensive range of applications, such as surgery, video game techniques, and sign language translation, where sign language is a complicated structured form of hand gestures. The fundamental building blocks of structured expressions in sign language are the arrangement of the fingers, the orientation of the hand, and the hand’s position concerning the body. The importance of HGR has increased due to the increasing number of touchless applications and the rapid growth of the hearing-impaired population. Therefore, real-time HGR is one of the most effective interaction methods between computers and humans. Developing a user-free interface with good recognition performance should be the goal of real-time HGR systems. Nowadays, Convolutional Neural Network (CNN) shows great recognition rates for different image-level classification tasks. It is challenging to train deep CNN networks like VGG-16, VGG-19, Inception-v3, and Efficientnet-B0 from scratch because only some significant labeled image datasets are available for static hand gesture images. However, an efficient and robust hand gesture recognition system of sign language employing finetuned Inception-v3 and Efficientnet-Bo network is proposed to identify hand gestures using a comparative small HGR dataset. Experiments show that Inception-v3 achieved 90% accuracy and 0.93% precision, 0.91% recall, and 0.90% f1-score, respectively, while EfficientNet-B0 achieved 99% accuracy and 0.98%, 0.97%, 0.98%, precision, recall, and f1-score respectively.  相似文献   

13.
为了解决行人步态数据集样本量较少、单特征或多特征融合的步态识别算法特征描述不足的问题,提出了一种基于多尺度特征深度迁移学习的行人步态识别方法。该算法步骤包括:改进VGG-16网络,去除网络中最后一个最大池化层(Maxpool Layer),融合空间金字塔池化网络结构(SPP)获取行人步态能量图(GEI)的多尺度信息,利用Imagenet数据集预训练此网络模型,将提取特征能力迁移至行人步态识别网络模型中,采用行人步态样本集微调网络,修改网络中的全连接层参数,应用于行人步态识别研究。该方法在中科院自动化研究所的CASIA-B步态数据集上的识别精度达到了95.7%,与单一步态特征的步态识别方法以及融合多种步态特征的识别方法相比,步态识别率有了明显提升,表明该方法有更好的识别性能。  相似文献   

14.
为了解决在面部表情特征提取过程中卷积神经网络CNN和局部二值模式LBP只能提取面部表情图像的单一特征,难以提取与面部变化高度相关的精确特征的问题,提出了一种基于深度学习的特征融合的表情识别方法。该方法将LBP特征和CNN卷积层提取的特征通过加权的方式结合在改进的VGG-16网络连接层中,最后将融合特征送入Softmax分类器获取各类特征的概率,完成基本的6种表情分类。实验结果表明,所提方法在CK+和JAFFE数据集上的平均识别准确率分别达到了97.5%和97.62%,利用融合特征得到的识别结果明显优于利用单一特征识别的效果。与其他方法相比较,该方法能有效提高表情识别准确率,对光照变化更加鲁棒。  相似文献   

15.
精准识别作物害虫对作物进行适时地防护和治理具有重要意义. 在面向自然环境时, 由于作物害虫体积小、与环境颜色的差异性不大, 同时又面临着各种噪声和复杂背景等因素的影响, 目前与深度学习相关的作物害虫识别模型存在难以兼顾识别准确率和鲁棒性的要求, 难以部署在计算资源有限和低性能的移动端等缺陷. 因此选取ShuffleNetV2网络结构中模型参数最少的ShuffleNetV2 0.5×为基准网络, 设计了一个基于高阶残差和注意力机制的轻量型作物害虫识别模型(HOR-Shuffle-CANet). 其中, 前期的高阶残差可以为后面的网络层提供丰富的害虫特征, 有效提高模型的识别准确率; 坐标注意力(coordinate attention, CA)机制能够进一步抑制背景噪声和对作物害虫重点信息的关注, 有效增强模型的鲁棒性; 带标签平滑正则化(label smoothing regularization, LSR)的双稳态逻辑损失函数可以解决训练含噪数据集时逻辑损失函数的两个缺点, 使得模型对噪声的适应能力更强. 试验结果表明, HOR-Shuffle-CANet模型在自然场景中10类常见作物害虫图像的测试数据集上达到了91.22%的识别准确率, 较基准网络提升了3.54个百分点. 在保持轻量化计算的基础上, 其识别准确率也高于现有的经典卷积神经网络AlexNet、VGG-16、GoogLeNet、Xception、ResNet-34和轻量级网络模型MobileNetV3-Small、EfficientNet-B0等. 该模型具有识别准确率高、鲁棒性强和抗干扰性能好等特点, 能够很好地适应作物害虫识别的实际应用需求.  相似文献   

16.
巩杰  赵烁  何虎  邓宁 《计算机工程》2022,48(3):170-174+196
深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。  相似文献   

17.
农作物叶片病害的自动识别是计算机视觉技术在农业领域的一个重要应用. 近年来, 深度学习在农作物叶片病害识别上取得了一些进展, 但这些方法都是采用基于单一深度卷积神经网络模型的深度特征表示. 而不同的深度卷积神经网络模型对图像的表征能力的互补性这一有用的特性, 还没有得到关注和研究. 本文提出一种用于融合不同深度特征的网络模型MDFF-Net. MDFF-Net将两个预训练的深度卷积神经网络模型进行并联, 再为各个模型分别设置一个具有相同神经元个数的全连接层, 以将不同模型输出的深度特征变换成相同维度的特征, 再通过2个全连接层的非线性变换, 进一步提升特征融合的效果. 我们选取VGG-16和ResNet-50作为MDFF-Net网络的并联骨干网络, 在一个包含5种苹果叶片病害的公开数据集上进行实验. 实验结果显示, MDFF-Net网络的识别精度为96.59%, 取得了比VGG-16和ResNet-50单一网络更好的识别效果, 证明了该深度特征融合方法的有效性.  相似文献   

18.
Jiang  Guanghao  Jiang  Xiaoyan  Fang  Zhijun  Chen  Shanshan 《Applied Intelligence》2021,51(10):7043-7057

Due to illumination changes, varying postures, and occlusion, accurately recognizing actions in videos is still a challenging task. A three-dimensional convolutional neural network (3D CNN), which can simultaneously extract spatio-temporal features from sequences, is one of the mainstream models for action recognition. However, most of the existing 3D CNN models ignore the importance of individual frames and spatial regions when recognizing actions. To address this problem, we propose an efficient attention module (EAM) that contains two sub-modules, that is, a spatial efficient attention module (EAM-S) and a temporal efficient attention module (EAM-T). Specifically, without dimensionality reduction, EAM-S concentrates on mining category-based correlation by local cross-channel interaction and assigns high weights to important image regions, while EAM-T estimates the importance score of different frames by cross-frame interaction between each frame and its neighbors. The proposed EAM module is lightweight yet effective, and it can be easily embedded into 3D CNN-based action recognition models. Extensive experiments on the challenging HMDB-51 and UCF-101 datasets showed that our proposed module achieves state-of-the-art performance and can significantly improve the recognition accuracy of 3D CNN-based action recognition methods.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号