共查询到19条相似文献,搜索用时 109 毫秒
1.
针对深度卷积神经网络随着卷积层数增加而导致网络模型难以训练和性能退化等问题,提出了一种基于深度残差网络的人脸表情识别方法。该方法利用残差学习单元来改善深度卷积神经网络模型训练寻优的过程,减少模型收敛的时间开销。此外,为了提高网络模型的泛化能力,从KDEF和CK+两种表情数据集上选取表情图像样本组成混合数据集用以训练网络。在混合数据集上采用十折(10-fold)交叉验证方法进行了实验,比较了不同深度的带有残差学习单元的残差网络与不带残差学习单元的常规卷积神经网络的表情识别准确率。当采用74层的深度残差网络时,可以获得90.79%的平均识别准确率。实验结果表明采用残差学习单元构建的深度残差网络可以解决网络深度和模型收敛性之间的矛盾,并能提升表情识别的准确率。 相似文献
2.
3.
手写汉字识别是模式识别与机器学习的重要研究方向和应用领域;近年来,随着深度学习理论方法的完善、新技术的层出不穷,深度神经网络在图像识别分类、图像生成等典型应用中取得了突破性的进展,其中,深度残差网络作为最新的研究成果,已成功应用于手写数字识别、图片识别分类等多个领域;将研究深度残差网络在脱机孤立手写汉字识别中的应用方法,通过改进残差学习模块的单元结构,优化深度残差网络性能,同时通过对训练集的预处理,从数据层面实现训练生成模型性能的提升,最后设计实验,验证深度残差网络、End-to-End模式在脱机手写汉字识别中的可行性,分析、总结存在的问题及今后的研究方向。 相似文献
4.
提出了一种基于改进的深度残差网络(residual network,ResNet)的表情识别算法。采用小卷积核和深网络结构,利用残差模块学习残差映射解决了随着网络深度的增加网络精度下降问题,通过迁移学习方法克服了因数据量不足导致训练不充分的缺点;网络架构使用了线性支持向量机(SVM)进行分类。实验中首先利用ImageNet数据库进行网络参数预训练,使网络具有良好的提取特征能力,根据迁移学习方法,利用FER-2013数据库以及扩充后的CK+数据库进行参数微调和训练。该算法克服了浅层网络需要依靠手工特征,深层网络难以训练等问题,在CK+数据库以及GENKI-4K数据库上分别取得了91.333%和95.775%识别率。SVM在CK+数据库的分类效果较softmax提高了1%左右。 相似文献
5.
6.
为了提高表情识别率并降低表情识别的功耗,提出一种基于改进深度残差网络的表情识别方法。残差学习在解决深度卷积神经网络退化问题、使网络层次大幅加深的同时,进一步增加了网络的功耗。为此,引入具有生物真实性的激活函数来代替已有的整流线性单元(Rectified Linear Units,ReLU)函数, 并将其作为卷积层激活函数对深度残差网络进行改进。该方法不仅提高了残差网络的精度,而且训练出的网络权重可直接作为与该深度残差网络具有相同结构的深度脉冲神经网络的权重。将该深度脉冲神经网络部署在类脑硬件上时,其能够以较高的识别率和较低的能耗进行表情识别。 相似文献
7.
8.
为了提高行人检测方法的准确率,针对行人图像特征,提出一种基于深度残差网络和YOLO(You Only Look Once)方法的行人检测方法。以加强行人特征表达为目的,通过分析行人在图像中的表达和分布特征,提出一种不影响实时性的矩形输入深度残差网络分类模型以改进YOLO检测方法,使模型能够更好的表征行人;为了进一步提高模型的准确率和泛化能力,采用了混合行人数据集训练的方式,提取VOC数据集的行人数据与INRIA数据集组成混合数据集进行训练,明显降低了漏检率;并且利用聚类分析预测框的方法重新设计了初始预测框,提高行人定位能力并加快收敛。经公开的INRIA数据集的测试实验证明,本方法较主流的行人检测方法每张图片误检率有明显改善,降低至13.86%,有1.51%至58.62%不同程度的提升,并且本方法拥有良好的实时性和泛化能力,实用性强。 相似文献
9.
提出基于无阈值递归图和深度残差网络相结合的脑电信号情感识别方法.基于非线性动力学理论,将脑电信号转化为无阈值递归图,克服了传统递归图分析中阈值选取的问题,同时脑电信号非线性特征被映射到二维平面.通过深度残差网络实现特征图非线性特征的自动提取,建立情感脑电分类模型,实现了单导联脑电信号情感识别.为进一步提高识别精度,联合... 相似文献
10.
针对语音情感识别任务中说话者的差异性,计算谱特征的一阶差分、二阶差分组成三通道的特征集输入二维网络。结合卷积神经网络、双向长短时记忆网络以及注意力机制建立基线模型,引入深度残差收缩网络分配二维网络中的通道权重,进一步提高语音情感识别的精度。为提升模型的学习效果,采取特征层融合(特征向量并行和特征向量拼接两种方式)和决策层融合(平均得分和最大得分两种方式)等不同信息融合机制。结果表明:(1)特征层融合中的特征向量并行策略是更有效的方式;(2)本文提出模型在CASIA和EMO-DB数据库下分别取得了84.93%和86.83%的未加权平均召回率(Unweighted average recall, UAR),相较于基线模型,引入深度残差收缩网络后的模型在CASIA和EMO-DB数据库上的未加权召回率分别提高5.3%和6.2%。 相似文献
11.
12.
针对深度残差网络在小型移动设备的人脸识别应用中存在的网络结构复杂、时间开销大等问题,提出一种基于深度残差网络的轻量级模型。首先对深度残差网络的结构进行精简优化,并结合知识转移方法,从深度残差网络(教师网络)中重构出轻量级残差网络(学生网络),从而在保证精度的同时,降低网络的结构复杂度;然后在学生网络中通过分解标准卷积减少模型的参数,从而降低特征提取网络的时间复杂度。实验结果表明,在LFW、VGG-Face、AgeDB和CFP-FP等4个不同数据集上,所提模型在识别精度接近主流人脸识别方法的同时,单张推理时间达到16 ms,速度提升了10%~20%。可见,所提模型能够在推理速度得到有效提升的同时识别精度基本不下降。 相似文献
13.
对神经网络理论和神经网络分类器进行了研究,提出了基于BP神经网络分类器的交通标志识别模型。通过大量实验和比较,得到了识别效率高的模型,并将这一模型应用到所研究的交通标志识别系统,从而对系统作了初步的实现。 相似文献
14.
Tian WANG Jiakun LI Huai-Ning WU Ce LI Hichem SNOUSSI Yang WU 《Frontiers of Computer Science》2022,16(6):166334
Action recognition is an important research topic in video analysis that remains very challenging. Effective recognition relies on learning a good representation of both spatial information (for appearance) and temporal information (for motion). These two kinds of information are highly correlated but have quite different properties, leading to unsatisfying results of both connecting independent models (e.g., CNN-LSTM) and direct unbiased co-modeling (e.g., 3DCNN). Besides, a long-lasting tradition on this task with deep learning models is to just use 8 or 16 consecutive frames as input, making it hard to extract discriminative motion features. In this work, we propose a novel network structure called ResLNet (Deep Residual LSTM network), which can take longer inputs (e.g., of 64 frames) and have convolutions collaborate with LSTM more effectively under the residual structure to learn better spatial-temporal representations than ever without the cost of extra computations with the proposed embedded variable stride convolution. The superiority of this proposal and its ablation study are shown on the three most popular benchmark datasets: Kinetics, HMDB51, and UCF101. The proposed network could be adopted for various features, such as RGB and optical flow. Due to the limitation of the computation power of our experiment equipment and the real-time requirement, the proposed network is tested on the RGB only and shows great performance. 相似文献
15.
针对城市路网短时交通流预测受到许多复杂因素的影响,提出一种基于深度时空残差网络的路网短时交通流预测模型DST-Res Net(deep spatio-temporal residual network)。针对时空数据的两个独特属性邻近性和周期性分别设计相应的残差网络分支,通过为两个分支中相同的道路分配不同的权重动态聚合两个分支网络的输出,调整时空属性对不同路段交通流预测的影响程度,将两个残差网络的聚合结果与外部因素进行融合。通过选择RMSE和R2为模型的评价指标进行实验验证,该DST-ResNet模型相较主流的LSTM模型具有更高的有效性和可行性。 相似文献
16.
17.
针对现有深度知识追踪模型存在输入习题间复杂关系捕获能力弱、无法有效处理长序列输入数据等问题,提出了基于自注意力机制和双向GRU神经网络的深度知识追踪优化模型(KTSA-BiGRU)。首先,将学习者的历史学习交互序列数据映射为实值向量序列;其次,以实值向量序列作为输入训练双向GRU神经网络,利用双向GRU神经网络建模学习者的学习过程;最后,使用自注意力机制捕获练习题之间的关系,根据双向GRU神经网络输出的隐向量和注意力权重计算学习者正确回答下一问题的概率。实验在三个公共数据集上的性能分析优于现有的知识追踪模型,能提高深度知识追踪的预测精度。 相似文献
18.
19.
针对目前的视频播放速度识别算法大多存在的提取精度差、模型参数量巨大的问题,提出了一种双支轻量化视频播放速度识别网络。首先,该网络是基于SlowFast双支网络架构组建的一个三维(3D)卷积网络;其次,为了弥补S3D-G网络在视频播放速度识别任务中存在的参数量大、浮点运算数多的缺陷,进行了轻量化的网络结构调整;最后,在网络结构中引入了高效通道注意力(ECA)模块,以通过通道注意力模块生成重点关注的内容对应的通道范围,这有助于提高视频特征提取的准确性。在Kinetics-400数据集上将所提网络与S3D-G、SlowFast网络进行对比实验。实验结果表明,所提网络在精确度差不多的情况下,模型大小和模型参数均比SlowFast减少了大约96%,浮点运算数减少到5.36 GFLOPs,显著提高了运行速度。 相似文献