首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 609 毫秒
1.
为了解决复杂课堂场景下学生表情识别的遮挡的问题,同时发挥深度学习在智能教学评估应用上的优势,提出了一种基于深度注意力网络的课堂教学视频中学生表情识别模型与智能教学评估算法。构建了课堂教学视频库、表情库和行为库,利用裁剪和遮挡策略生成多路人脸图像,在此基础上构建了多路深度注意力网络,并通过自注意力机制为多路网络分配不同权重。通过约束损失函数限制各路权重的分配,将人脸图像的全局特征表示为每个支路的特征乘上注意力权重的和除以所有支路的注意力权重之和,并基于学习到的人脸全局特征进行学生课堂表情分类,实现遮挡情况下学生人脸表情识别。提出了融合课堂学生表情和行为状态的智能教学评估算法,实现了课堂教学视频中学生表情识别与智能教学评估。在公开数据集FERplus与自建课堂教学视频数据集上进行实验对比与分析,验证了提出的课堂教学视频中学生表情识别模型能够达到87.34%的准确率,且提出的融合课堂学生表情和行为状态的智能教学评估算法在课堂教学视频数据集上也取得优秀的性能。  相似文献   

2.
人脸的表情变化非常细微,通常表现在图像中某些局部点区域的改变,现有的人脸表情识别方法难以捕捉到表情的细微变化,对非表情区域干扰不具有鲁棒性。为了获得描述人脸表情变化的高效特征表示,提出了一种融合关键点属性与注意力表征的人脸表情识别方法。通过添加通道注意力和空间注意力的神经网络提取人脸图像中的关键点信息,实现不同维度和位置的权重分配,有效避免非表情区域的干扰,捕获图像中局部关键点的特征表征。引入Transformer模块学习不同关键点之间的相关联系,引导网络构建对表情类型更具分辨力的特征表示,从而实现精准识别。通过在CK+、JAFFE、FER2013三种公开数据集上进行实验的结果表明:提出算法的识别准确率分别达到了99.22%、96.57%、73.37%。  相似文献   

3.
为了识别人脸表情中包含复杂背景、面部遮挡等因素的真实环境下的图像,提出基于区域增强型注意力网络的人脸表情识别方法.首先提出基于注意力的区域增强网络,减弱外部因素的影响以及增强表情识别在真实环境下的鲁棒性;然后提出通道-空间注意力融合网络,作用于全局的特征提取;最后通过分区损失和交叉熵损失相结合的方式提升表情图像的辨识度,从而提升识别准确率.在公开数据集RAF-DB, FERPlus和AffectNet上的实验结果表明,表情识别准确率分别达到88.81%, 89.32%和60.45%;所提方法具有更高的准确率和鲁棒性.  相似文献   

4.
目前的人脸表情识别更关注包含面部遮挡、图像模糊等因素的野外图像而非实验室图像,且COVID-19的流行使得人们不得不在公共场合佩戴口罩,这给表情识别任务带来了新的挑战。受启发于最近Transformer在众多计算机视觉任务上的成功,提出了基于注意力及视觉Transformer的野外人脸表情识别模型,并率先使用CSWin Transformer作为主干网络。加入通道-空间注意力模块来提高模型对于全局特征的注意力。Sub-center ArcFace损失函数被用来进一步优化模型的分类能力。在两个公开的野外表情数据集RAF-DB和FERPlus上以及它们对应的口罩遮挡数据集上对所提出的方法进行了评估,识别准确率分别为88.80%、89.31%和76.12%、72.28%,提高了表情识别精度。  相似文献   

5.
针对自然环境中存在人脸遮挡、姿势变化等复杂因素,以及卷积神经网络(CNN)中的卷积滤波器由于空间局部性无法学习大多数神经层中不同面部区域之间的长程归纳偏差的问题,提出一种用于动态人脸表情识别(DFER)的混合注意力机制模型(HA-Model),以提升DFER的鲁棒性和准确性。HA-Model由空间特征提取和时序特征处理两部分组成:空间特征提取部分通过两种注意力机制——Transformer和包含卷积块注意力模块(CBAM)的网格注意力模块,引导网络从空间角度学习含有遮挡、姿势变化的鲁棒面部特征并关注人脸局部显著特征;时序特征处理部分通过Transformer引导网络学习高层语义特征的时序联系,用于学习人脸表情特征的全局表示。实验结果表明,HA-Model在DFEW和AFEW基准上的准确率分别达到了67.27%和50.41%,验证了HA-Model可以有效提取人脸特征并提升动态人脸表情识别的精度。  相似文献   

6.
面部表情识别在诸多领域具有广泛的应用价值, 但在识别过程中局部遮挡会导致面部难以提取有效的表情识别特征, 而局部遮挡的面部表情识别可能需要多个区域的表情特征, 单一的注意力机制无法同时关注面部多个区域特征. 针对这一问题, 本文提出了一种基于加权多头并行注意力的局部遮挡面部表情识别模型, 该模型通过并行多个通道-空间注意力提取局部未被遮挡的多个面部区域表情特征, 有效缓解了遮挡对表情识别的干扰, 大量的实验结果表明, 本文的方法相比于很多先进的方法取得了最优的性能, 在RAF-DB和FERPlus上的准确率分别为89.54%、89.13%, 在真实遮挡的数据集Occlusion-RAF-DB和Occlusion-FERPlus的准确率分别为87.47%、86.28%. 因此, 本文的方法具有很强的鲁棒性.  相似文献   

7.
梁艳温兴潘家辉 《智能系统学报》2012,(收录汇总):1205-1212
人脸表情数据集在收集过程中存在主观的标注差异和客观的条件差异,导致表情识别模型在不同数据集间呈现明显的性能差异。为了提高跨数据集表情识别精度、减少表情识别在实际应用中进行样本打标重训练的过程,本文提出了一种基于表情融合特征的域对抗网络模型,用于跨数据集人脸表情识别。采用残差神经网络提取人脸表情的全局特征与局部特征。利用Encoder模块对全局特征与局部特征进行融合,学习更深层次的表情信息。使用细粒度的域鉴别器进行源数据集与目标数据集对抗,对齐数据集的边缘分布和条件分布,使模型能迁移到无标签的目标数据集中。以RAF-DB为源数据集,以CK+、JAFFE、SFEW2.0、FER2013、Expw分别作为目标数据集进行跨数据集人脸表情识别实验。与其他跨数据集人脸表情识别算法相比,所提方法获得了最高的平均识别率。实验结果表明,所提方法能有效提高跨数据集人脸表情识别的性能。  相似文献   

8.
传统的人脸表情识别方法主要针对六类基本人脸表情,但在现实场景下,存在更加丰富的由基本人脸表情组合而成的复合人脸表情,原先识别基本人脸表情的工作难以去识别复合人脸表情,并且复合人脸表情的数据集缺乏足够的训练数据.针对该问题,提出基于图卷积多标签学习的复合人脸表情识别方法.通过特征提取网络提取到人脸表情的全局特征和感兴趣区域的局部特征,使用基本和复合人脸表情之间的先验知识和数据驱动方式,构建出表情类别关系图,利用图卷积网络来学习到表情类别分类器,最后进行复合人脸表情识别.在RAF-DB和Emotio Net数据集上的实验结果表明,与VGG19和ResNet50等方法相比,该方法可以使得复合人脸表情识别率取得约4%~5%的提升.  相似文献   

9.
针对现有的在人脸表情识别中应用的卷积神经网络结构不够轻量,难以精确提取人脸表情特征,且需要大量表情标记数据等问题,提出一种基于注意力机制的人脸表情识别迁移学习方法.设计一个轻量的网络结构,在其基础上进行特征分组并建立空间增强注意力机制,突出表情特征重点区域,利用迁移学习在目标函数中构造一个基于log-Euclidean距离的损失项来减小迁移学习中源域与目标域之间的相关性差异.在数据集JAFFE和CK+上的实验结果表明,该方法相比其它人脸表情识别方法具有更优的识别能力.  相似文献   

10.
针对人脸表情呈现方式多样化以及人脸表情识别易受光照、姿势、遮挡等非线性因素影响的问题,提出了一种深度多尺度融合注意力残差网络(deep multi-scale fusion attention residual network, DMFA-ResNet)。该模型基于ResNet-50残差网络,设计了新的注意力残差模块,由7个具有三条支路的注意残差学习单元构成,能够对输入图像进行并行多卷积操作,以获得多尺度特征,同时引入注意力机制,突出重点局部区域,有利于遮挡图像的特征学习。通过在注意力残差模块之间增加过渡层以去除冗余信息,简化网络复杂度,在保证感受野的情况下减少计算量,实现网络抗过拟合效果。在3组数据集上的实验结果表明,本文提出的算法均优于对比的其他先进方法。  相似文献   

11.
面部表情分析是计算机通过分析人脸信息尝试理解人类情感的一种技术,目前已成为计算机视觉领域的热点话题。其挑战在于数据标注困难、多人标签一致性差、自然环境下人脸姿态大以及遮挡等。为了推动面部表情分析发展,本文概述了面部表情分析的相关任务、进展、挑战和未来趋势。首先,简述了面部表情分析的几个常见任务、基本算法框架和数据库;其次,对人脸表情识别方法进行了综述,包括传统的特征设计方法以及深度学习方法;接着,对人脸表情识别存在的问题与挑战进行总结思考;最后,讨论了未来发展趋势。通过全面综述和讨论,总结以下观点:1)针对可靠人脸表情数据库规模小的问题,从人脸识别模型进行迁移学习以及利用无标签数据进行半监督学习是两个重要策略;2)受模糊表情、低质量图像以及标注者的主观性影响,非受控自然场景的人脸表情数据的标签库存在一定的不确定性,抑制这些因素可以使得深度网络学习真正的表情特征;3)针对人脸遮挡和大姿态问题,利用局部块进行融合的策略是一个有效的策略,另一个值得考虑的策略是先在大规模人脸识别数据库中学习一个对遮挡和姿态鲁棒的模型,再进行人脸表情识别迁移学习;4)由于基于深度学习的表情识别方法受很多超参数影响,导致当前人脸表情识别方法的可比性不强,不同的表情识别方法有必要在不同的简单基线方法上进行评测。目前,虽然非受控自然环境下的表情分析得到较快发展,但是上述问题和挑战仍然有待解决。人脸表情分析是一个比较实用的任务,未来发展除了要讨论方法的精度也要关注方法的耗时以及存储消耗,也可以考虑用非受控环境下高精度的人脸运动单元检测结果进行表情类别推断。  相似文献   

12.
Motion, as a feature of video that changes in temporal sequences, is crucial to visual understanding. The powerful video representation and extraction models are typically able to focus attention on motion features in challenging dynamic environments to complete more complex video understanding tasks. However, previous approaches discriminate mainly based on similar features in the spatial or temporal domain, ignoring the interdependence of consecutive video frames. In this paper, we propose the motion sensitive self-supervised collaborative network, a video representation learning framework that exploits a pretext task to assist feature comparison and strengthen the spatiotemporal discrimination power of the model. Specifically, we first propose the motion-aware module, which extracts consecutive motion features from the spatial regions by frame difference. The global–local contrastive module is then introduced, with context and enhanced video snippets being defined as appropriate positive samples for a broader feature similarity comparison. Finally, we introduce the snippet operation prediction module, which further assists contrastive learning to obtain more reliable global semantics by sensing changes in continuous frame features. Experimental results demonstrate that our work can effectively extract robust motion features and achieve competitive performance compared with other state-of-the-art self-supervised methods on downstream action recognition and video retrieval tasks.  相似文献   

13.
针对非可控环境下人脸表情识别面临的诸如种族、性别和年龄等因子变化问题,提出一种基于深度条件随机森林的鲁棒性人脸表情识别方法.与传统的单任务人脸表情识别方法不同,设计了一种以人脸表情识别为主,人脸性别和年龄属性识别为辅的多任务识别模型.在研究中发现,人脸性别和年龄等属性对人脸表情识别有一定的影响,为了捕获它们之间的关系,提出一种基于人脸性别和年龄双属性的深度条件随机森林人脸表情识别方法.在特征提取阶段,采用多示例注意力机制进行人脸特征提取以便去除诸如光照、遮挡和低分辨率等变化问题;在人脸表情识别阶段,根据人脸性别和年龄双属性因子,采用多条件随机森林方法进行人脸表情识别.在公开的CK+,ExpW,RAF-DB,AffectNet人脸表情数据库上进行了大量实验:在经典的CK+人脸库上达到99%识别率,在具有挑战性的自然场景库(ExpW,RAF-DB,AffectNet组合库)上达到70.52%的识别率.实验结果表明:与其他方法相比具有先进性,对自然场景中的遮挡、噪声和分辨率变化具有一定的鲁棒性.  相似文献   

14.
为更好获取人脸局部表情特征,提出了一种融合局部二值模式(Local Binary Pattern,LBP)和局部稀疏表示的人脸表情特征与识别方法。为深入分析表情对人脸子区域的影响,根据五官特征对人脸进行非均匀分区,并提取局部LBP特征;为精细刻画人脸局部纹理,整合人脸局部特征,设计了人脸局部稀疏重构表示方法,并根据表情对各局部子区域的影响因子,加权融合局部重构残差进行人脸表情识别。在JAFFE2表情人脸库上的对比实验,验证了该方法的可行性和鲁棒性。  相似文献   

15.
郑剑  郑炽  刘豪  于祥春 《计算机应用研究》2022,39(3):889-894+918
面部的局部细节信息在面部表情识别中扮演重要角色,然而现有的方法大多只关注面部表情的高层语义信息而忽略了局部面部区域的细粒度信息。针对这一问题,提出一种融合局部特征与两阶段注意力权重学习的深度卷积神经网络FLF-TAWL(deep convolutional neural network fusing local feature and two-stage attention weight learning),它能自适应地捕捉重要的面部区域从而提升面部表情识别的有效性。该FLF-TAWL由双分支框架构成,一个分支从图像块中提取局部特征,另一个分支从整个表情图像中提取全局特征。首先提出了两阶段注意力权重学习策略,第一阶段粗略学习全局和局部特征的重要性权重,第二阶段进一步细化注意力权重,并将局部和全局特征进行融合;其次,采用一种区域偏向损失函数鼓励最重要的区域以获得较高的注意力权重。在FERPlus、Cohn-Kanada(CK+)以及JAFFE三个数据集上进行了广泛实验,分别获得90.92%、98.90%、97.39%的准确率,实验结果验证了FLF-TAWL模型的有效性和可行性。  相似文献   

16.
基于RGB-D数据的自监督学习受到广泛关注, 然而大多数方法侧重全局级别的表示学习, 会丢失对识别对象至关重要的局部细节信息. 由于RGB-D数据中图像和深度具有几何一致性, 因此这可以作为线索来指导RGB-D数据的自监督特征表示学习. 在本文中, 我们提出了ArbRot, 它可以无限制地旋转角度并为代理任务生成多个伪标签用于自监督学习, 而且还建立了全局和局部之间的上下文联系. 本文所提出的ArbRot可以与其他对比学习方法联合训练, 构建多模态多代理任务自监督学习框架, 以增强图像和深度视图的特征表示一致性, 从而为RGB-D语义分割任务提供有效的初始化. 在SUN RGB-D和NYU Depth Dataset V2数据集上的实验结果表明, 多模态任意旋转自监督学习得到的特征表示质量均高于基线模型. 开源代码: https://github.com/Physu/ArbRot.  相似文献   

17.
深度学习模型可以获得更具有鉴别力的人脸特征,提高人脸识别性能.因此,文中结合深度学习思想,提出多层次深度网络融合特征提取模型.在深度子空间基础上,采用“卷积-池化”网络结构,在降低特征维度的同时保留图像纹理信息,并且获得局部转换鲁棒性.同时,利用人脸标定算法获得人脸特征点,并以此划分人脸区域为5个局部人脸块.基于多层次分类策略,利用全局人脸训练全局网络,完成测试样本预分类.利用局部人脸块训练局部网络,在候选类别中完成最终分类.实验表明,结合局部特征与全局特征的模型可以取得较好的识别率,对光照、表情、姿态,遮挡等影响因素具有较好的鲁棒性,并且加入池化层及两步判别的算法可以有效提高识别率.  相似文献   

18.
Human emotion detection is of substantial importance in a variety of pervasive applications in assistive environments. Because facial expressions provide a key mechanism for understanding and conveying emotion, automatic emotion detection through facial expression recognition has attracted increased attention in both scientific research and practical applications in recent years. Traditional facial expression recognition methods normally use only one type of facial expression data, either static data extracted from one single face image or motion-dependent data obtained from dynamic face image sequences, but seldom employ both. This work proposes to place the emotion detection problem under the framework of Discriminant Laplacian Embedding (DLE) to integrate these two types of facial expression data in a shared subspace, such that the advantages of both of them are exploited. Due to the reinforcement between the two types of facial features, the new data representation is more discriminative and easier to classify. Encouraging experimental results in empirical studies demonstrate the practical usage of the proposed DLE method for emotion detection.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号