首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 771 毫秒
1.
目的 人脸表情识别是计算机视觉的核心问题之一。一方面,表情的产生对应着面部肌肉的一个连续动态变化过程,另一方面,该运动过程中的表情峰值帧通常包含了能够识别该表情的完整信息。大部分已有的人脸表情识别算法要么基于表情视频序列,要么基于单幅表情峰值图像。为此,提出了一种融合时域和空域特征的深度神经网络来分析和理解视频序列中的表情信息,以提升表情识别的性能。方法 该网络包含两个特征提取模块,分别用于学习单幅表情峰值图像中的表情静态“空域特征”和视频序列中的表情动态“时域特征”。首先,提出了一种基于三元组的深度度量融合技术,通过在三元组损失函数中采用不同的阈值,从单幅表情峰值图像中学习得到多个不同的表情特征表示,并将它们组合在一起形成一个鲁棒的且更具辩识能力的表情“空域特征”;其次,为了有效利用人脸关键组件的先验知识,准确提取人脸表情在时域上的运动特征,提出了基于人脸关键点轨迹的卷积神经网络,通过分析视频序列中的面部关键点轨迹,学习得到表情的动态“时域特征”;最后,提出了一种微调融合策略,取得了最优的时域特征和空域特征融合效果。结果 该方法在3个基于视频序列的常用人脸表情数据集CK+(the extended Cohn-Kanade dataset)、MMI (the MMI facial expression database)和Oulu-CASIA (the Oulu-CASIA NIR&VIS facial expression database)上的识别准确率分别为98.46%、82.96%和87.12%,接近或超越了当前同类方法中的表情识别最高性能。结论 提出的融合时空特征的人脸表情识别网络鲁棒地分析和理解了视频序列中的面部表情空域和时域信息,有效提升了人脸表情的识别性能。  相似文献   

2.
目的 相比静态表情图片,视频序列中蕴含更多的情感信息,视频序列中的具有明显表情的序列在特征提取与识别中具有关键作用,但是视频中同时存在的中性表情也可能会对模型参数的训练造成干扰,影响最终的判别。为了减少这种干扰带来的误差,本文对动态时间规整算法进行改进,提出一种滑动窗口动态时间规整算法(SWDTW)来自动选取视频中表情表现明显的图片序列;同时,为了解决人脸图像受环境光照因素影响较大和传统特征提取过程中存在过多人为干预的问题,构建一种基于深度卷积神经网络的人脸视频序列处理方法。方法 首先截取表情视频中人脸正面帧,用梯度方向直方图特征计算代价矩阵,并在代价矩阵上增加滑动窗口机制,计算所有滑动窗口的平均距离;然后通过平均距离最小值选取全局最优表情序列;最后采用深度卷积神经网络对规整后的人脸表情图像序列进行无监督学习和面部表情分类,统计视频序列图像分类概率和,进而得出视频序列的表情类别。结果 在CK+与MMI数据库上进行5次交叉实验,分别取得了92.54%和74.67%的平均识别率,与随机选取视频序列相比,分别提高了19.86%和22.24%;此外,与目前一些优秀的视频表情识别方法相比,也表现出了优越性。结论 本文提出的SWDTW不仅有效地实现了表情序列的选取,而且增强了卷积神经网络在视频面部表情分类中的鲁棒性,提高了视频人脸表情分析的自适应性度和识别率。  相似文献   

3.
目的 深度伪造是新兴的一种使用深度学习手段对图像和视频进行篡改的技术,其中针对人脸视频进行的篡改对社会和个人有着巨大的威胁。目前,利用时序或多帧信息的检测方法仍处于初级研究阶段,同时现有工作往往忽视了从视频中提取帧的方式对检测的意义和效率的问题。针对人脸交换篡改视频提出了一个在多个关键帧中进行帧上特征提取与帧间交互的高效检测框架。方法 从视频流直接提取一定数量的关键帧,避免了帧间解码的过程;使用卷积神经网络将样本中单帧人脸图像映射到统一的特征空间;利用多层基于自注意力机制的编码单元与线性和非线性的变换,使得每帧特征能够聚合其他帧的信息进行学习与更新,并提取篡改帧图像在特征空间中的异常信息;使用额外的指示器聚合全局信息,作出最终的检测判决。结果 所提框架在FaceForensics++的3个人脸交换数据集上的检测准确率均达到96.79%以上;在Celeb-DF数据集的识别准确率达到了99.61%。在检测耗时上的对比实验也证实了使用关键帧作为样本对检测效率的提升以及本文所提检测框架的高效性。结论 本文所提出的针对人脸交换篡改视频的检测框架通过提取关键帧减少视频级检测中的计算成本和时间消耗,使用卷积神经网络将每帧的人脸图像映射到特征空间,并利用基于自注意力的帧间交互学习机制,使得每帧特征之间可以相互关注,学习到有判别性的信息,使得检测结果更加准确,整体检测过程更高效。  相似文献   

4.
基于非对称局部梯度编码的人脸表情识别   总被引:1,自引:1,他引:0       下载免费PDF全文
目的 针对局部梯度编码算子(LGC)只能在固定大小邻域内提取图像纹理特征的不足,提出了一种非对称邻域LGC算子(AR-LGC)多尺度融合的表情特征提取方法。方法 首先,对归一化的表情图像进行Gauss滤波处理;然后,对图像进行分块,对每个子块图像中每一像素点,采用不同邻域大小的AR-LGC算子得到两个二进制序列,将两个序列作按位逻辑异或得到一个新的序列,对此序列进行编码,计算每个子块的直方图分布,级联各子块直方图构成人脸表情的特征;最后用SVM分类器进行表情分类识别。结果 该算法在JAFFE库和CK库上进行实验,分别取得了95.24%和96.83%的平均识别率,并与CBP(中心化二值模式)、LBP(局部二值模式)、LGC和AR-LBP(非对称局部二值模式)算法进行了比较,在JAFFE库的平均识别率分别比CBP、LBP、LGC、AR-LBP高5.6%、4.85%、3.71%、2.40%,在CK库的平均识别率分别比CBP、LBP、LGC、AR-LBP高3.66%、2.50%、2.17%、1.66%,实验结果表明,该算法可以较准确地进行人脸表情识别。结论 本文所提的表情特征提取方法通过融合不同梯度不同尺度子邻域间的强度关系,可以很好地表达图像的局部特征和全局特征,与典型的特征提取算法的对比实验也表明了本文算法的有效性,表明本文算法适用于静态人脸表情图像的识别。  相似文献   

5.
目的 情感识别的研究一直致力于帮助系统在人机交互的环节中以更合适的方式来对用户的需求进行反馈。但它在现实应用中的表现却较差。主要原因是缺乏与现实应用环境类似的大规模多模态数据集。现有的野外多模态情感数据集很少,而且受试者数量有限,使用的语言单一。方法 为了满足深度学习算法对数据量的要求,本文收集、注释并准备公开发布一个全新的自然状态下的视频数据集(multimodal emotion dataset,MED)。首先收集人员从电影、电视剧、综艺节目中手工截取视频片段,之后通过注释人员对截取视频片段的标注最终得到了1 839个视频片段。这些视频片段经过人物检测、人脸检测等操作获得有效的视频帧。该数据集包含7种基础情感和3种模态:人脸表情,身体姿态,情感语音。结果 为了提供情感识别的基准,在本文的实验部分,利用机器学习和深度学习方法对MED数据集进行了评估。首先与CK+数据集进行了对比实验,结果表明使用实验室环境下收集的数据开发算法很难应用到实际中,然后对各个模态进行了基线实验,并给出了各个模态的基线。最后多模态融合的实验结果相对于单模态的人脸表情识别提高了4.03%。结论 多模态情感数据库MED扩充了现有的真实环境下多模态数据库,以推进跨文化(语言)情感识别和对不同情感评估的感知分析等方向的研究,提高自动情感计算系统在现实应用中的表现。  相似文献   

6.
目的 目前2D表情识别方法对于一些混淆性较高的表情识别率不高并且容易受到人脸姿态、光照变化的影响,利用RGBD摄像头Kinect获取人脸3D特征点数据,提出了一种结合像素2D特征和特征点3D特征的实时表情识别方法。方法 首先,利用3种经典的LBP(局部二值模式)、Gabor滤波器、HOG(方向梯度直方图)提取了人脸表情2D像素特征,由于2D像素特征对于人脸表情描述能力的局限性,进一步提取了人脸特征点之间的角度、距离、法向量3种3D表情特征,以对不同表情的变化情况进行更加细致地描述。为了提高算法对混淆性高的表情识别能力并增加鲁棒性,将2D像素特征和3D特征点特征分别训练了3组随机森林模型,通过对6组随机森林分类器的分类结果加权组合,得到最终的表情类别。结果 在3D表情数据集Face3D上验证算法对9种不同表情的识别效果,结果表明结合2D像素特征和3D特征点特征的方法有利于表情的识别,平均识别率达到了84.7%,高出近几年提出的最优方法4.5%,而且相比单独地2D、3D融合特征,平均识别率分别提高了3.0%和5.8%,同时对于混淆性较强的愤怒、悲伤、害怕等表情识别率均高于80%,实时性也达到了10~15帧/s。结论 该方法结合表情图像的2D像素特征和3D特征点特征,提高了算法对于人脸表情变化的描述能力,而且针对混淆性较强的表情分类,对多组随机森林分类器的分类结果加权平均,有效地降低了混淆性表情之间的干扰,提高了算法的鲁棒性。实验结果表明了该方法相比普通的2D特征、3D特征等对于表情的识别不仅具有一定的优越性,同时还能保证算法的实时性。  相似文献   

7.
基于特征点表情变化的3维人脸识别   总被引:1,自引:1,他引:0       下载免费PDF全文
目的 为克服表情变化对3维人脸识别的影响,提出一种基于特征点提取局部区域特征的3维人脸识别方法。方法 首先,在深度图上应用2维图像的ASM(active shape model)算法粗略定位出人脸特征点,再根据Shape index特征在人脸点云上精确定位出特征点。其次,提取以鼻中为中心的一系列等测地轮廓线来表征人脸形状;然后,提取具有姿态不变性的Procrustean向量特征(距离和角度)作为识别特征;最后,对各条等测地轮廓线特征的分类结果进行了比较,并对分类结果进行决策级融合。结果 在FRGC V2.0人脸数据库分别进行特征点定位实验和识别实验,平均定位误差小于2.36 mm,Rank-1识别率为98.35%。结论 基于特征点的3维人脸识别方法,通过特征点在人脸近似刚性区域提取特征,有效避免了受表情影响较大的嘴部区域。实验证明该方法具有较高的识别精度,同时对姿态、表情变化具有一定的鲁棒性。  相似文献   

8.
目的 足球视频镜头和球场区域是足球视频事件检测的必要条件,对于足球视频语义分析具有重要作用。针对现有镜头分类方法的不足,提出识别足球视频镜头类型的波动检测法。方法 该方法使用一个滑动窗口在视频帧图像中滑动,记录滑动窗口内球场像素比例在远镜头阈值上下的波动次数,根据波动次数判断镜头类型。对于足球场地区域分类,提出使用视频图像中球场区域的左上角和右上角点的位置关系识别球场区域类型的方法,该方法使用高斯混合模型识别出球场,根据球场在帧图像中左右边界坐标的高低判断球场区域类型,方法简单高效。结果 本文提出的两种方法与现有的分类方法相比,在准确率和召回率方面具有较大提高,检测效率高,可以满足实时性要求。结论 本文方法解决了传统滑动窗口法无法正确识别球场倾斜角度过大的帧图像,降低了传统球场区域检测方法依赖球场线检测而导致的准确率不高的问题。  相似文献   

9.
目的 针对人脸表情识别中存在局部遮挡的问题,提出一种融合局部特征的面部遮挡表情识别方法。方法 首先,为了减少噪声的影响,利用高斯滤波对归一化后的图像进行去噪处理;然后根据人脸不同部位对表情识别的不同贡献度,将图像划分为两个重要的子区域,并分别对该子区域进行不重叠分块处理;采用改进的中心对称局部二值模式(差值中心对称局部二值模式DCS-LBP)和改进的差值局部方向模式(梯度中心对称局部方向模式GCS-LDP)对各个子块提取相应的特征,并采用级联的方式得到图像的特征直方图;最后结合最近邻分类器对表情图像进行分类识别:利用卡方距离求取测试集图像与训练集图像特征直方图之间的距离,同时考虑到遮挡的干扰以及每个子块包含信息量的不同,利用信息熵对子块得到的卡方距离进行自适应加权。结果 在日本女性人脸表情库(JAFFE)和Cohn-Kanade(CK)人脸表情库上进行了3次交叉实验。在JAFFE库中随机遮挡、嘴部遮挡和眼部遮挡分别可以取得92.86%、94.76%和86.19%以上的平均识别率;在CK库中随机遮挡、嘴部遮挡和眼部遮挡分别可以取得99%、98.67%和99%以上的平均识别率。结论 该特征提取方法通过融合梯度方向上灰度值的差异以及梯度方向之间边缘响应值的差异来描述图像的特征,更加完整地提取了图像的细节信息。针对遮挡情况,本文采用的图像分割和信息熵自适应加权方法,有效地降低了遮挡对表情识别的干扰。在相同的实验环境下,与经典的局部特征提取方法以及遮挡问题处理方法的对比表明了该方法的有效性和优越性。  相似文献   

10.
目的 针对3维人脸识别中存在表情变化的问题,提出了一种基于刚性区域特征点的3维人脸识别方法。方法 该方法首先在人脸纹理图像上提取人脸图像的特征点,并删除非刚性区域内的特征点,然后根据采样点的序号,在人脸空间几何信息上得到人脸图像特征点的3维几何信息,并建立以特征点为中心的刚性区域内的子区域,最后以子区域为局部特征进行人脸识别测试,得到不同子区域对人脸识别的贡献,并以此作为依据对人脸识别的结果进行加权统计。结果 在FRGC v2.0的3维人脸数据库上进行实验测试,该方法的识别准确率为98.5%,当错误接受率(FAR)为0.001时的验证率为99.2%,结果表明,该方法对非中性表情下的3维人脸识别具有很好的准确性。结论 该方法可以有效克服表情变化对3维人脸识别的影响,同时对3维数据中存在的空洞和尖锐噪声等因素具有较好的鲁棒性,对提高3维人脸识别性能具有重要意义。  相似文献   

11.
目的 为了进一步提高智能监控场景下行为识别的准确率和时间效率,提出了一种基于YOLO(you only look once:unified,real-time object detection)并结合LSTM(long short-term memory)和CNN(convolutional neural network)的人体行为识别算法LC-YOLO(LSTM and CNN based on YOLO)。方法 利用YOLO目标检测的实时性,首先对监控视频中的特定行为进行即时检测,获取目标大小、位置等信息后进行深度特征提取;然后,去除图像中无关区域的噪声数据;最后,结合LSTM建模处理时间序列,对监控视频中的行为动作序列做出最终的行为判别。结果 在公开行为识别数据集KTH和MSR中的实验表明,各行为平均识别率达到了96.6%,平均识别速度达到215 ms,本文方法在智能监控的行为识别上具有较好效果。结论 提出了一种行为识别算法,实验结果表明算法有效提高了行为识别的实时性和准确率,在实时性要求较高和场景复杂的智能监控中有较好的适应性和广泛的应用前景。  相似文献   

12.
目前深度学习模型不能较好地把监控视频中跌倒行为的空间和时序特征有效结合起来。为此,提出基于CNN(convolutional neural network)和LSTM(long-short term memory)混合模型的人体跌倒行为识别方法。该模型采用两层结构,将视频以每5帧为一组输入到网络中,CNN提取视频序列的空间特征,LSTM提取视频时间维度上的特征,最后使用softmax分类器进行识别。实验表明,该方法可以有效提高跌倒识别的准确率。  相似文献   

13.
目的 高危孤独症谱系障碍(high-risk autism spectrum disorder,HR-ASD)筛查依赖于医师的临床评估和问卷量表,传统筛查方式效率低,亟需一种高效的自动筛查工具。为了满足自动筛查的需求,本文提出一种基于婴幼儿表情分析的孤独症谱系障碍自动筛查方法。方法 首先入组30例8~18个月的婴幼儿,包括10例ASD疑似患儿(HR-ASD)和20例正常发育婴幼儿;引入静止脸范式,并利用该范式诱发婴幼儿在社交压力条件下的情绪调节行为;提出一种面向婴幼儿视频表情识别的深度空时特征学习网络,首先在大规模公开数据集AffectNet预训练空域特征学习模型,然后在自建婴幼儿面部表情视频数据集RCLS&NBH+(Research Center of Learning Science&Nanjing Brain Hospital dataset+)上训练时空特征学习模型,从而建立一个较精准的婴幼儿表情识别模型;基于该模型深度特征序列的一阶统计量,构建婴幼儿社交压力环境下的表情行为症状与精神健康状态之间的关联,采用机器学习方法实现自动筛查。结果 1)基于婴幼儿表情人工标注的结果,发现:在1 min静止期,高危组的婴幼儿中性表情持续时长相对正常对照组偏高(p<0.01),而其他表情未发现有统计学意义的差异;2)提出的深度空时特征学习网络在本研究的30例婴幼儿面部表情视频数据集上的总体平均识别率达到了87.1%,3类表情预测结果与人工标注结果具有较高的一致性,其中Kappa一致性系数达到0.63,Pearson相关系数达到0.67;3)基于面部表情深度特征序列一阶统计量的精神健康状态预测性能达到灵敏度70%,特异性90%,分类正确率83.3%(置换检验p<0.05)。结论 本文提出的基于婴幼儿面部表情深度特征序列一阶统计量的精神健康状态自动预测模型是有效的,有助于实现高危孤独症谱系障碍自动筛查。  相似文献   

14.
吴克伟  高涛  谢昭  郭文斌 《软件学报》2022,33(5):1865-1879
针对现有基于视频整体时间结构建模的行为识别方法中,存在的时间噪声信息和歧义信息干扰现象,从而引起行为类别识别错误的问题,提出一种新型的Grenander推理优化下时间图模型(temporal graph model with Grenander inference, TGM-GI).首先,构建3D CNN-LSTM模块,其中3D CNN用于行为的动态特征提取, LSTM模块用于该特征的时间依赖关系优化.其次,在深度模块基础上,利用Grenander理论构建了行为识别的时间图模型,并设计了两个模块分别处理慢行为时间冗余和异常行为干扰问题,实现了时间噪声抑制下的时间结构提议.随后,设计融合特征约束和语义约束的Grenander测度,并提出一种时序增量形式的Viterbi算法,修正了行为时间模式中的歧义信息.最后,采用基于动态时间规划的模式匹配方法,完成了基于时间模式的行为识别任务.在UCF101和Olympic Sports两个公认数据集上,与现有多种基于深度学习的行为识别方法进行比较,该方法获得了最好的行为识别正确率.该方法优于基准的3D CNN-LSTM方法,在UCF101数据集上识别...  相似文献   

15.
刘嘉敏  苏远歧  魏平  刘跃虎 《自动化学报》2020,46(10):2137-2147
基于视频-脑电信号交互协同的情感识别是人机交互重要而具有挑战性的研究问题.本文提出了基于长短记忆神经网络(Long-short term memory, LSTM)和注意机制(Attention mechanism)的视频-脑电信号交互协同的情感识别模型.模型的输入是实验参与人员观看情感诱导视频时采集到的人脸视频与脑电信号, 输出是实验参与人员的情感识别结果.该模型在每一个时间点上同时提取基于卷积神经网络(Convolution neural network, CNN)的人脸视频特征与对应的脑电信号特征, 通过LSTM进行融合并预测下一个时间点上的关键情感信号帧, 直至最后一个时间点上计算出情感识别结果.在这一过程中, 该模型通过空域频带注意机制计算脑电信号${\alpha}$波, ${\beta}$波与${\theta}$波的重要度, 从而更加有效地利用脑电信号的空域关键信息; 通过时域注意机制, 预测下一时间点上的关键信号帧, 从而更加有效地利用情感数据的时域关键信息.本文在MAHNOB-HCI和DEAP两个典型数据集上测试了所提出的方法和模型, 取得了良好的识别效果.实验结果表明本文的工作为视频-脑电信号交互协同的情感识别问题提供了一种有效的解决方法.  相似文献   

16.
短文本分类是互联网文本数据处理中的关键任务之一.长短时记忆网络LSTM(long short-term memory)和卷积神经网络CNN(convolutional neural network)是广泛应用于短文本分类任务的两种深度学习模型.在计算机视觉和语音识别领域的深度学习研究表明,深层次的神经网络模型具有较好的表达数据特征的能力.受此启发,面向文本深度学习分类问题,提出基于3层LSTM和CNN网络结构的ResLCNN(residual-LSTM-CNN)深度学习模型.该模型有效结合LSTM获取文本序列数据的长距离依赖特征和CNN通过卷积操作获取句子局部特征的优势,同时借鉴残差模型理论,在第1层LSTM层与CNN层之间加入恒等映射,构建残差层,缓解深层模型梯度消失问题.为了探究深层短文本分类中ResLCNN模型的文本分类能力,在多种数据集上将其与LSTM、CNN及其组合模型进行对比实验.结果表明,相比于单层LSTM与CNN组合模型,ResLCNN深层模型在MR、SST-2和SST-5数据集上分别提高了1.0%、0.5%、0.47%的准确率,取得了更好的分类效果.  相似文献   

17.
目的 表情识别在商业、安全、医学等领域有着广泛的应用前景,能够快速准确地识别出面部表情对其研究与应用具有重要意义。传统的机器学习方法需要手工提取特征且准确率难以保证。近年来,卷积神经网络因其良好的自学习和泛化能力得到广泛应用,但还存在表情特征提取困难、网络训练时间过长等问题,针对以上问题,提出一种基于并行卷积神经网络的表情识别方法。方法 首先对面部表情图像进行人脸定位、灰度统一以及角度调整等预处理,去除了复杂的背景、光照、角度等影响,得到了精确的人脸部分。然后针对表情图像设计一个具有两个并行卷积池化单元的卷积神经网络,可以提取细微的表情部分。该并行结构具有3个不同的通道,分别提取不同的图像特征并进行融合,最后送入SoftMax层进行分类。结果 实验使用提出的并行卷积神经网络在CK+、FER2013两个表情数据集上进行了10倍交叉验证,最终的结果取10次验证的平均值,在CK+及FER2013上取得了94.03%与65.6%的准确率。迭代一次的时间分别为0.185 s和0.101 s。结论 为卷积神经网络的设计提供了一种新思路,可以在控制深度的同时扩展广度,提取更多的表情特征。实验结果表明,针对数量、分辨率、大小等差异较大的表情数据集,该网络模型均能够获得较高的识别率并缩短训练时间。  相似文献   

18.
王萍  庞文浩 《计算机应用》2019,39(7):2081-2086
针对原始空时双通道卷积神经网络(CNN)模型对长时段复杂视频中行为识别率低的问题,提出了一种基于视频分段的空时双通道卷积神经网络的行为识别方法。首先将视频分成多个等长不重叠的分段,对每个分段随机采样得到代表视频静态特征的帧图像和代表运动特征的堆叠光流图像;然后将这两种图像分别输入到空域和时域卷积神经网络进行特征提取,再在两个通道分别融合各视频分段特征得到空域和时域的类别预测特征;最后集成双通道的预测特征得到视频行为识别结果。通过实验讨论了多种数据增强方法和迁移学习方案以解决训练样本不足导致的过拟合问题,分析了不同分段数、预训练网络、分段特征融合方案和双通道集成策略对行为识别性能的影响。实验结果显示所提模型在UCF101数据集上的行为识别准确率达到91.80%,比原始的双通道模型提高了3.8个百分点;同时在HMDB51数据集上的行为识别准确率也比原模型提高,达到61.39%,这表明所提模型能够更好地学习和表达长时段复杂视频中人体行为特征。  相似文献   

19.
长短期记忆网络(LSTM)广泛应用于视频序列的人脸表情识别,针对单层LSTM表达能力有限,在解决复杂问题时其泛化能力易受制约的不足,提出一种层级注意力模型:使用堆叠LSTM学习时间序列数据的分层表示,利用自注意力机制构建差异化的层级关系,并通过构造惩罚项,进一步结合损失函数优化网络结构,提升网络性能.在CK+和MMI数据集上的实验结果表明,由于构建了良好的层次级别特征,时间序列上的每一步都从更感兴趣的特征层级上挑选信息,相较于普通的单层LSTM,层级注意力模型能够更加有效地表达视频序列的情感信息.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号