期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王传昱李为相陈震环《计算机工程与应用》2021,57(23):163-170

情感识别依靠分析生理信号、行为特征等分析情感类别,是人工智能重要研究领域之一。为提高情感识别的准确性和实时性,提出基于语音与视频图像的多模态情感识别方法。视频图像模态基于局部二值直方图法（LBPH）+稀疏自动编码器（SAE）+改进卷积神经网络（CNN）实现;语音模态基于改进深度受限波尔兹曼机（DBM）和改进长短时间记忆网络（LSTM）实现;使用SAE获得更多图像的细节特征,用DBM获得声音特征的深层表达;使用反向传播算法（BP）优化DBM和LSTM的非线性映射能力,使用全局均值池化（GAP）提升CNN和LSTM的响应速度并防止过拟合。单模态识别后,两个模态的识别结果基于权值准则在决策层融合,给出所属情感分类及概率。实验结果表明,融合识别策略提升了识别准确率,在中文自然视听情感数据库（cheavd）2.0的测试集达到74.9%的识别率,且可以对使用者的情感进行实时分析。相似文献

2.

基于图神经网络多模态融合的语音情感识别模型

李紫荆陈宁《计算机应用研究》2023,40(8)

目前,基于多模态融合的语音情感识别模型普遍存在无法充分利用多模态特征之间的共性和互补性、无法借助样本特征间的拓扑结构特性对样本特征进行有效地优化和聚合,以及模型复杂度过高的问题。为此,引入图神经网络,一方面在特征优化阶段,将经过图神经网络优化后的文本特征作为共享表示重构基于声学特征的邻接矩阵,使得在声学特征的拓扑结构特性中包含文本信息,达到多模态特征的融合效果;另一方面在标签预测阶段,借助图神经网络充分聚合当前节点的邻接节点所包含的相似性信息对当前节点特征进行全局优化,以提升情感识别准确率。同时为防止图神经网络训练过程中可能出现的过平滑问题,在图神经网络训练前先进行图增强处理。在公开数据集IEMOCAP 和RAVDESS上的实验结果表明,所提出的模型取得了比基线模型更高的识别准确率和更低的模型复杂度,并且模型各个组成部分均对模型性能提升有所贡献。相似文献

3.

面向学前教育对话机器人的多模态情感识别实现关键技术

许萌韩鹏《自动化与仪器仪表》2023,(9):137-141

为进一步提高学前教育对话机器人交互过程的准确性,结合多模态融合思想,提出一种基于面部表情情感和语音情感融合的识别技术。其中,为解决面部表情异常视频帧的问题,采用卷积神经网络对人脸进行检测,然后基于Gabor小波变换对人脸表情进行特征提取,最后通过残差网络对面部表情情感进行识别;为提高情感识别的准确性,协助学前教育机器人更好地理解儿童情感,在采用MFCC对连续语音特征进行提取后,通过残差网络对连续语音情感进行识别;利用多元线性回归算法对面部和语音情感识别结果进行融合。在AVEC2019数据集上的验证结果表明,表情情感识别和连续语音情感识别均具有较高识别精度;与传统的单一情感识别相比,多模态融合识别的一致性相关系数最高,达0.77。由此得出,将多模态情感识别的方法将有助于提高学前教育对话机器人交互过程中的情感识别水平,提高对话机器人的智能化。相似文献

4.

基于Android的多模态情感识别APP的设计与开发

张明嘉黄丁韫赵凯杨超宇蒋玉茹《现代计算机》2023,(5):99-103

在团队自建的中文多模态情感识别语料库的基础上,训练了多模态情感识别深度神经网络模型,能综合视频中图片、音频和文本三个模态信息进行情感识别。基于该情感识别模型,设计并开发了一款基于Android平台的移动应用程序,捕获视频中人物的话语文本、声音和面部表情,识别出人物的情感状态,以支撑后续共情聊天机器人的研发。相似文献

5.

多模态情感识别研究进展_*

何俊刘跃何忠文《计算机应用研究》2018,35(11)

情感识别研究热点正从单模态转移到多模态。针对多模态情感特征提取与融合的技术难点,本文列举了目前应用较广的多模态情感识别数据库,介绍了面部表情和语音情感这两个模态的特征提取技术,重点阐述了多模态情感融合识别技术,主要对多模态情感特征融合策略和融合方法进行了综述,对不同算法下的识别效果进行了对比。最后,对多模态情感识别研究中存在的问题进行了探讨,并对未来的研究方向进行了展望。相似文献

6.

基于MIMO-CNN的多模态坐姿识别

黄安义沈捷秦雯王莉《计算机工程与设计》2021,42(3):770-775

为解决坐姿多样性(不同体型、同一坐姿的差异性)和摄像头角度变化对坐姿的识别的影响,提出一种基于MI-MO(多输入多输出)-CNN的多模态坐姿识别方法.在预处理后的人体坐姿深度图像的基础上,得到人体坐姿在笛卡尔平面上的左视图和俯视图的投影,使用设计的MIMO-MobileNet对人体坐姿在前后和左右方向的坐姿分别进行识别... 相似文献

7.

基于深度情感唤醒网络的多模态情感分析与情绪识别

张峰李希城董春茹花强《控制与决策》2022,37(11):2984-2992

随着网络平台上各类图像、视频数据的快速增长,多模态情感分析与情绪识别已成为一个日益热门的研究领域.相比于单模态情感分析,多模态情感分析中的模态融合是一个亟待解决的关键问题.受到认知科学中情感唤起模型的启发,提出一种能够模拟人类处理多通道输入信息机制的深度情感唤醒网络(DEAN),该网络可实现多模态信息的有机融合,既能处理情绪的连贯性,又能避免融合机制的选择不当而带来的问题.DEAN网络主要由以下3部分组成:跨模态Transformer模块,用以模拟人类知觉分析系统的功能;多模态BiLSTM系统,用以模拟认知比较器;多模态门控模块,用以模拟情感唤起模型中的激活结构.在多模态情感分析与情绪识别的3个经典数据集上进行的比较实验结果表明,DEAN模型在各数据集上的性能均超越了目前最先进的情感分析模型. 相似文献

8.

基于视听觉感知系统的多模态情感识别

龙英潮丁美荣林桂锦刘鸿业曾碧卿《计算机系统应用》2021,30(12):218-225

情绪识别作为人机交互的热门领域,其技术已经被应用于医学、教育、安全驾驶、电子商务等领域.情绪主要由面部表情、声音、话语等进行表达,不同情绪表达时的面部肌肉、语气、语调等特征也不相同,使用单一模态特征确定的情绪的不准确性偏高,考虑到情绪表达主要通过视觉和听觉进行感知,本文提出了一种基于视听觉感知系统的多模态表情识别算法,分别从语音和图像模态出发,提取两种模态的情感特征,并设计多个分类器为单特征进行情绪分类实验,得到多个基于单特征的表情识别模型.在语音和图像的多模态实验中,提出了晚期融合策略进行特征融合,考虑到不同模型间的弱依赖性,采用加权投票法进行模型融合,得到基于多个单特征模型的融合表情识别模型.本文使用AFEW数据集进行实验,通过对比融合表情识别模型与单特征的表情识别模型的识别结果,验证了基于视听觉感知系统的多模态情感识别效果要优于基于单模态的识别效果. 相似文献

9.

结合TCN和双向GRU的多模态融合情感空间标注

吴志游付晓峰《工业控制计算机》2023,(4):109-111

在人工智能领域不可缺少的情感计算技术,一直在人机互动、教育、医疗等领域具有重要应用价值。而现已成熟的单模态数据应用在情感计算上较为缺乏可靠度和客观性,离散的情感分类不能完整地描述出人的情感表达。为了解决这类问题,通过提取eNTERFACE′05数据集的音视频双模态样本特征,使用一种结合时域卷积网络（TCN）和双向门控循环单元网络（Bi-GRU）的双通道神经网络模型,对双模态特征进行深度学习训练,再将双通道模型预测结果进行决策层融合,在测试集的准确率高达95.3%。为了实现对情感激烈程度和正负面程度的度量,对模型预测结果二次深度学习,再通过softsign函数进行非线性的数值转换,最终实现情感样本在激活-效价二维坐标系上的可视化标注。实验结果表明,网络模型具有高准确率同时兼具更短的训练时间,能进行实时的情感计算和情感空间标注。相似文献

10.

复合层次融合的多模态情感分析

王旭阳董帅石杰《计算机科学与探索》2023,(1):198-208

针对传统情感分析方法无法解决短视频情感表达问题以及现有多模态情感分析方法准确率不高、不同模态信息之间交互性差等问题,通过对多模态情感分析方法进行研究,结合时域卷积网络（TCN）和软注意力机制建立了复合层次融合的多模态情感分析模型。该模型首先将视频中提取到的文本特征、视频面部特征和音频特征进行维度均衡,然后将得到的不同模态的信息特征进行复合式融合,即先将单模态信息进行融合得到双模态特征信息,再将得到的三个双模态信息进行融合,得到最终的三模态信息,最后将得到的三模态信息和每个单模态信息进行融合得到最终的多模态情感特征信息。每次融合的特征信息都经过TCN网络层进行序列特征的提取,将最终得到的多模态特征信息通过注意力机制进行筛选过滤后用于情感分类,从而得到预测结果。在数据集CMU-MOSI和CMU-MOSEI上的实验表明,该模型能够充分利用不同模态间的交互信息,有效提升多模态情感分析的准确率。相似文献

11.

基于声学和文本特征的多模态情感识别

顾煜金赟马勇姜芳艽俞佳佳《数据采集与处理》2022,37(6):1353-1362

在语音模态中,利用OpenSMILE工具箱可以从语音信号中提取浅层声学特征,通过Transformer Encoder网络从浅层声学特征中挖掘深层特征,并将深浅层特征融合,从而获取更丰富的情感表征。在文本模态中,考虑到停顿因素与情感之间的关联性,将语音和文本对齐以获得说话停顿信息,采用停顿编码的方式将停顿信息添加到转录文本中,再通过DC-BERT模型获取话语级文本特征。将获得的声学与文本特征进行融合,利用基于注意力机制的双向长短时记忆（Bi-directional long short-term memory-attention,BiLSTM-ATT）神经网络进行情感分类。最后,本文对比了3种不同注意力机制融入BiLSTM网络后对情感识别的影响,即局部注意力、自注意力和多头自注意力,发现局部注意力的效果最优。实验表明,本文提出的方法在IEMOCAP数据集上的4类情感分类的加权准确率达到了78.7%,优于基线系统。相似文献

12.

融合语音、脑电和人脸表情的多模态情绪识别

方伟杰张志航王恒畅梁艳潘家辉《计算机系统应用》2023,32(1):337-347

本文提出了一种多模态情绪识别方法, 该方法融合语音、脑电及人脸的情绪识别结果来从多个角度综合判断人的情绪, 有效地解决了过去研究中准确率低、模型鲁棒性差的问题. 对于语音信号, 本文设计了一个轻量级全卷积神经网络, 该网络能够很好地学习语音情绪特征且在轻量级方面拥有绝对的优势. 对于脑电信号, 本文提出了一个树状LSTM模型, 可以全面学习每个阶段的情绪特征. 对于人脸信号, 本文使用GhostNet进行特征学习, 并改进了GhostNet的结构使其性能大幅提升. 此外, 我们设计了一个最优权重分布算法来搜寻各模态识别结果的可信度来进行决策级融合, 从而得到更全面、更准确的结果. 上述方法在EMO-DB与CK+数据集上分别达到了94.36%与98.27%的准确率, 且提出的融合方法在MAHNOB-HCI数据库的唤醒效价两个维度上分别得到了90.25%与89.33%的准确率. 我们的实验结果表明, 与使用单一模态以及传统的融合方式进行情绪识别相比, 本文提出的多模态情绪识别方法有效地提高了识别准确率. 相似文献

13.

多模态特征融合的长视频行为识别方法

下载免费PDF全文

王婷刘光辉张钰敏孟月波徐胜军《计算机测量与控制》2021,29(11):165-170

行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2％和72.8％,优于其他对比方法,实验结果证明了该方法的有效性. 相似文献

14.

结合卷积神经网络与OpenCV的人脸表情识别

张悦欣付晓峰《数字社区&智能家居》2021,(5)

针对实时人脸表情识别模型训练慢、识别速度慢的问题,提出一种OpenCV和卷积神经网络结合进行实时表情识别的方法。人脸表情是多个局部区域特征的集合,而卷积神经网络提取出的特征能更多地关注局部,因此采取卷积神经网络的方式进行模型的训练。所提网络在全连接层中加入了Dropout,能有效预防过拟合现象的发生,并且提升模型泛化能力。实验结果表明此模型的可行性,在fer2013数据集上的准确率达到71.6%。基于以上方法再结合OpenCV构建一个实时表情识别系统,系统实时识别表情的速度为0.4s。所构建的系统相比于现有的其他系统,具有训练速度较快、准确率较高、识别速度较快等优点。相似文献

15.

结合Bi-LSTM-CNN的语音文本双模态情感识别模型

下载免费PDF全文

王兰馨王卫亚程鑫《计算机工程与应用》2022,58(4):192-197

针对单一模态情感识别精度低的问题,提出了基于Bi-LSTM-CNN的语音文本双模态情感识别模型算法.该算法采用带有词嵌入的双向长短时记忆网络(bi-directional long short-term memory network,Bi-LSTM)和卷积神经网络(convolutional neural networ... 相似文献

16.

基于图卷积深浅特征融合的跨语料库情感识别

杨子秀金赟马勇戴妍妍俞佳佳顾煜《数据采集与处理》2023,38(1):111-120

语音情感识别任务的训练数据和测试数据往往来源于不同的数据库,二者特征空间存在明显差异,导致识别率很低。针对该问题,本文提出新的构图方法表示源和目标数据库之间的拓扑结构,利用图卷积神经网络进行跨语料库的情感识别。针对单一情感特征识别率不高的问题,提出一种新的特征融合方法。首先利用OpenSMILE提取浅层声学特征,然后利用图卷积神经网络提取深层特征。随着卷积层的不断深入,节点的特征信息被传递给其他节点,使得深层特征包含更明确的节点特征信息和更详细的语义信息,然后将浅层特征和深层特征进行特征融合。采用两组实验进行验证,第1组用eNTERFACE库训练测试Berlin库,识别率为59.4%;第2组用Berlin库训练测试eNTERFACE库,识别率为36.1%。实验结果高于基线系统和文献中最优的研究成果,证明本文提出方法的有效性。相似文献

17.

基于深度残差网络的人脸表情识别

卢官明朱海锐郝强闫静杰《数据采集与处理》2019,34(1):50-57

针对深度卷积神经网络随着卷积层数增加而导致网络模型难以训练和性能退化等问题,提出了一种基于深度残差网络的人脸表情识别方法。该方法利用残差学习单元来改善深度卷积神经网络模型训练寻优的过程,减少模型收敛的时间开销。此外,为了提高网络模型的泛化能力,从KDEF和CK+两种表情数据集上选取表情图像样本组成混合数据集用以训练网络。在混合数据集上采用十折（10-fold）交叉验证方法进行了实验,比较了不同深度的带有残差学习单元的残差网络与不带残差学习单元的常规卷积神经网络的表情识别准确率。当采用74层的深度残差网络时,可以获得90.79%的平均识别准确率。实验结果表明采用残差学习单元构建的深度残差网络可以解决网络深度和模型收敛性之间的矛盾,并能提升表情识别的准确率。相似文献

18.

基于卷积神经网络特征图聚类的人脸表情识别

刘全明辛阳阳《计算技术与自动化》2020,39(1):106-111

针对卷积层存在的特征冗余问题,提出了一种基于卷积神经网络的特征图聚类方法。首先通过预训练网络参数提取网络最后一层卷积层的特征图,然后对特征图进行聚类操作,取聚类中心构成新的特征图集合,以聚类后的特征图集作为数据集训练分类器。将有监督的深度学习方法与传统的机器学习方法相结合,使用特征图聚类进行特征去冗余让网络学习到更有效的特征。去冗余后的特征使用神经网络分类器在fer2013测试集上达到了71.67%准确率,在CK+测试集上达到86.98%准确率,证明了该人脸表情识别方法的有效性。相似文献