首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
从语音情感特征的提取和分类建模出发,以混合卷积神经网络模型为基础,改进特征提取中的 Itti模型,包括:增加通过局部二值模式提取的纹理特征;结合听觉敏感度权重提取情感强相关特征。然后提出通过特征约束条件提取标定权重特征的约束挤压和激励网络结构;最后形成以 VGGnet 和长短时记忆网络混合网络为基础的微调模型,进一步提升了情感表征能力。通过在自然情感数据库和柏林德语数据库上进行验证,该模型在情感识别率上有明显的上升,相较于基准模型提升了 8. 43%,同时对比了本模型在自然数据库(FAU-AEC)和柏林数据库(EMO-DB)上的识别效果,实验结果证明模型具有良好的泛化性。  相似文献   

2.
孙聪珊  马琳  李海峰 《信号处理》2023,39(4):688-697
语音情感识别(Speech Emotion Recognition,SER)是人机交互的重要组成部分,具有广泛的研究和应用价值。针对当前SER中仍然存在着缺乏大规模语音情感数据集和语音情感特征的低鲁棒性而导致的语音情感识别准确率低等问题,提出了一种基于改进的经验模态分解方法(Empirical Mode Decomposition,EMD)和小波散射网络(Wavelet Scattering Network,WSN)的语音情感识别方法。首先,针对用于语音信号时频分析的EMD及其改进算法中存在的模态混叠问题(Mode Mixing)和噪声残余问题,提出了基于常数Q变换(Constant-Q Transform,CQT)和海洋捕食者算法(Marine Predator Algorithm,MPA)的优化掩模经验模态分解方法(Optimized Masking EMD based on CQT and MPA,CM-OMEMD)。采用CM-OMEMD算法对情感语音信号进行分解,得到固有模态函数(Intrinsic Mode Functions,IMFs),并从IMFs中提取了可以表征情感的时频特征作为第一个特征集。然后采用WSN提取了具有平移不变性和形变稳定性的散射系数特征作为第二个特征集。最后将两个特征集进行融合,采用支持向量机(Support Vector Machine,SVM)分类器进行分类。通过在含有七种情感状态的TESS数据集中的对比实验,证明了本文提出的系统的有效性。其中CM-OMEMD减小了模态混叠,提升了对情感语音信号时频分析的准确性,同时提出的SER系统显著提高了情绪识别的性能。   相似文献   

3.
人们通过语言表达情感是一个不断变化的过程,为了使用语音信号的时间连续性表达具体情感,本文搭建了一种基于关联认知网络的GA-GRUS-ICN模型.首先,对输入的语音特征使用GRUS网络提取深度时序特征;然后,引入自注意力机制给重要的特征片段赋予更高的权重;最后,使用关联认知网络ICN构建情感之间的关联性,得到情感关联矩阵和最终识别结果,本文中对于超参数使用遗传算法GA进行选择.选用TYUT2.0、EMO-DB和CASIA语音数据库中的“悲伤”、“愤怒”、“高兴”三种基本情感作为实验数据,文章设计了五种实验方案进行两个消融实验,实验结果显示,三种模型在三种语音库的UA分别达到了80.83%、98.61%和88.13%,表明GA-GRUSICN识别模型在情感语音识别方面有较强的普适性,自注意力机制与GRUS-ICN模型比较适配,亦可以较好地进行语音情感识别.  相似文献   

4.
自从注意力机制在自然语言处理领域取得了巨大成功,其被引入了语音情感识别任务中,使各种语音情感识别模型的性能获得了提高。为了能在深度循环神经网络中更加高效地利用注意力机制,对传统的注意力机制进行了推广,提出了基于分段的注意力机制,并将其应用于深度循环神经网络中。在CASIA语音情感数据集上的实验结果证明,这一方法能够有效提高模型性能,并大幅提高模型训练速度。  相似文献   

5.
语音情感识别中,情感特征信息的提取和选择、情感识别模型的选择是2个重要部分.结合语音信号的声学特征参数和听觉特征参数进行情感识别,针对两类不同情感之间的差别选择最优的特征集,并设计了一个基于神经网络的情感交叉识别,与听觉特征参数结合,经过分类器得到识别情感,达到平均92%识别率.  相似文献   

6.
针对提取抑郁症患者人脸图像判别性特征困难的问题,提出基于残差注意力网络和金字塔扩大卷积长短时记忆(Convolutional Long Short-Term Memory,ConvLSTM)网络提取人脸图像空时特征的抑郁症识别算法。首先构建残差注意力网络提取人脸图像不同权值的空间特征,其次基于ConvLSTM网络加入金字塔扩大策略对所得空间特征提取不同尺度的时间特征,最后将空时特征输入DNN网络实现抑郁量表得分的回归分析。在AVEC 2013和AVEC 2014的测试集上进行验证,结果显示在两个数据集上,所提算法抑郁程度预测值与真实值之间的MAE值和RMSE值均优于基于手工特征的方法和基于手工特征+深度特征的方法。以深度特征方面的双流CNN算法的对比为例,在AVEC 2013数据集上,MAE值的识别精度提高了10%,RMSE值的识别精度提高了9%,在AVEC 2014数据集上,MAE值识别精度提高了13%,RMSE值的识别精度提高了7%。可见,该算法能有效提高抑郁症的识别精度。  相似文献   

7.
李永伟  陶建华  李凯 《信号处理》2023,39(4):632-638
语音情感识别是实现自然人机交互不可缺失的部分,是人工智能的重要组成部分。发音器官的调控引起情感语音声学特征的差异,从而被感知到不同的情感。传统的语音情感识别只是针对语音信号中的声学特征或听觉特征进行情感分类,忽略了声门波和声道等发音特征对情感感知的重要作用。在我们前期工作中,理论分析了声门波和声道形状对感知情感的重要影响,但未将声门波与声道特征用于语音情感识别。因此,本文从语音生成的角度重新探讨了声门波与声道特征对语音情感识别的可能性,提出一种基于源-滤波器模型的声门波和声道特征语音情感识别方法。首先,利用Liljencrants-Fant和Auto-Regressive eXogenous(ARX-LF)模型从语音信号中分离出情感语音的声门波和声道特征;然后,将分离出的声门波和声道特征送入双向门控循环单元(BiGRU)进行情感识别分类任务。在公开的情感数据集IEMOCAP上进行了情感识别验证,实验结果证明了声门波和声道特征可以有效的区分情感,且情感识别性能优于一些传统特征。本文从发音相关的声门波与声道研究语音情感识别,为语音情感识别技术提供了一种新思路。  相似文献   

8.
基于一种改进的监督流形学习算法的语音情感识别   总被引:2,自引:0,他引:2  
为了有效提高语音情感识别的性能,需要对嵌入在高维声学特征空间的非线性流形上的语音特征数据作非线性降维处理。监督局部线性嵌入(SLLE)是一种典型的用于非线性降维的监督流形学习算法。该文针对SLLE存在的缺陷,提出一种能够增强低维嵌入数据的判别力,具备最优泛化能力的改进SLLE算法。利用该算法对包含韵律和音质特征的48维语音情感特征数据进行非线性降维,提取低维嵌入判别特征用于生气、高兴、悲伤和中性4类情感的识别。在自然情感语音数据库的实验结果表明,该算法仅利用较少的9维嵌入特征就取得了90.78%的最高正确识别率,比SLLE提高了15.65%。可见,该算法用于语音情感特征数据的非线性降维,可以较好地改善语音情感识别结果。  相似文献   

9.
近年来,基于深度学习和脑电图(EEG)的情感识别方法取得了较好的效果。然而,现有方法依然存在脑电情感特征提取不够全面、受人工错误标注的情感标签影响较大等问题。对此,提出了并行可分离卷积和标签平滑正则化(PSC-LSR)网络模型。首先,通过注意力机制,赋予EEG重要时间点和重要通道更大的权重,得到EEG的浅层情感特征;其次,采用并行可分离卷积模块全面提取EEG情感信息,得到深层情感特征;最后,在优化模型参数时采用了情感标签平滑正则化方法,使模型对错误标签有更大的容错概率,增强了网络模型的泛化性和鲁棒性,提高了脑电情感识别的准确率。提出的方法在两个数据集进行了验证,其中,在DEAP数据集中,唤醒和效价两个维度的平均准确率分别达到了99.23%和99.13%;在Dreamer数据集中,唤醒和效价两个维度的平均准确率分别达到了97.33%和97.25%。  相似文献   

10.
情感在人际交互中扮演着重要的角色。在日常对话中,一些语句往往存在情感色彩较弱、情感类别复杂、模糊性高等现象,使对话语音情感识别成为一项具有挑战性的任务。针对该问题,现有很多工作通过对全局对话进行情感信息检索,将全局情感信息用于预测。然而,当对话中前后的话语情感变化较大时,不加选择的引入前文情感信息容易给当前预测带来干扰。本文提出了基于Wav2vec2.0与语境情感信息补偿的方法,旨在从前文中选择与当前话语最相关的情感信息作为补偿。首先通过语境信息补偿模块从历史对话中选择可能对当前话语情感影响最大的话语的韵律信息,利用长短时记忆网络将韵律信息构建为语境情感信息补偿表征。然后,利用预训练模型Wav2vec2.0提取当前话语的嵌入表征,将嵌入表征与语境表征融合用于情感识别。本方法在IEMOCAP数据集上的识别性能为69.0%(WA),显著超过了基线模型。   相似文献   

11.
俞佳佳  金赟  马勇  姜芳艽  戴妍妍 《信号处理》2021,37(10):1880-1888
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。   相似文献   

12.
从人类自然语言中提取和准确分类语音中的情感状态一直是人机交互的一个难点,同时相关研究在人工智能领域发挥着至关重要的作用.为了使语音情感识别系统有更好的鲁棒性,本文提出新的语音情感识别算法结构,主要包括PZCPA特征的提取方法,并且使用该特征进行基于深度学习的时域和频域特征融合,最后使用KNN进行语音情感识别.该算法在德...  相似文献   

13.
罗武骏  黄程韦  査诚  赵力 《信号处理》2013,29(10):1423-1432
本文研究了越南语语音情感识别问题,采集并建立了越南语情感数据库。母语为越南语的两名男性和两名女性说话人进行了越南语情感语音的表演和录制,通过多人听辨实验进行了数据的验证和评选,建立了一个初步的越南语语音情感数据库,为今后的跨语言研究提供数据基础。在所获得的情感数据上,提取了基本的语音特征,并构造了可用于情感识别的静态统计特征。采用高斯混合模型进行了建模与识别,识别结果显示,本文中的系统能够较好的识别越南语语音情感。在今后的工作中,可以进一步研究跨语言情感特征的分析与识别。   相似文献   

14.
在传统电力调度通信系统中,通话双方的语音内容被存储在单个录音文件中。如何将通话双方的人声区分开来,对于语音识别和声纹识别在电力调度领域应用具有重要的作用。当有多人同时说话时,如何将这些人声区分开来的问题,被称为鸡尾酒会问题。为解决鸡尾酒会问题,特别是单通道双人语音分离问题,提出了基于注意力机制的深度聚类网络。首先提取语音信号的MFCC特征,其次将其输入到神经网络提取更高维度的特征,再次采用注意力机制为每一特征分配权重,最后采用k-means聚类将同一说话人的语音聚类输出。在wsj0数据集上,所提算法模型相比于原始的聚类网络取得了更好的效果。测试结果表明:在封闭的数据集上,新算法的SDR增长在男性和男性混合语音、女性和女性混合语音、男性和女性混合语音及总体情况分别为20.58%、17.25%、1.88%、22.78%,而在开放数据集上的对应结果分别为3.56%、20.87%、1.04%、17.67%。  相似文献   

15.
黄程韦  金赟  包永强  余华  赵力 《信号处理》2013,29(1):98-106
本文中我们提出了一种将高斯混合模型同马尔可夫网络结合的时域多尺度语音情感识别框架,并将其应用在耳语音情感识别中。针对连续语音信号的特点,分别在耳语音信号的短句尺度上和长句尺度上进行了基于高斯混合模型的情感识别。根据情绪的维度空间论,耳语音信号中的情感信息具有时间上的连续性,因此利用三阶的马尔可夫网络对多尺度的耳语音情感分析进行了上下文的情感依赖关系的建模。采用了一种弹簧模型来定义二维情感维度空间中的高阶形变,并且利用模糊熵评价将高斯混合模型的似然度转化为马尔可夫网络中的一阶能量。实验结果显示,本文提出的情感识别算法在连续耳语音数据上获得了较好的识别结果,对愤怒的识别率达到了64.3%。实验结果进一步显示,与正常音的研究结论不同,耳语音中的喜悦情感的识别相对困难,而愤怒与悲伤之间的区分度较高,与Cirillo等人进行的人耳听辨研究结果一致。   相似文献   

16.
余华童馨 《电子器件》2022,45(5):1100-1104
提出一种基于粒子群优化算法的支持向量机网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,研究分析情感语音数据的韵律特征与音质特征。利用粒子群优化算法(PSO)训练网络的超参数以优化支持向量机模型,可快速地实现网络的收敛。最后在实验中比较线性核函数SVM、径向基核函数SVM与粒子群优化径向基SVM分别用于语音情感识别的识别率,结果显示粒子群优化径向基核SVM模型用于语音情感识别能获得明显的识别性能的提升。  相似文献   

17.
为提高智能语音情感识别系统的准确性,提出了一种基于卷积神经网络CNN(Convolution Neural Network)特征表征的语音情感识别模型,该卷积模型以 Lenet-5模型为基础,增加了一层卷积层和池化层,并将二维卷积核改为一维卷积核,将一维特征预处理后,输送进该模型中,对特征变换表征。最后利用SoftMax分类器实现情感分类,CASIA与 EMO-DB开数据库上的识别结果显示:与Lenet-5网络相比,所设计网络模型的准确率分别提升了1.3%与2%,与SoftMax分类器相比,准确率分别提升了3.8%与6.1%,仿真结果验证了网络模型的有效性。  相似文献   

18.
简述了利用深层卷积神经网络进行自动调制识别(Automatic Modulation Recognition,AMR)的进展,并结合其模型在基准数据集上的实验表明,大多数不依赖于先验知识的特征提取模型容易忽略模型参数量大、计算复杂度高的问题,因此将工作重点集中在保持高精确度的同时轻量化模型。利用多信道深度学习模型,从时间和空间的角度有效提取特征,搭建以卷积神经网络(Convolution Neural Networks,CNN)和门控循环单元(Gating Recurrent Unit,GRU)为特征提取层的深层学习框架,可以在现有高识别度模型的识别效果上有略微提升,具有高效的收敛速度,且减少了40%以上的参数体积,在训练时间和测试时间上更有优势。该方法在RadioML2016.10a数据集0 dB以上信噪比条件下的识别精度保持在90%以上。  相似文献   

19.
基于多分类器投票组合的语音情感识别   总被引:2,自引:0,他引:2  
为了提高语音情感的正确识别率,提出一种基于多分类器投票组合的语音情感识别新方法.在提取情感语音的韵律特征和音质特征基础上,利用投票方法将支持向量机、K近邻法和人工神经网络三种分类器构成组合分类器,实现对汉语生气、高兴、悲伤和惊奇4种主要情感类型的识别.实验结果表明,与使用单一分类器相比,组合分类器对语音情感的识别取得了87.4%的平均正确识别率,识别效果优于单一分类器.  相似文献   

20.
实用语音情感的特征分析与识别的研究   总被引:2,自引:0,他引:2  
 该文针对语音情感识别在实际中的应用,研究了烦躁等实用语音情感的分析与识别。通过计算机游戏诱发的方式采集了高自然度的语音情感数据,提取了74种情感特征,分析了韵律特征、音质特征与情感维度之间的关系,对烦躁等实用语音情感的声学特征进行了评价与选择,提出了针对实际应用环境的可拒判的实用语音情感识别方法。实验结果表明,文中采用的语音情感特征,能较好识别烦躁等实用语音情感,平均识别率达到75%以上。可拒判的实用语音情感识别方法,对模糊的和未知的情感类别的分类进行了合理的决策,在语音情感的实际应用中具有重要的意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号