首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
语音时频特征的时间依赖性、局部相关性、全局相关性等特性,使得传统的神经网络结构与时频域语音增强任务无法完全相适应。针对这一问题,首先利用卷积层代替门控循环单元网络中的全连接层,构成卷积门控循环网络,解决门控循环单元网络在时间维度建模时无法提取频率维度局部相关性的问题;又因卷积层无法提取频率维度的全局相关性,进一步利用注意力机制关注全局相关性的能力,解决卷积门控循环网络无法关注频率维度全局相关性的问题,最后提出了一种深度融合自注意力机制的自注意-卷积门控循环网络。实验证明,该网络通过关注时频域特征的多种特性,有效地提升了语音增强性能。  相似文献   

2.
张昕然  巨晓正  宋鹏  查诚  赵力 《信号处理》2017,33(5):649-660
跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合是目前的技术难点。本文利用深度学习领域的深度信念模型,提出了基于深度信念网络的特征层融合方法。将语音频谱图中隐含的情感信息作为图像特征,与传统情感特征融合。研究解决了跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合的技术难点。利用STB/Itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发,提取了新的语谱图特征;然后研究改进的DBN网络模型并对传统声学特征与新提取的语谱图特征进行了特征层融合,增强了特征子集的尺度,提升了情感表征能力。通过在ABC数据库和多个中文数据库上的实验验证,特征融合后的新特征子集相比传统的语音情感特征,其跨数据库识别结果获得了明显提升。   相似文献   

3.
夏玉果  杜静赵力 《电子器件》2022,45(6):1434-1440
为了进一步提升语音情感特征的区别性,提出一种基于3D倒谱特征和注意力机制的语音情感识别方法。在提取典型特征MFCC的基础上,融合其一阶和二阶差分形成动态的3D倒谱特征矢量,然后利用卷积神经网络和双向长短期记忆网络搭建双向循环卷积神经网络(CNN-BiLSTM)进行长时建模,并利用注意力机制,进一步增强语音关键性情感特征的权重。实验结果表明,该方法能聚焦特征的有用信息,从而有效提高语音情感识别的准确率,在汉语情感语料库CASIA的准确率达到90.48%。  相似文献   

4.
近年来,情感识别成为了人机交互领域的研究热点问题,而多模态维度情感识别能够检测出细微情感变化,得到了越来越多的关注多模态维度情感识别中需要考虑如何进行不同模态情感信息的有效融合.针对特征层融合存在有效特征提取和模态同步的问题、决策层融合存在不同模态特征信息的关联问题,本文采用模型层融合策略,提出了基于多头注意力机制的多...  相似文献   

5.
情感在人际交互中扮演着重要的角色。在日常对话中,一些语句往往存在情感色彩较弱、情感类别复杂、模糊性高等现象,使对话语音情感识别成为一项具有挑战性的任务。针对该问题,现有很多工作通过对全局对话进行情感信息检索,将全局情感信息用于预测。然而,当对话中前后的话语情感变化较大时,不加选择的引入前文情感信息容易给当前预测带来干扰。本文提出了基于Wav2vec2.0与语境情感信息补偿的方法,旨在从前文中选择与当前话语最相关的情感信息作为补偿。首先通过语境信息补偿模块从历史对话中选择可能对当前话语情感影响最大的话语的韵律信息,利用长短时记忆网络将韵律信息构建为语境情感信息补偿表征。然后,利用预训练模型Wav2vec2.0提取当前话语的嵌入表征,将嵌入表征与语境表征融合用于情感识别。本方法在IEMOCAP数据集上的识别性能为69.0%(WA),显著超过了基线模型。   相似文献   

6.
在车辆重识别(re-identification,Re-ID) 任务中,通过对全局及局部信息的联合提取已成为目前主流的方法,是许多重识别模型在提取局部信息时只关注了丰富程度而忽略了完整性。针对该问题,提出了一种基于关系融合和特征分解的算法。该算法从空间与通道维度出发,设计对骨干网络所提取的特征沿垂直、水平、通道3维度分割,首先,为了更好地凸显车辆的前景区域,提出一种混合注意力模块(mixed attention module,MAM) ,之后,为了在空间维度上挖掘丰富特征信息的同时使得网络关注更完整的感兴趣区域,设计对垂直及水平方向的分割后的特征实现基于图的关系融合。为了赋予网络捕捉更具判别性信息的能力,在通道方向上对分割后的局部特征实现特征分解。最后,在全局分支特征与局部分支下所提取的鲁棒性特征的共同作用下实现车辆重识别。实验结果表明,本文算法在两个主流车辆重识别数据集上取得了更先进的性能。  相似文献   

7.
藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机(SVM)、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集(TBSEC001)上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。  相似文献   

8.
李永伟  陶建华  李凯 《信号处理》2023,39(4):632-638
语音情感识别是实现自然人机交互不可缺失的部分,是人工智能的重要组成部分。发音器官的调控引起情感语音声学特征的差异,从而被感知到不同的情感。传统的语音情感识别只是针对语音信号中的声学特征或听觉特征进行情感分类,忽略了声门波和声道等发音特征对情感感知的重要作用。在我们前期工作中,理论分析了声门波和声道形状对感知情感的重要影响,但未将声门波与声道特征用于语音情感识别。因此,本文从语音生成的角度重新探讨了声门波与声道特征对语音情感识别的可能性,提出一种基于源-滤波器模型的声门波和声道特征语音情感识别方法。首先,利用Liljencrants-Fant和Auto-Regressive eXogenous(ARX-LF)模型从语音信号中分离出情感语音的声门波和声道特征;然后,将分离出的声门波和声道特征送入双向门控循环单元(BiGRU)进行情感识别分类任务。在公开的情感数据集IEMOCAP上进行了情感识别验证,实验结果证明了声门波和声道特征可以有效的区分情感,且情感识别性能优于一些传统特征。本文从发音相关的声门波与声道研究语音情感识别,为语音情感识别技术提供了一种新思路。  相似文献   

9.
黄程韦  金赟  包永强  余华  赵力 《信号处理》2013,29(1):98-106
本文中我们提出了一种将高斯混合模型同马尔可夫网络结合的时域多尺度语音情感识别框架,并将其应用在耳语音情感识别中。针对连续语音信号的特点,分别在耳语音信号的短句尺度上和长句尺度上进行了基于高斯混合模型的情感识别。根据情绪的维度空间论,耳语音信号中的情感信息具有时间上的连续性,因此利用三阶的马尔可夫网络对多尺度的耳语音情感分析进行了上下文的情感依赖关系的建模。采用了一种弹簧模型来定义二维情感维度空间中的高阶形变,并且利用模糊熵评价将高斯混合模型的似然度转化为马尔可夫网络中的一阶能量。实验结果显示,本文提出的情感识别算法在连续耳语音数据上获得了较好的识别结果,对愤怒的识别率达到了64.3%。实验结果进一步显示,与正常音的研究结论不同,耳语音中的喜悦情感的识别相对困难,而愤怒与悲伤之间的区分度较高,与Cirillo等人进行的人耳听辨研究结果一致。   相似文献   

10.
对于语音的情感识别,针对单层长短期记忆(LSTM)网络在解决复杂问题时的泛化能力不足,提出一种嵌入自注意力机制的堆叠LSTM模型,并引入惩罚项来提升网络性能.对于视频序列的情感识别,引入注意力机制,根据每个视频帧所包含情感信息的多少为其分配权重后再进行分类.最后利用加权决策融合方法融合表情和语音信号,实现最终的情感识别...  相似文献   

11.
李洪伟  马琳  李海峰 《信号处理》2023,39(4):639-648
语音是人类表达思想和感情交流最重要的工具,是人类文化的重要组成部分。语音情感识别作为情感计算中的重要课题已经成为国际上的研究热点,受到越来越多的关注。已有神经科学研究表明,大脑是产生调节情感的物质基础。因此,在语音情感的研究中,我们不能仅考虑语音信号自身,还应将大脑的活动信号融入语音情感识别中,以实现更高准确率的情感识别。基于上述思想,本文提出了一种基于核典型相关分析(KCCA)的语音特征提取方法。该方法将语音特征与脑电图(EEG)特征映射到高维希尔伯特空间,并计算二者的最大相关系数。KCCA将语音特征在高维希尔伯特空间上向与脑电特征相关性最大的方向投影,最终得到包含脑电信息的语音特征。本文方法将与语音情感相关的脑电信息融入语音情感特征提取中,所提特征能够更准确的表征情感。同时,本方法在理论上具有良好的可迁移性,当所提脑电特征足够准确与具有代表性时,KCCA建模得到的投影向量具有通用性,可直接用于新的语音情感数据集中而无需重新采集和计算相应的脑电信号。在自建语音情感数据库与公开语音情感数据库MSP-IMPROV上的实验结果表明,使用投影语音特征进行语音情感分类的方法优于使用原始音频特征...  相似文献   

12.
俞佳佳  金赟  马勇  姜芳艽  戴妍妍 《信号处理》2021,37(10):1880-1888
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。   相似文献   

13.
孙聪珊  马琳  李海峰 《信号处理》2023,39(4):688-697
语音情感识别(Speech Emotion Recognition,SER)是人机交互的重要组成部分,具有广泛的研究和应用价值。针对当前SER中仍然存在着缺乏大规模语音情感数据集和语音情感特征的低鲁棒性而导致的语音情感识别准确率低等问题,提出了一种基于改进的经验模态分解方法(Empirical Mode Decomposition,EMD)和小波散射网络(Wavelet Scattering Network,WSN)的语音情感识别方法。首先,针对用于语音信号时频分析的EMD及其改进算法中存在的模态混叠问题(Mode Mixing)和噪声残余问题,提出了基于常数Q变换(Constant-Q Transform,CQT)和海洋捕食者算法(Marine Predator Algorithm,MPA)的优化掩模经验模态分解方法(Optimized Masking EMD based on CQT and MPA,CM-OMEMD)。采用CM-OMEMD算法对情感语音信号进行分解,得到固有模态函数(Intrinsic Mode Functions,IMFs),并从IMFs中提取了可以表征情感的时频特征作为第一个特征集。然后采用WSN提取了具有平移不变性和形变稳定性的散射系数特征作为第二个特征集。最后将两个特征集进行融合,采用支持向量机(Support Vector Machine,SVM)分类器进行分类。通过在含有七种情感状态的TESS数据集中的对比实验,证明了本文提出的系统的有效性。其中CM-OMEMD减小了模态混叠,提升了对情感语音信号时频分析的准确性,同时提出的SER系统显著提高了情绪识别的性能。   相似文献   

14.
时文华  张雄伟  邹霞  孙蒙 《信号处理》2019,35(4):631-640
针对传统的神经网络未能对时频域的相关性充分利用的问题,提出了一种利用深度全卷积编解码神经网络的单通道语音增强方法。在编码端,通过卷积层的卷积操作对带噪语音的时频表示逐级提取特征,在得到目标语音高级特征表示的同时逐层抑制背景噪声。解码端和编码端在结构上对称,在解码端,对编码端获得的高级特征表示进行反卷积、上采样操作,逐层恢复目标语音。跳跃连接可以很好地解决极深网络中训练时存在的梯度弥散问题,本文在编解码端的对应层之间引入跳跃连接,将编码端特征图信息传递到对应的解码端,有利于更好地恢复目标语音的细节特征。 对特征融合和特征拼接两种跳跃连接方式、基于L1和 L2两种训练损失函数对语音增强性能的影响进行了研究,通过实验验证所提方法的有效性。   相似文献   

15.
谱特征在语音情感识别中起到了重要的作用,然而现有的谱特征仍未能充分表达谱图中的语音情感信息.为研究语音情感与谱图之间的联系,提出了一种面向语音情感识别的Gabor分块局部二值模式特征(GBLBP)。首先,获取情感语音的对数能量谱;然后,采用多尺度,多方向的Gabor小波对对数能量谱进行处理,得到Gabor谱图;再次,对每张Gabor谱图进行分块,采用局部二值模式提取每个块的局部能量分布信息;最后,将提取到的所有特征级联,得到GBLBP特征。Berlin库上的实验结果表明:GBLBP特征的平均加权召回率比MFCC高了9%,识别性能显著优于众多谱特征,且与现有声学特征有较好的融合性。   相似文献   

16.
基于一种改进的监督流形学习算法的语音情感识别   总被引:2,自引:0,他引:2  
为了有效提高语音情感识别的性能,需要对嵌入在高维声学特征空间的非线性流形上的语音特征数据作非线性降维处理。监督局部线性嵌入(SLLE)是一种典型的用于非线性降维的监督流形学习算法。该文针对SLLE存在的缺陷,提出一种能够增强低维嵌入数据的判别力,具备最优泛化能力的改进SLLE算法。利用该算法对包含韵律和音质特征的48维语音情感特征数据进行非线性降维,提取低维嵌入判别特征用于生气、高兴、悲伤和中性4类情感的识别。在自然情感语音数据库的实验结果表明,该算法仅利用较少的9维嵌入特征就取得了90.78%的最高正确识别率,比SLLE提高了15.65%。可见,该算法用于语音情感特征数据的非线性降维,可以较好地改善语音情感识别结果。  相似文献   

17.
罗武骏  黄程韦  査诚  赵力 《信号处理》2013,29(10):1423-1432
本文研究了越南语语音情感识别问题,采集并建立了越南语情感数据库。母语为越南语的两名男性和两名女性说话人进行了越南语情感语音的表演和录制,通过多人听辨实验进行了数据的验证和评选,建立了一个初步的越南语语音情感数据库,为今后的跨语言研究提供数据基础。在所获得的情感数据上,提取了基本的语音特征,并构造了可用于情感识别的静态统计特征。采用高斯混合模型进行了建模与识别,识别结果显示,本文中的系统能够较好的识别越南语语音情感。在今后的工作中,可以进一步研究跨语言情感特征的分析与识别。   相似文献   

18.
孙林慧  张蒙  梁文清 《信号处理》2022,38(12):2519-2531
实际语音分离时,混合语音的说话人性别组合相关信息往往是未知的。若直接在普适的模型上进行分离,语音分离效果欠佳。为了更好地进行语音分离,本文提出一种基于卷积神经网络-支持向量机(CNN-SVM)的性别组合判别模型,来确定混合语音的两个说话人是男-男、男-女还是女-女组合,以便选用相应性别组合的分离模型进行语音分离。为了弥补传统单一特征表征性别组合信息不足的问题,本文提出一种挖掘深度融合特征的策略,使分类特征包含更多性别组合类别的信息。本文的基于CNN-SVM性别组合分类的单通道语音分离方法,首先使用卷积神经网络挖掘梅尔频率倒谱系数和滤波器组特征的深度特征,融合这两种深度特征作为性别组合的分类特征,然后利用支持向量机对混合语音性别组合进行识别,最后选择对应性别组合的深度神经网络/卷积神经网络(DNN/CNN)模型进行语音分离。实验结果表明,与传统的单一特征相比,本文所提的深度融合特征可以有效提高混合语音性别组合的识别率;本文所提的语音分离方法在主观语音质量评估(PESQ)、短时客观可懂度(STOI)、信号失真比(SDR)指标上均优于普适的语音分离模型。  相似文献   

19.
Speech emotion recognition using modified quadratic discrimination function   总被引:1,自引:0,他引:1  
Quadratic Discrimination Function (QDF) is commonly used in speech emotion recognition, which proceeds on the premise that the input data is normal distribution. In this paper, we propose a transformation to normalize the emotional features, emotion recognition. Features based on prosody then derivate a Modified QDF (MQDF) to speech and voice quality are extracted and Principal Component Analysis Neural Network (PCANN) is used to reduce dimension of the feature vectors. The results show that voice quality features are effective supplement for recognition, and the method in this paper could improve the recognition ratio effectively.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号