首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
俞佳佳  金赟  马勇  姜芳艽  戴妍妍 《信号处理》2021,37(10):1880-1888
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。   相似文献   

2.
针对传统语音信号识别过程中出现的识别率较低或者是计算时间复杂度高的问题,提出了基于希尔伯特黄变换(HHT)的快速声频传感器车辆识别方法.该方法将HHT算法和语音信号特征提取中常用的梅尔倒谱系数(MFCC)相结合,形成一种新的特征提取方法.实验中,将这种方法分别与K-近邻算法(K-NN)、支持向量机算法(SVM)和稀疏表示分类算法(SRC)配合进行语音信号识别,结果表明,该特征提取方法与K-NN分类算法配合,在识别率和算法运行效率方面具有明显的优势.  相似文献   

3.
张昕然  查诚  宋鹏  陶华伟  赵力 《信号处理》2016,32(9):1117-1125
在语音情感识别技术中,由于噪声环境、说话方式和说话人特质原因,会造成实验数据库特征不匹配的情况。从语音学上分析,该问题多存在于跨数据库情感识别实验。训练的声学模型和用于测试的语句样本之间的错位,会使语音情感识别性能剧烈下降。本文据此所研究的选择性注意声学模型能有效探测变化的情感特征。同时,利用时频原子对模型进行改进,使之能提取跨语音数据库中的显著性特征用于情感识别。实验结果表明,利用文章所提方法在跨库情感样本上进行特征提取,再通过典型的分类器,识别性能提高了9个百分点,从而验证了该方法对不同数据库具有更好的鲁棒性。   相似文献   

4.
语音情感识别的研究进展   总被引:10,自引:0,他引:10  
情感在人类的感知、决策等过程扮演着重要角色.长期以来情感智能研究只存在于心理学和认知科学领域,近年来随着人工智能的发展,情感智能跟计算机技术结合产生了情感计算这一研究课题,这将大大的促进计算机技术的发展.情感自动识别是通向情感计算的第一步.语音作为人类最重要的交流媒介,携带着丰富的情感信息.如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注.本文从语音情感识别所涉及的几个重要问题出发,包括情感理论及情感分类、情感语音数据库、语音中的情感特征和语音情感识别算法等,介绍了当前的研究进展,并讨论了今后研究的几个关键问题.  相似文献   

5.
基于GDTW+SVM的语音识别   总被引:3,自引:0,他引:3  
针对经特征提取后语音信号的特征参数的维数不同问题,文章提出了基于GDTW核 SVM算法的语音识别方法。这种方法先对语音信号进行特征提取,并通过GDTW核把特征矢量映射到高维特征空间,然后在高维特征空间中应用支持矢量机的分类方法进行识别。实验证明,与DTW算法和神经网络方法相比,这种方法是可行的,能显著提高语音信号的识别率。  相似文献   

6.
为了提高情感识别的正确率,针对单一语音信号特征和表面肌电信号特征存在的局限性,提出了一种集成语音信号特征和表面肌电信号特征的情感自动识别模型.首先对语音信号和表面肌电信号进行预处理,并分别提取相关的语音信号和表面肌电信号特征,然后采用支持向量机对语音信号和表面肌电信号特征进行学习,分别建立相应的情感分类器,得到相应的识别结果,最后将识别结果分别输入到支持向量机确定两种特征的权重系数,从而得到最终的情感识别结果.两个标准语情感数据库的仿真结果表明,相对于其它情感识别模型,本文模型大幅提高了情感识别的正确率,人机交互情感识别系统提供了一种新的研究工具.  相似文献   

7.
在智能人-机交互系统中,语音信号的情感分类是目前热点的研究领域,并且得到了广泛的应用.本文提出一种基于特征提取和借助支持向量机(support vector machine,SVM)分类器(classifier)的情感互相关性的方法,并应用于情感语音识别.利用这种方法对3种情感语音信号进行情感分类.SVM分类器是利用情感语音信号中情感互相关性的特征提取进行分类的.这种通过 SVM 分类器的情感互相关性的自动分类方法,可以将情感识别率大幅提高,并且在识别愤怒情感时的准确率可以达到95.04%.  相似文献   

8.
人类对大脑的探索已进入了数字化时代,随着脑信号检测技术的日益成熟以及人工智能算法的研究进展,脑信号的解读研究也展现出越来越多的成果.本文首先介绍当下大脑信号获取的医学方法,而后简述脑电信号的特征提取以及分类识别方法,接着列举脑电识别的前沿研究,最后对脑电信号识别的数据应用领域进行展望.  相似文献   

9.
语音不仅包含所需要的文本内容,也包含所要表达的情感信息。情感识别是人机情感交互的关键。该研究从语音情感语料库、情感特征提取和情感识别的应用等方面对情感语音识别进行了综述,目的是让机器感知人类的情感状态,提高机器的人性化水平。  相似文献   

10.
李永伟  陶建华  李凯 《信号处理》2023,39(4):632-638
语音情感识别是实现自然人机交互不可缺失的部分,是人工智能的重要组成部分。发音器官的调控引起情感语音声学特征的差异,从而被感知到不同的情感。传统的语音情感识别只是针对语音信号中的声学特征或听觉特征进行情感分类,忽略了声门波和声道等发音特征对情感感知的重要作用。在我们前期工作中,理论分析了声门波和声道形状对感知情感的重要影响,但未将声门波与声道特征用于语音情感识别。因此,本文从语音生成的角度重新探讨了声门波与声道特征对语音情感识别的可能性,提出一种基于源-滤波器模型的声门波和声道特征语音情感识别方法。首先,利用Liljencrants-Fant和Auto-Regressive eXogenous(ARX-LF)模型从语音信号中分离出情感语音的声门波和声道特征;然后,将分离出的声门波和声道特征送入双向门控循环单元(BiGRU)进行情感识别分类任务。在公开的情感数据集IEMOCAP上进行了情感识别验证,实验结果证明了声门波和声道特征可以有效的区分情感,且情感识别性能优于一些传统特征。本文从发音相关的声门波与声道研究语音情感识别,为语音情感识别技术提供了一种新思路。  相似文献   

11.
孙聪珊  马琳  李海峰 《信号处理》2023,39(4):688-697
语音情感识别(Speech Emotion Recognition,SER)是人机交互的重要组成部分,具有广泛的研究和应用价值。针对当前SER中仍然存在着缺乏大规模语音情感数据集和语音情感特征的低鲁棒性而导致的语音情感识别准确率低等问题,提出了一种基于改进的经验模态分解方法(Empirical Mode Decomposition,EMD)和小波散射网络(Wavelet Scattering Network,WSN)的语音情感识别方法。首先,针对用于语音信号时频分析的EMD及其改进算法中存在的模态混叠问题(Mode Mixing)和噪声残余问题,提出了基于常数Q变换(Constant-Q Transform,CQT)和海洋捕食者算法(Marine Predator Algorithm,MPA)的优化掩模经验模态分解方法(Optimized Masking EMD based on CQT and MPA,CM-OMEMD)。采用CM-OMEMD算法对情感语音信号进行分解,得到固有模态函数(Intrinsic Mode Functions,IMFs),并从IMFs中提取了可以表征情感的时频特征作为第一个特征集。然后采用WSN提取了具有平移不变性和形变稳定性的散射系数特征作为第二个特征集。最后将两个特征集进行融合,采用支持向量机(Support Vector Machine,SVM)分类器进行分类。通过在含有七种情感状态的TESS数据集中的对比实验,证明了本文提出的系统的有效性。其中CM-OMEMD减小了模态混叠,提升了对情感语音信号时频分析的准确性,同时提出的SER系统显著提高了情绪识别的性能。   相似文献   

12.
语音的基频(也称音高、基音周期或F0)及其变化规律是语音信号的一个重要特征,在语音情绪识别、声纹识别中有重要的应用。而语音基频的提取一直是语音信号处理中的难点,这也是语音基频特征未能广泛应用于语音识别等应用的重要原因,因此准确高效的提取音高在语音信号处理中能够有重要的意义。本文基于归一化自相关函数,结合倒频谱方法,提取了一种改进的基于归一化自相关的语音基频提取算法,实验证明该方法在基频提取中取得了较好的结果。  相似文献   

13.
语音情感识别是利用计算机建立语音信息载体与情感度量之间的关系,并赋予计算机识别、理解人类情感的能力,语音情感识别在人机交互中起着重要作用,是人工智能领域重要发展方向。本文从语音情感识别在国内外发展历史以及开展的一系列会议、期刊和竞赛入手,分别从6个方面对语音情感识别的研究现状进行了梳理与归纳:首先,针对情感表达从离散、维度模型进行了阐述;其次,针对现有的情感数据库进行了统计与总结;然后,回顾了近20年部分代表性语音情感识别发展历程,并分别阐述了基于人工设计的语音情感特征的情感识别技术和基于端到端的语音情感识别技术;在此基础之上,总结了近几年的语音情感识别性能,尤其是近两年在语音领域的重要会议和期刊上的语音情感识别相关工作;介绍了语音情感识别在驾驶、智能交互领域、医疗健康,安全等领域的应用;最后,总结与阐述了语音情感识别领域仍面临的挑战与未来发展方向。本文旨在对语音情感识别相关工作进行深入分析与总结,为语音情感识别相关研究者提供有价值的参考。  相似文献   

14.
张悦  胡春燕 《电子科技》2009,33(11):67-72
为了提高脑电信号多分类的情感识别率,文中选用上海交通大学提供的SEED脑电信号数据集,对其进行分频带特征提取。将脑电数据的微分熵特征、微分不对称性特征和有理不对称性特征通过线性动力系统平滑特征后,与功率谱密度特征进行分类效果比较,再利用有记忆递归神经网络的方法进行分类,发现提取的微分熵特征经过分类的效果好。在对3种情感进行分类的过程中,采用长短时记忆神经网络分类相比于其他机器学习方法识别率有所提高,情感识别的平均准确率可达到95.045 9%。  相似文献   

15.
孙林慧  张蒙  梁文清 《信号处理》2022,38(12):2519-2531
实际语音分离时,混合语音的说话人性别组合相关信息往往是未知的。若直接在普适的模型上进行分离,语音分离效果欠佳。为了更好地进行语音分离,本文提出一种基于卷积神经网络-支持向量机(CNN-SVM)的性别组合判别模型,来确定混合语音的两个说话人是男-男、男-女还是女-女组合,以便选用相应性别组合的分离模型进行语音分离。为了弥补传统单一特征表征性别组合信息不足的问题,本文提出一种挖掘深度融合特征的策略,使分类特征包含更多性别组合类别的信息。本文的基于CNN-SVM性别组合分类的单通道语音分离方法,首先使用卷积神经网络挖掘梅尔频率倒谱系数和滤波器组特征的深度特征,融合这两种深度特征作为性别组合的分类特征,然后利用支持向量机对混合语音性别组合进行识别,最后选择对应性别组合的深度神经网络/卷积神经网络(DNN/CNN)模型进行语音分离。实验结果表明,与传统的单一特征相比,本文所提的深度融合特征可以有效提高混合语音性别组合的识别率;本文所提的语音分离方法在主观语音质量评估(PESQ)、短时客观可懂度(STOI)、信号失真比(SDR)指标上均优于普适的语音分离模型。  相似文献   

16.
In this paper, a novel subspace projection approach is proposed for analysis of speech signal under stressed condition. The subspace projection method is based on the assumption of orthogonality between speech subspace and stress subspace. Speech and stress subspaces contain speech and stress information, respectively. The projection of stressed speech vectors onto the speech subspace will separate speech-specific information. In this work, the speech subspace consists of neutral speech vectors. Speech and stress recognition techniques are used to verify the orthogonal relation between speech and stress subspaces. The evaluation database consists of 119 word vocabulary under neutral, angry, sad and Lombard conditions. Hidden Markov models for speech and stress recognition are used with mel-frequency cepstral coefficient features for evaluation of estimated speech and stress information.  相似文献   

17.
The research of emotion recognition based on electroencephalogram (EEG) signals often ignores the relatedinformation between the brain electrode channels and the contextual emotional information existing in EEG signals,which may contain important characteristics related to emotional states. Aiming at the above defects, aspatiotemporal emotion recognition method based on a 3-dimensional (3D) time-frequency domain feature matrixwas proposed. Specifically, the extracted time-frequency domain EEG features are first expressed as a 3D matrixformat according to the actual position of the cerebral cortex. Then, the input 3D matrix is processed successivelyby multivariate convolutional neural network (MVCNN) and long short-term memory (LSTM) to classify theemotional state. Spatiotemporal emotion recognition method is evaluated on the DEAP data set, and achievedaccuracy of 87.58% and 88.50% on arousal and valence dimensions respectively in binary classification tasks, aswell as obtained accuracy of 84.58% in four class classification tasks. The experimental results show that 3D matrixrepresentation can represent emotional information more reasonably than two-dimensional (2D). In addition,MVCNN and LSTM can utilize the spatial information of the electrode channels and the temporal context information of the EEG signal respectively.  相似文献   

18.
张天骐  汪锐  安泽亮  王雪怡  方竹 《信号处理》2022,38(9):1940-1953
自动调制分类(Automatic Modulation Classification,AMC)在认知无线电中起着提高频谱利用率的重要作用,然而,现有的大多数工作都集中在单输入单输出系统中的单载波通信。针对当前非协作通信中多输入多输出正交频分多路复用(Multiple-Input Multiple-Output Orthogonal Frequency Division Multiplexing,MIMO-OFDM)系统子载波的盲调制识别问题,本文提出了一种基于多端特征融合模型的盲调制识别方法。首先,利用特征矩阵的联合近似对角化算法(Joint Approximate Diagonalization of Eigenvalue Matrix,JADE)从接收端的混合信号中恢复发送信号。然后,提取恢复信号的循环谱剖面和同向正交分量作为浅层特征。最后,搭建多端特征融合模型,利用一维卷积网络(One-Dimensional Convolutional Neural Network,1D-CNN)与通道注意力模块(Channel Attention Module,CAM)的串联模型完成对浅层特征...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号