期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李永伟陶建华李凯《信号处理》2023,39(4):632-638

语音情感识别是实现自然人机交互不可缺失的部分,是人工智能的重要组成部分。发音器官的调控引起情感语音声学特征的差异,从而被感知到不同的情感。传统的语音情感识别只是针对语音信号中的声学特征或听觉特征进行情感分类,忽略了声门波和声道等发音特征对情感感知的重要作用。在我们前期工作中,理论分析了声门波和声道形状对感知情感的重要影响,但未将声门波与声道特征用于语音情感识别。因此,本文从语音生成的角度重新探讨了声门波与声道特征对语音情感识别的可能性,提出一种基于源-滤波器模型的声门波和声道特征语音情感识别方法。首先,利用Liljencrants-Fant和Auto-Regressive eXogenous(ARX-LF)模型从语音信号中分离出情感语音的声门波和声道特征;然后,将分离出的声门波和声道特征送入双向门控循环单元（BiGRU）进行情感识别分类任务。在公开的情感数据集IEMOCAP上进行了情感识别验证,实验结果证明了声门波和声道特征可以有效的区分情感,且情感识别性能优于一些传统特征。本文从发音相关的声门波与声道研究语音情感识别,为语音情感识别技术提供了一种新思路。相似文献

2.

越南语语音情感特征分析与识别

下载免费PDF全文

罗武骏黄程韦査诚赵力《信号处理》2013,29(10):1423-1432

本文研究了越南语语音情感识别问题,采集并建立了越南语情感数据库。母语为越南语的两名男性和两名女性说话人进行了越南语情感语音的表演和录制,通过多人听辨实验进行了数据的验证和评选,建立了一个初步的越南语语音情感数据库,为今后的跨语言研究提供数据基础。在所获得的情感数据上,提取了基本的语音特征,并构造了可用于情感识别的静态统计特征。采用高斯混合模型进行了建模与识别,识别结果显示,本文中的系统能够较好的识别越南语语音情感。在今后的工作中,可以进一步研究跨语言情感特征的分析与识别。相似文献

3.

语音情感识别综述

下载免费PDF全文

陶建华陈俊杰李永伟《信号处理》2023,39(4):571-587

语音情感识别是利用计算机建立语音信息载体与情感度量之间的关系,并赋予计算机识别、理解人类情感的能力,语音情感识别在人机交互中起着重要作用,是人工智能领域重要发展方向。本文从语音情感识别在国内外发展历史以及开展的一系列会议、期刊和竞赛入手,分别从6个方面对语音情感识别的研究现状进行了梳理与归纳：首先,针对情感表达从离散、维度模型进行了阐述;其次,针对现有的情感数据库进行了统计与总结;然后,回顾了近20年部分代表性语音情感识别发展历程,并分别阐述了基于人工设计的语音情感特征的情感识别技术和基于端到端的语音情感识别技术;在此基础之上,总结了近几年的语音情感识别性能,尤其是近两年在语音领域的重要会议和期刊上的语音情感识别相关工作;介绍了语音情感识别在驾驶、智能交互领域、医疗健康,安全等领域的应用;最后,总结与阐述了语音情感识别领域仍面临的挑战与未来发展方向。本文旨在对语音情感识别相关工作进行深入分析与总结,为语音情感识别相关研究者提供有价值的参考。相似文献

4.

基于Sinc-Transformer模型的原始语音情感识别

下载免费PDF全文

俞佳佳金赟马勇姜芳艽戴妍妍《信号处理》2021,37(10):1880-1888

考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer（SincNet Transformer）模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库（IEMOCAP）的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。相似文献

5.

基于一种改进的监督流形学习算法的语音情感识别 总被引：2，自引：0，他引：2

张石清李乐民赵知劲《电子与信息学报》2010,32(11):2724-2729

为了有效提高语音情感识别的性能,需要对嵌入在高维声学特征空间的非线性流形上的语音特征数据作非线性降维处理。监督局部线性嵌入(SLLE)是一种典型的用于非线性降维的监督流形学习算法。该文针对SLLE存在的缺陷,提出一种能够增强低维嵌入数据的判别力,具备最优泛化能力的改进SLLE算法。利用该算法对包含韵律和音质特征的48维语音情感特征数据进行非线性降维,提取低维嵌入判别特征用于生气、高兴、悲伤和中性4类情感的识别。在自然情感语音数据库的实验结果表明,该算法仅利用较少的9维嵌入特征就取得了90.78%的最高正确识别率,比SLLE提高了15.65%。可见,该算法用于语音情感特征数据的非线性降维,可以较好地改善语音情感识别结果。相似文献

6.

Speech and Language Processing for Multimodal Human-Computer Interaction

L. Deng Y. Wang K. Wang A. Acero H. Hon J. Droppo C. Boulis M. Mahajan X.D. Huang 《Journal of Signal Processing Systems》2004,36(2-3):161-187

In this paper, we describe our recent work at Microsoft Research, in the project codenamed Dr. Who, aimed at the development of enabling technologies for speech-centric multimodal human-computer interaction. In particular, we present in detail MiPad as the first Dr. Who's application that addresses specifically the mobile user interaction scenario. MiPad is a wireless mobile PDA prototype that enables users to accomplish many common tasks using a multimodal spoken language interface and wireless-data technologies. It fully integrates continuous speech recognition and spoken language understanding, and provides a novel solution to the current prevailing problem of pecking with tiny styluses or typing on minuscule keyboards in today's PDAs or smart phones. Despite its current incomplete implementation, we have observed that speech and pen have the potential to significantly improve user experience in our user study reported in this paper. We describe in this system-oriented paper the main components of MiPad, with a focus on the robust speech processing and spoken language understanding aspects. The detailed MiPad components discussed include: distributed speech recognition considerations for the speech processing algorithm design; a stereo-based speech feature enhancement algorithm used for noise-robust front-end speech processing; Aurora2 evaluation results for this front-end processing; speech feature compression (source coding) and error protection (channel coding) for distributed speech recognition in MiPad; HMM-based acoustic modeling for continuous speech recognition decoding; a unified language model integrating context-free grammar and N-gram model for the speech decoding; schema-based knowledge representation for the MiPad's personal information management task; a unified statistical framework that integrates speech recognition, spoken language understanding and dialogue management; the robust natural language parser used in MiPad to process the speech recognizer's output; a machine-aided grammar learning and development used for spoken language understanding for the MiPad task; Tap & Talk multimodal interaction and user interface design; back channel communication and MiPad's error repair strategy; and finally, user study results that demonstrate the superior throughput achieved by the Tap & Talk multimodal interaction over the existing pen-only PDA interface. These user study results highlight the crucial role played by speech in enhancing the overall user experience in MiPad-like human-computer interaction devices. 相似文献

7.

基于CM-OMEMD和小波散射网络的语音情感识别

下载免费PDF全文

孙聪珊马琳李海峰《信号处理》2023,39(4):688-697

语音情感识别（Speech Emotion Recognition,SER）是人机交互的重要组成部分,具有广泛的研究和应用价值。针对当前SER中仍然存在着缺乏大规模语音情感数据集和语音情感特征的低鲁棒性而导致的语音情感识别准确率低等问题,提出了一种基于改进的经验模态分解方法（Empirical Mode Decomposition,EMD）和小波散射网络（Wavelet Scattering Network,WSN）的语音情感识别方法。首先,针对用于语音信号时频分析的EMD及其改进算法中存在的模态混叠问题（Mode Mixing）和噪声残余问题,提出了基于常数Q变换（Constant-Q Transform,CQT）和海洋捕食者算法（Marine Predator Algorithm,MPA）的优化掩模经验模态分解方法（Optimized Masking EMD based on CQT and MPA,CM-OMEMD）。采用CM-OMEMD算法对情感语音信号进行分解,得到固有模态函数（Intrinsic Mode Functions,IMFs）,并从IMFs中提取了可以表征情感的时频特征作为第一个特征集。然后采用WSN提取了具有平移不变性和形变稳定性的散射系数特征作为第二个特征集。最后将两个特征集进行融合,采用支持向量机（Support Vector Machine,SVM）分类器进行分类。通过在含有七种情感状态的TESS数据集中的对比实验,证明了本文提出的系统的有效性。其中CM-OMEMD减小了模态混叠,提升了对情感语音信号时频分析的准确性,同时提出的SER系统显著提高了情绪识别的性能。相似文献

8.

维吾尔语音情感声学特征提取与建模研究

阿依提拉·米吉提艾斯卡尔·肉孜艾斯卡尔·艾木都拉《通信技术》2013,(11):51-54

在收集较大规模情感语音语料库基础上,分析了维吾尔语语音在韵律特征和音质特征方面的19种语境信息和6种情感特征参数,并利用STRAIGHT算法实现了情感特征参数的提取,最后利用分类回归树（CART）算法针对各个情感特征和中性向其它情感的转换特征进行了建模。实验结果表明,所提取情感特征能准确的区分各个情感类型,为实现中性语音转换成各种目标情感语音奠定了基础。相似文献

9.

Speech emotion recognition using modified quadratic discrimination function 总被引：1，自引：0，他引：1

Yan Zhao Li Zhao Cairong Zou Yinhua Yu 《电子科学学刊(英文版)》2008,25(6):840-844

Quadratic Discrimination Function （QDF） is commonly used in speech emotion recognition, which proceeds on the premise that the input data is normal distribution. In this paper, we propose a transformation to normalize the emotional features, emotion recognition. Features based on prosody then derivate a Modified QDF （MQDF） to speech and voice quality are extracted and Principal Component Analysis Neural Network （PCANN） is used to reduce dimension of the feature vectors. The results show that voice quality features are effective supplement for recognition, and the method in this paper could improve the recognition ratio effectively. 相似文献

10.

基于HMM和ANN的语音情感识别研究

胡洋蒲南江吴黎慧高磊《电子测试》2011,(8):33-35,87

语音情感识别是语音识别中的重要分支,是和谐人机交互的基础理论。由于单一分类器在语音情感识别中的局限性,本文提出了隐马尔科夫模型（HMM）和人工神经网络（ANN）相结合的方法,对高兴、惊奇、愤怒、悲伤、恐惧、平静六种情感分别设计一个HMM模型,得到每种情感的最佳匹配序列,然后利用ANN作为后验分类器对测试样本进行分类,通... 相似文献

11.

基于条件变分自编码器的端到端情感语音合成方法

下载免费PDF全文

张建明彭锦涛贾洪杰毛启容《信号处理》2023,39(4):678-687

情感语音合成作为语音合成的一个重要分支,在人机交互领域得到了广泛的关注。如何获得更好的情感嵌入并有效地将其引入到语音合成声学模型中是目前主要存在的问题。表达性语音合成往往从参考音频中获得风格嵌入,但只能学习到风格的平均表示,无法合成显著的情感语音。该文提出一种基于条件变分自编码器的端到端情感语音合成方法（Conditional Duration-Tacotron,CD-Tacotron）,该方法在Tacotron2模型的基础上进行改进,引入条件变分自编码器从语音信号中解耦学习情感信息,并将其作为条件因子,然后通过使用情感标签将其编码为向量后与其他风格信息拼接,最终通过声谱预测网络合成情感语音。在ESD数据集上的主观和客观实验表明,与目前主流的方法GST-Tacotron和VAE-Tacotron相比,该文提出的方法可以生成更具表现力的情感语音。相似文献

12.

采用原子表示模型的维吾尔语语音情感识别

下载免费PDF全文

塔什甫拉提·尼扎木丁梁瑞宇谢跃赵力《信号处理》2020,36(1):9-17

针对现有的基于表示学习的语音情感计算算法中存在着限制条件单一的问题,且没有证明它们的有效性,提出了一种采用原子表示模型的语音情感识别算法。通过引入一个新的条件,称为原子分类条件。在这种条件下,对正确识别新的测试情感样本有较好的效果。现有的基于表示的分类算法以单一的稀疏表示方法为主,而提出的算法可以结合稀疏表示模型和其他的表示模型。该算法能够放宽适用条件的范围,使得原子表示模型适应更多分类任务。采集并建立了维吾尔语语音情感数据库。在该情感数据库上,分析维吾尔语情感语音的基本声学特征。通过对情感特征空间进行原子表示的映射变换,可以有效表示情感特征空间。经实验结果证明所提出的方法优于传统的方法,在维吾尔语情感语音数据库上达到了64.17%识别率。相似文献

13.

用于跨库语音情感识别的DBN特征融合方法

下载免费PDF全文

张昕然巨晓正宋鹏查诚赵力《信号处理》2017,33(5):649-660

跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合是目前的技术难点。本文利用深度学习领域的深度信念模型,提出了基于深度信念网络的特征层融合方法。将语音频谱图中隐含的情感信息作为图像特征,与传统情感特征融合。研究解决了跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合的技术难点。利用STB/Itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发,提取了新的语谱图特征;然后研究改进的DBN网络模型并对传统声学特征与新提取的语谱图特征进行了特征层融合,增强了特征子集的尺度,提升了情感表征能力。通过在ABC数据库和多个中文数据库上的实验验证,特征融合后的新特征子集相比传统的语音情感特征,其跨数据库识别结果获得了明显提升。相似文献

14.

Application of Emotion Recognition and Modification for Emotional Telugu Speech Recognition

Vegesna Vishnu Vidyadhara Raju Gurugubelli Krishna Vuppala Anil Kumar 《Mobile Networks and Applications》2019,24(1):193-201

Majority of the automatic speech recognition systems (ASR) are trained with neutral speech and the performance of these systems are affected due to the presence of emotional content in the speech. The recognition of these emotions in human speech is considered to be the crucial aspect of human-machine interaction. The combined spectral and differenced prosody features are considered for the task of the emotion recognition in the first stage. The task of emotion recognition does not serve the sole purpose of improvement in the performance of an ASR system. Based on the recognized emotions from the input speech, the corresponding adapted emotive ASR model is selected for the evaluation in the second stage. This adapted emotive ASR model is built using the existing neutral and synthetically generated emotive speech using prosody modification method. In this work, the importance of emotion recognition block at the front-end along with the emotive speech adaptation to the ASR system models were studied. The speech samples from IIIT-H Telugu speech corpus were considered for building the large vocabulary ASR systems. The emotional speech samples from IITKGP-SESC Telugu corpus were used for the evaluation. The adapted emotive speech models have yielded better performance over the existing neutral speech models.

相似文献

15.

基于LS-SVM的情感语音识别

周慧魏霖静《电子设计工程》2012,20(16):188-190

提出了一种基于LS-SVM的情感语音识别方法。即先提取实验中语音信号的基频,能量,语速等参数为情感特征,然后采用LS-SVM方法对相应的情感语音信号建立模型,进行识别。实验结果表明,利用LS-SVM进行基本情感识别时,识别率较高。相似文献

16.

A Subspace Projection Approach for Analysis of Speech Under Stressed Condition

Sumitra Shukla S. Dandapat S. R. Mahadeva Prasanna 《Circuits, Systems, and Signal Processing》2016,35(12):4486-4500

In this paper, a novel subspace projection approach is proposed for analysis of speech signal under stressed condition. The subspace projection method is based on the assumption of orthogonality between speech subspace and stress subspace. Speech and stress subspaces contain speech and stress information, respectively. The projection of stressed speech vectors onto the speech subspace will separate speech-specific information. In this work, the speech subspace consists of neutral speech vectors. Speech and stress recognition techniques are used to verify the orthogonal relation between speech and stress subspaces. The evaluation database consists of 119 word vocabulary under neutral, angry, sad and Lombard conditions. Hidden Markov models for speech and stress recognition are used with mel-frequency cepstral coefficient features for evaluation of estimated speech and stress information. 相似文献

17.

基于SVM的语音情感识别研究

胡洋吴黎慧高磊蒲南江《电子测试》2011,(9):25-28

随着计算机技术的发展,人们对和谐人机交互的要求不断提高,这就要求计算机能理解说话人的情感信息,即能进行语音情感识别。本文提出了一种基于支持向量机（SVM）的语音情感识别方法,主要对人类的6种基本情感：高兴、惊奇、愤怒、悲伤、恐惧、平静进行研究。首先对自建语音情感数据库的情感语句提取特征,然后运用序列前向选择（SFS）算... 相似文献

18.

实用语音情感的特征分析与识别的研究 总被引：2，自引：0，他引：2

黄程韦赵艳金赟于寅骅赵力《电子与信息学报》2011,33(1):112-116

该文针对语音情感识别在实际中的应用,研究了烦躁等实用语音情感的分析与识别。通过计算机游戏诱发的方式采集了高自然度的语音情感数据,提取了74种情感特征,分析了韵律特征、音质特征与情感维度之间的关系,对烦躁等实用语音情感的声学特征进行了评价与选择,提出了针对实际应用环境的可拒判的实用语音情感识别方法。实验结果表明,文中采用的语音情感特征,能较好识别烦躁等实用语音情感,平均识别率达到75%以上。可拒判的实用语音情感识别方法,对模糊的和未知的情感类别的分类进行了合理的决策,在语音情感的实际应用中具有重要的意义。相似文献

19.

面向语音情感计算的数据库的构建与应用研究

任鹏辉《电视技术》2012,36(21):89-92

针对情感语音识别与合成的应用需求,设计并建立了一种面向语音情感计算的数据库,包含中立、悲伤、高兴、愤怒4种情感,每种1 000句,共4 000句情感语音。首先利用贪婪算法对语料进行筛选,然后通过录音截取得到中立语音。再根据情感语音韵律特征规律来修改中立语音获得悲伤、高兴、愤怒等其他3种情感语音。最后将改进的模糊综合评价方法应用于对语音数据从情感表达、清晰度、流畅度、情景感、自然度、噪音影响等6个方面的综合评定,客观而准确地验证了语料的可靠性。本语音库的建立为语音情感计算提供了重要的应用基础和前提。相似文献

20.

广电智能语音识别系统建设实施方案

王娇《中国有线电视》2020,(3):292-294

广电智能语音识别系统的建设实施,主要运用云计算相关技术手段,并配以完善的数据库体系,通过智能识别与分析对用户语音指令进行逻辑判断,进而以遥控器为媒介实现智能语音人机交互的过程。相似文献