首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 125 毫秒
1.
黄程韦  金赟  赵艳  于寅骅  赵力 《声学技术》2010,29(4):396-399
针对实用语音情感研究的需要,设计并且建立了诱发语音情感数据库。根据刺激评估表,设计了一种基于计算机游戏的情感诱发方式,首次针对汉语音的实用语音情感进行了情感数据的采集和情感语音库的建立。对烦躁、紧张和喜悦等三种具有实际应用意义的语音情感进行了有效的诱发,录制了情感语音数据,并进行了数据的检验与听辩测试。结果显示,采用计算机游戏诱发情感的方法能够有效地采集自然度较高的实用语音情感数据,为实用语音情感的特征分析与识别提供了必要的研究基础。  相似文献   

2.
赵艳  赵力  邹采荣 《声学技术》2008,27(4):562-569
耳语音是人们在公众场合常使用的一种语言交流方式,初期对耳语音的研究主要为了语音基础研究和医学工作的需要。随着科技的发展,关于耳语的研究也从声学理论研究走向实际应用的研究。文章首先介绍了耳语音的生理、声学和感知特性,指出耳语音与正常音的发声生理差异导致了声学特性的差异,随后归纳了近年来各种耳语音特征参数分析和提取方法,在此基础上综述了国内外在耳语音应用研究方面的成果,最后,总结了耳语音各研究领域的发展趋势,并进行了展望。  相似文献   

3.
邓帅  吴筝 《中国标准化》2024,(8):241-244
在人工智能时代下,深度学习技术逐渐融入教育研究领域的各个方面。教师教学语言是课堂教学的主要方式,教学情感作为教学评价的主要评估方式,深刻影响着教师的教学效果。本文基于卷积神经网络模型对教师语音情感进行识别,以语音情感描述模型和情感教学理论作为理论基础,按照“数据库建立—模型搭建—实践应用”的研究路径开展教师标准课堂教学语音情感的研究,建立教师课堂语音数据库,构建教师语音情感评价量表,还原真实课堂的精准采集、助力教师评价的高效开展,以此优化教师教学语音情感,赋能教学改进。  相似文献   

4.
为了提高语音情感识别的准确率,本文针对新的声门波信号频谱特征抛物线频谱参数(parabolic spectralparameter,PSP)和谐波丰富因子(harmonic richness factor,HRF)进行了研究,并将其应用到语音的情感识别中.提取6种不同情感(生气、害怕、高兴、中性、悲伤和惊奇)语音信号的发音速率和短时能量、基音频率、前3个共振峰、12阶Mel频率倒谱系数(MFCC)的最大值、最小值、变化范围和平均值等常用特征构成一个特征矢量,并利用主成分分析方法降维;提取声门波信号的频谱特征PSP和HRF,并分析了PSP和HRF的情感表达能力;采用深度学习栈式自编码算法对只有常用特征以及融合了声门波信号频谱特征后的特征进行分类.结果表明:融合声门波信号频谱特征后识别率更高.  相似文献   

5.
宋南  吴沛文  杨鸿武 《声学技术》2018,37(4):372-379
针对聋哑人与正常人之间存在的交流障碍问题,提出了一种融合人脸表情的手语到汉藏双语情感语音转换的方法。首先使用深度置信网络模型得到手势图像的特征信息,并通过深度神经网络模型得到人脸信息的表情特征。其次采用支持向量机对手势特征和人脸表情特征分别进行相应模型的训练及分类,根据识别出的手势信息和人脸表情信息分别获得手势文本及相应的情感标签。同时,利用普通话情感训练语料,采用说话人自适应训练方法,实现了一个基于隐Markov模型的情感语音合成系统。最后,利用识别获得的手势文本和情感标签,将手势及人脸表情转换为普通话或藏语的情感语音。客观评测表明,静态手势的识别率为92.8%,在扩充的Cohn-Kanade数据库和日本女性面部表情(Japanese Female Facial Expression,JAFFE)数据库上的人脸表情识别率为94.6%及80.3%。主观评测表明,转换获得的情感语音平均情感主观评定得分4.0分,利用三维情绪模型(Pleasure-Arousal-Dominance,PAD)分别评测人脸表情和合成的情感语音的PAD值,两者具有很高的相似度,表明合成的情感语音能够表达人脸表情的情感。  相似文献   

6.
针对语音情感识别中无法对关键的时空依赖关系进行建模,导致识别率低的问题,提出一种基于自身注意力(self-attention)时空特征的语音情感识别算法,利用双线性卷积神经网络、长短期记忆网络和多组注意力(multi-headattention)机制去自动学习语音信号的最佳时空表征。首先提取语音信号的对数梅尔(log-Mel)特征、一阶差分和二阶差分特征合成3D log-Mel特征集作为卷积神经网络的输入;然后综合考虑空间特征和时间依赖性关系,将双线性池化和双向长短期记忆网络的输出融合得到空间-时间特征表征,利用多组注意力机制捕获判别性强的特征;最后利用softmax函数进行分类。在IEMOCAP和EMO-DB数据库上进行实验,结果表明两种数据库的识别率分别为63.12%和87.09%,证明了此方法的有效性。  相似文献   

7.
朱敏  姜芃旭  赵力 《声学技术》2021,40(5):645-651
语音情感识别是人机交互的热门研究领域之一。然而,由于缺乏对语音中时频相关信息的研究,导致情感信息挖掘深度不够。为了更好地挖掘语音中的时频相关信息,提出了一种全卷积循环神经网络模型,采用并行多输入的方式组合不同模型,同时从两个模块中提取不同功能的特征。利用全卷积神经网络(Fully Convolutional Network,FCN)学习语音谱图特征中的时频相关信息,同时,利用长短期记忆(Long Short-Term Memory,LSTM)神经网络来学习语音的帧级特征,以补充模型在FCN学习过程中缺失的时间相关信息,最后,将特征融合后使用分类器进行分类,在两个公开的情感数据集上的测试验证了所提算法的优越性。  相似文献   

8.
陈颖  肖仲喆 《声学技术》2018,37(4):380-387
建立了一个将离散情感标签与维度情感空间结合起来的汉语情感语音数据库。该数据库由16名母语为汉语的说话人对情感语音进行表演型录制。语音样本是根据中性、愉悦、高兴、沮丧、愤怒、哀伤,以及悲伤等七种离散的情感标签采集而得,每名说话人有336条语音样本。随后由三名标注人在维度空间上对每条语音样本进行标注。最后,根据标注所得的数据来研究这七种情感在维度空间的分布情况,并分析了情感在一致性、集中性和差异性方面的性能。除此以外,还计算了这七种情感的情感识别率。结果显示,三名标注人对该数据库标注的一致性都达到了80%以上,情感之间的可区分度较高,并且七种情感的情感识别率均高于基线水平。因此,该数据库具有较好的情感质量,能够为离散情感标签到维度情感空间的转化提供重要的研究依据。  相似文献   

9.
希尔伯特边际谱在语音情感识别中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
谢珊  曾以成  蒋阳波 《声学技术》2009,28(2):148-152
利用希尔伯特.黄变换(Hilbert-Huang Transform,HHT)对情感语音进行处理,得到其边际谱,然后对比分析四种情感即高兴、生气、厌恶、无情感语音信号边际谱的特征,提出四个特征量:子带能量(SE)、子带能量的一阶差分(DSE)、子带能量倒谱系数(SECC)、子带能量倒谱系数的一阶差分(DSECC)用于情感识别。用它们作说话人无关,文本无关的语音情感识别,得到最高90%的识别率,比基于傅立叶变换的梅尔频率倒谱系数(MFCC)高22个百分点。实验结果表明,基于HHT边际谱的特征能够较好地反映语音信号中的情感信息。  相似文献   

10.
为了克服噪声对语音识别系统的影响,提出了一种基于主曲线的说话人自适应方法,这种方法可以通过一组主曲线描述所有状态的特征统计信息和码本参数之间的关系,并利用特征统计量在主曲线上的投影更新码本.当有背景噪声存在时,这种方法可以有效修正状态的特征统计信息以减弱或去掉噪声的影响.在863大词汇量连续语音识别数据库上的实验结果证明:这种方法相对于基线以及本征音说话人自适应算法,系统识别性能都有明显的提高.  相似文献   

11.
Automatic recognition of human emotions in a continuous dialog model remains challenging where a speaker’s utterance includes several sentences that may not always carry a single emotion. Limited work with standalone speech emotion recognition (SER) systems proposed for continuous speech only has been reported. In the recent decade, various effective SER systems have been proposed for discrete speech, i.e., short speech phrases. It would be more helpful if these systems could also recognize emotions from continuous speech. However, if these systems are applied directly to test emotions from continuous speech, emotion recognition performance would not be similar to that achieved for discrete speech due to the mismatch between training data (from training speech) and testing data (from continuous speech). The problem may possibly be resolved if an existing SER system for discrete speech is enhanced. Thus, in this work the author’s existing effective SER system for multilingual and mixed-lingual discrete speech is enhanced by enriching the cepstral speech feature set with bi-spectral speech features and a unique functional set of Mel frequency cepstral coefficient features derived from a sine filter bank. Data augmentation is applied to combat skewness of the SER system toward certain emotions. Classification using random forest is performed. This enhanced SER system is used to predict emotions from continuous speech with a uniform segmentation method. Due to data scarcity, several audio samples of discrete speech from the SAVEE database that has recordings in a universal language, i.e., English, are concatenated resulting in multi-emotional speech samples. Anger, fear, sad, and neutral emotions, which are vital during the initial investigation of mentally disordered individuals, are selected to build six categories of multi-emotional samples. Experimental results demonstrate the suitability of the proposed method for recognizing emotions from continuous speech as well as from discrete speech.  相似文献   

12.
支持向量机应用于语音情感识别的研究   总被引:3,自引:0,他引:3       下载免费PDF全文
为了有效识别包含在语音信号中情感信息的类型,提出一种将支持向量机应用于语音情感识别的新方法。利用支持向量机把提取的韵律情感特征数据映射到高维空间,从而构建最优分类超平面实现对汉语普通话中生气、高兴、悲伤、惊奇4种主要情感类型的识别。计算机仿真实验结果表明,与已有的多种语音情感识别方法相比,支持向量机对情感识别取得的识别效果优于其他方法。  相似文献   

13.
简述线性预测倒谱系数(LPCC)、Teager能量算子(TEO)、梅尔频率倒谱系数(MFCC)和过零峰值幅度(ZCPA)特征提取方法,并将这四种方法应用于情感识别。设计两种实验,第一种是使用TYUT和Berlin语料库的单语言实验,这种实验证明,以上四种特征在单一的语料库单一语言条件下均能够有效地表征语音的情感特征,其中MFCC特征对情感的识别率最高。第二种实验是混合语料库的单一语言实验。之前大多数关于情感特征的研究都是基于某一种语料库中某种特定语言的,但在实际中,说话人的背景环境总是多种多样。因此,对特征的混合语料库研究是有现实意义的。第二种实验证明这四种特征都是语料库依赖性的,其中 ZCPA特征的识别率下降最少。  相似文献   

14.
By recognizing sensory information, through touch, vision, or voice sensory modalities, a robot can interact with people in a more intelligent manner. In human–robot interaction (HRI), emotion recognition has been a popular research topic in recent years. This paper proposes a method for emotion recognition, using a speech signal to recognize several basic human emotional states, for application in an entertainment robot. The proposed method uses voice signal processing and classification. Firstly, end-point detection and frame setting are accomplished in the pre-processing stage. Then, the statistical features of the energy contour are computed. Fisher’s linear discriminant analysis (FLDA) is used to enhance the recognition rate. In the final stage, a support vector machine (SVM) is used to complete the emotional state classification. In order to determine the effectiveness of emotional HRI, an embedded system was constructed and integrated with a self-built entertainment robot. The experimental results for the entertainment robot show that the robot interacts with a person in a responsive manner. The average recognition rate for five emotional states is 73.8% using the database constructed in the authors’ lab.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号