首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 19 毫秒
1.
罗武骏  黄程韦  査诚  赵力 《信号处理》2013,29(10):1423-1432
本文研究了越南语语音情感识别问题,采集并建立了越南语情感数据库。母语为越南语的两名男性和两名女性说话人进行了越南语情感语音的表演和录制,通过多人听辨实验进行了数据的验证和评选,建立了一个初步的越南语语音情感数据库,为今后的跨语言研究提供数据基础。在所获得的情感数据上,提取了基本的语音特征,并构造了可用于情感识别的静态统计特征。采用高斯混合模型进行了建模与识别,识别结果显示,本文中的系统能够较好的识别越南语语音情感。在今后的工作中,可以进一步研究跨语言情感特征的分析与识别。   相似文献   

2.
李永伟  陶建华  李凯 《信号处理》2023,39(4):632-638
语音情感识别是实现自然人机交互不可缺失的部分,是人工智能的重要组成部分。发音器官的调控引起情感语音声学特征的差异,从而被感知到不同的情感。传统的语音情感识别只是针对语音信号中的声学特征或听觉特征进行情感分类,忽略了声门波和声道等发音特征对情感感知的重要作用。在我们前期工作中,理论分析了声门波和声道形状对感知情感的重要影响,但未将声门波与声道特征用于语音情感识别。因此,本文从语音生成的角度重新探讨了声门波与声道特征对语音情感识别的可能性,提出一种基于源-滤波器模型的声门波和声道特征语音情感识别方法。首先,利用Liljencrants-Fant和Auto-Regressive eXogenous(ARX-LF)模型从语音信号中分离出情感语音的声门波和声道特征;然后,将分离出的声门波和声道特征送入双向门控循环单元(BiGRU)进行情感识别分类任务。在公开的情感数据集IEMOCAP上进行了情感识别验证,实验结果证明了声门波和声道特征可以有效的区分情感,且情感识别性能优于一些传统特征。本文从发音相关的声门波与声道研究语音情感识别,为语音情感识别技术提供了一种新思路。  相似文献   

3.
张昕然  巨晓正  宋鹏  查诚  赵力 《信号处理》2017,33(5):649-660
跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合是目前的技术难点。本文利用深度学习领域的深度信念模型,提出了基于深度信念网络的特征层融合方法。将语音频谱图中隐含的情感信息作为图像特征,与传统情感特征融合。研究解决了跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合的技术难点。利用STB/Itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发,提取了新的语谱图特征;然后研究改进的DBN网络模型并对传统声学特征与新提取的语谱图特征进行了特征层融合,增强了特征子集的尺度,提升了情感表征能力。通过在ABC数据库和多个中文数据库上的实验验证,特征融合后的新特征子集相比传统的语音情感特征,其跨数据库识别结果获得了明显提升。   相似文献   

4.
为了提高情感识别的正确率,针对单一语音信号特征和表面肌电信号特征存在的局限性,提出了一种集成语音信号特征和表面肌电信号特征的情感自动识别模型.首先对语音信号和表面肌电信号进行预处理,并分别提取相关的语音信号和表面肌电信号特征,然后采用支持向量机对语音信号和表面肌电信号特征进行学习,分别建立相应的情感分类器,得到相应的识别结果,最后将识别结果分别输入到支持向量机确定两种特征的权重系数,从而得到最终的情感识别结果.两个标准语情感数据库的仿真结果表明,相对于其它情感识别模型,本文模型大幅提高了情感识别的正确率,人机交互情感识别系统提供了一种新的研究工具.  相似文献   

5.
周慧  魏霖静 《电子设计工程》2012,20(16):188-190
提出了一种基于LS-SVM的情感语音识别方法。即先提取实验中语音信号的基频,能量,语速等参数为情感特征,然后采用LS-SVM方法对相应的情感语音信号建立模型,进行识别。实验结果表明,利用LS-SVM进行基本情感识别时,识别率较高。  相似文献   

6.
俞佳佳  金赟  马勇  姜芳艽  戴妍妍 《信号处理》2021,37(10):1880-1888
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。   相似文献   

7.
语音信号中的情感特征分析和识别的研究   总被引:11,自引:0,他引:11  
本文分析了含有欢快、愤怒、惊奇、悲伤等4种情感语音信号的时间构造、振幅构造、基频构造和共振峰构造的特征。通过和不带情感的平静语音信号的比较,总结了不同情感语音信号的情感特征的分布规律。根据这些分析,提取了9个情感特征进行了情感识别的实验,获得了基本上接近于人的正常表现的识别结果。  相似文献   

8.
利用模糊熵进行参数有效性分析的语音情感识别   总被引:4,自引:0,他引:4  
本文利用模糊熵理论来分析语音信号情感特征参数相对于识别情感模式的不确定度,并提出了一种利用模糊熵对情感参数有效性进行度量的方法。并将参数有效性分析结合模糊综合判别对情感语音信号作情感识别,取得了较好效果。  相似文献   

9.
李洪伟  马琳  李海峰 《信号处理》2023,39(4):639-648
语音是人类表达思想和感情交流最重要的工具,是人类文化的重要组成部分。语音情感识别作为情感计算中的重要课题已经成为国际上的研究热点,受到越来越多的关注。已有神经科学研究表明,大脑是产生调节情感的物质基础。因此,在语音情感的研究中,我们不能仅考虑语音信号自身,还应将大脑的活动信号融入语音情感识别中,以实现更高准确率的情感识别。基于上述思想,本文提出了一种基于核典型相关分析(KCCA)的语音特征提取方法。该方法将语音特征与脑电图(EEG)特征映射到高维希尔伯特空间,并计算二者的最大相关系数。KCCA将语音特征在高维希尔伯特空间上向与脑电特征相关性最大的方向投影,最终得到包含脑电信息的语音特征。本文方法将与语音情感相关的脑电信息融入语音情感特征提取中,所提特征能够更准确的表征情感。同时,本方法在理论上具有良好的可迁移性,当所提脑电特征足够准确与具有代表性时,KCCA建模得到的投影向量具有通用性,可直接用于新的语音情感数据集中而无需重新采集和计算相应的脑电信号。在自建语音情感数据库与公开语音情感数据库MSP-IMPROV上的实验结果表明,使用投影语音特征进行语音情感分类的方法优于使用原始音频特征...  相似文献   

10.
张昕然  查诚  宋鹏  陶华伟  赵力 《信号处理》2016,32(9):1117-1125
在语音情感识别技术中,由于噪声环境、说话方式和说话人特质原因,会造成实验数据库特征不匹配的情况。从语音学上分析,该问题多存在于跨数据库情感识别实验。训练的声学模型和用于测试的语句样本之间的错位,会使语音情感识别性能剧烈下降。本文据此所研究的选择性注意声学模型能有效探测变化的情感特征。同时,利用时频原子对模型进行改进,使之能提取跨语音数据库中的显著性特征用于情感识别。实验结果表明,利用文章所提方法在跨库情感样本上进行特征提取,再通过典型的分类器,识别性能提高了9个百分点,从而验证了该方法对不同数据库具有更好的鲁棒性。   相似文献   

11.
语谱图主要用于研究语音信号不同频段的信号强度随时间变化的关系。分析语谱图时,需要利用Python语言和相关库进行仿真,得到语音信号的伪彩色映射并将结果直观地显示出来,便于进一步分析、研究语音信号的特征。本文讨论语音信号的声学基础和有关特征,分析语音信号处理的发展及应用,用声卡采集湖南三个地方的方言语音信号,利用Python语言对方言语音信号语谱图进行显示,分析不同汉语方言之间的差异。该方法具有编程简单、相关功能库丰富、对设备要求低、显示结果直观等特点,为分析处理不同地区的方言语音信号提供了一种简洁高效的方法。调用Python进行仿真,能清晰地分辨出宽带信号与窄带信号的不同特性,因此可通过对频谱图的分析来识别不同地方的方言。  相似文献   

12.
在智能人-机交互系统中,语音信号的情感分类是目前热点的研究领域,并且得到了广泛的应用.本文提出一种基于特征提取和借助支持向量机(support vector machine,SVM)分类器(classifier)的情感互相关性的方法,并应用于情感语音识别.利用这种方法对3种情感语音信号进行情感分类.SVM分类器是利用情感语音信号中情感互相关性的特征提取进行分类的.这种通过 SVM 分类器的情感互相关性的自动分类方法,可以将情感识别率大幅提高,并且在识别愤怒情感时的准确率可以达到95.04%.  相似文献   

13.
语音情感识别中,情感特征信息的提取和选择、情感识别模型的选择是2个重要部分.结合语音信号的声学特征参数和听觉特征参数进行情感识别,针对两类不同情感之间的差别选择最优的特征集,并设计了一个基于神经网络的情感交叉识别,与听觉特征参数结合,经过分类器得到识别情感,达到平均92%识别率.  相似文献   

14.
黄程韦  金赟  包永强  余华  赵力 《信号处理》2013,29(1):98-106
本文中我们提出了一种将高斯混合模型同马尔可夫网络结合的时域多尺度语音情感识别框架,并将其应用在耳语音情感识别中。针对连续语音信号的特点,分别在耳语音信号的短句尺度上和长句尺度上进行了基于高斯混合模型的情感识别。根据情绪的维度空间论,耳语音信号中的情感信息具有时间上的连续性,因此利用三阶的马尔可夫网络对多尺度的耳语音情感分析进行了上下文的情感依赖关系的建模。采用了一种弹簧模型来定义二维情感维度空间中的高阶形变,并且利用模糊熵评价将高斯混合模型的似然度转化为马尔可夫网络中的一阶能量。实验结果显示,本文提出的情感识别算法在连续耳语音数据上获得了较好的识别结果,对愤怒的识别率达到了64.3%。实验结果进一步显示,与正常音的研究结论不同,耳语音中的喜悦情感的识别相对困难,而愤怒与悲伤之间的区分度较高,与Cirillo等人进行的人耳听辨研究结果一致。   相似文献   

15.
《现代电子技术》2017,(16):13-18
以语音信号的语谱图作为处理对象,提出一种基于宽窄带语谱图傅里叶变换频域图像二进宽度分带投影特征融合的二字汉语词汇语音识别算法。首先,对宽窄语谱图傅里叶变换频域图的图像意义以及相应的语音特性进行分析;然后,分别对宽窄带语谱图频域图像进行二进宽度分带列投影和行投影,将投影值作为语音识别的第一个特征参数集合和第二个特征参数集合,将以上两个特征集进行特征融合作为二字词汇语音识别的特征量,以支持向量机为分类器实现二字汉语词汇语音识别。实验结果表明,该方法对特定人二字汉语词汇语音的识别率可达96.8%,对非特定人二字汉语词汇语音的识别率可达98.8%,为解决汉语词汇整体语音识别提供了一种新的思路。  相似文献   

16.
本文利用大规模集成电路一开关电容滤波器SCF作为语音特征提取的基本组件,以微机为控制中心,设计了时分复用动态语谱分析系统。能实时提取语音信号的三维谱图。从而提出了一种新的语音信号特征提取的方法。为语音识别技术提供了一种较为简单而有效的途径。  相似文献   

17.
高畅  李海峰  马琳 《信号处理》2012,28(6):851-858
压缩感知理论依据信号的稀疏性质进行压缩测量,将信号的获取方式从对信号的采样上升为对信息的感知,是信号处理领域的一场革命。本文提出一种基于非确定基字典(Uncertainty Basis Dictionary, UBD)对语音信号进行稀疏表示的方法,将压缩感知理论应用于对语音信号稀疏表示的压缩,并提出了基于求解线性规划问题的方法重构语音信号的算法。通过语音识别、话者识别和情感识别实验,从面向内容分析的角度,研究这种基于压缩感知理论的信息感知方法是否保留了语音信号的主要内容。实验结果表明,语音识别、话者识别和情感识别的准确率,与目前这些领域研究方法得到的结果基本一致,说明基于压缩感知理论的信息感知方法能够很好地获取语音信号的语义、话者和情感方面的信息。   相似文献   

18.
人们通过语言表达情感是一个不断变化的过程,为了使用语音信号的时间连续性表达具体情感,本文搭建了一种基于关联认知网络的GA-GRUS-ICN模型.首先,对输入的语音特征使用GRUS网络提取深度时序特征;然后,引入自注意力机制给重要的特征片段赋予更高的权重;最后,使用关联认知网络ICN构建情感之间的关联性,得到情感关联矩阵和最终识别结果,本文中对于超参数使用遗传算法GA进行选择.选用TYUT2.0、EMO-DB和CASIA语音数据库中的“悲伤”、“愤怒”、“高兴”三种基本情感作为实验数据,文章设计了五种实验方案进行两个消融实验,实验结果显示,三种模型在三种语音库的UA分别达到了80.83%、98.61%和88.13%,表明GA-GRUSICN识别模型在情感语音识别方面有较强的普适性,自注意力机制与GRUS-ICN模型比较适配,亦可以较好地进行语音情感识别.  相似文献   

19.
孙聪珊  马琳  李海峰 《信号处理》2023,39(4):688-697
语音情感识别(Speech Emotion Recognition,SER)是人机交互的重要组成部分,具有广泛的研究和应用价值。针对当前SER中仍然存在着缺乏大规模语音情感数据集和语音情感特征的低鲁棒性而导致的语音情感识别准确率低等问题,提出了一种基于改进的经验模态分解方法(Empirical Mode Decomposition,EMD)和小波散射网络(Wavelet Scattering Network,WSN)的语音情感识别方法。首先,针对用于语音信号时频分析的EMD及其改进算法中存在的模态混叠问题(Mode Mixing)和噪声残余问题,提出了基于常数Q变换(Constant-Q Transform,CQT)和海洋捕食者算法(Marine Predator Algorithm,MPA)的优化掩模经验模态分解方法(Optimized Masking EMD based on CQT and MPA,CM-OMEMD)。采用CM-OMEMD算法对情感语音信号进行分解,得到固有模态函数(Intrinsic Mode Functions,IMFs),并从IMFs中提取了可以表征情感的时频特征作为第一个特征集。然后采用WSN提取了具有平移不变性和形变稳定性的散射系数特征作为第二个特征集。最后将两个特征集进行融合,采用支持向量机(Support Vector Machine,SVM)分类器进行分类。通过在含有七种情感状态的TESS数据集中的对比实验,证明了本文提出的系统的有效性。其中CM-OMEMD减小了模态混叠,提升了对情感语音信号时频分析的准确性,同时提出的SER系统显著提高了情绪识别的性能。   相似文献   

20.
语音情感识别对于实现人机交互具有重要的应用价值.语音情感识别中,情感特征的选取与组合对于情感识别的准确率影响巨大.已有研究中,情感特征对识别率的贡献停留在定性分析中,未有定量的描述,不利于情感识别中特征的选择.本文针对中文语音情感识别中的常用特征进行定量分析,通过不同的情感特征进行组合,采用支持向量机进行分类,得到各情感特征对识别的贡献率.实验结果表明,单个特征中,梅尔倒谱系数贡献率最高,达到了78%;特征组合中,特征越多对识别率贡献越大.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号