首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
从语音情感特征的提取和分类建模出发,以混合卷积神经网络模型为基础,改进特征提取中的 Itti模型,包括:增加通过局部二值模式提取的纹理特征;结合听觉敏感度权重提取情感强相关特征。然后提出通过特征约束条件提取标定权重特征的约束挤压和激励网络结构;最后形成以 VGGnet 和长短时记忆网络混合网络为基础的微调模型,进一步提升了情感表征能力。通过在自然情感数据库和柏林德语数据库上进行验证,该模型在情感识别率上有明显的上升,相较于基准模型提升了 8. 43%,同时对比了本模型在自然数据库(FAU-AEC)和柏林数据库(EMO-DB)上的识别效果,实验结果证明模型具有良好的泛化性。  相似文献   

2.
针对现有的基于表示学习的语音情感计算算法中存在着限制条件单一的问题,且没有证明它们的有效性,提出了一种采用原子表示模型的语音情感识别算法。通过引入一个新的条件,称为原子分类条件。在这种条件下,对正确识别新的测试情感样本有较好的效果。现有的基于表示的分类算法以单一的稀疏表示方法为主,而提出的算法可以结合稀疏表示模型和其他的表示模型。该算法能够放宽适用条件的范围,使得原子表示模型适应更多分类任务。采集并建立了维吾尔语语音情感数据库。在该情感数据库上,分析维吾尔语情感语音的基本声学特征。通过对情感特征空间进行原子表示的映射变换,可以有效表示情感特征空间。经实验结果证明所提出的方法优于传统的方法,在维吾尔语情感语音数据库上达到了64.17%识别率。   相似文献   

3.
汉语语音正弦模型特征分析和听觉辨识   总被引:1,自引:0,他引:1  
张毅楠  肖熙 《电声技术》2011,35(8):38-41
为了研究汉语语音的声学特征,将语音信号的正弦模型应用于语音的特征提取和分析,通过对语音的模型参数应用峰值匹配算法,得到了基于正弦模型的语谱图.该语谱图能直观地反映出语音信号中基音频率及共振峰的细节及其变化规律,为语音信号的分析提供了可视化的工具.在此基础上,对汉语单韵母音节的前两个共振峰进行了分析,在控制使用少数几个主...  相似文献   

4.
语谱图主要用于研究语音信号不同频段的信号强度随时间变化的关系。分析语谱图时,需要利用Python语言和相关库进行仿真,得到语音信号的伪彩色映射并将结果直观地显示出来,便于进一步分析、研究语音信号的特征。本文讨论语音信号的声学基础和有关特征,分析语音信号处理的发展及应用,用声卡采集湖南三个地方的方言语音信号,利用Python语言对方言语音信号语谱图进行显示,分析不同汉语方言之间的差异。该方法具有编程简单、相关功能库丰富、对设备要求低、显示结果直观等特点,为分析处理不同地区的方言语音信号提供了一种简洁高效的方法。调用Python进行仿真,能清晰地分辨出宽带信号与窄带信号的不同特性,因此可通过对频谱图的分析来识别不同地方的方言。  相似文献   

5.
语音信号中情感特征的分析和识别   总被引:5,自引:0,他引:5  
余华  王治平  赵力 《电声技术》2004,(3):30-34,38
随着信息技术的发展,对人机交互能力的要求不断提高,情感信息处理已成为提高人机交互能力的一个重要课题。文中介绍了近年来国内外在语音信号中的情感特征分析和识别的研究概况,讨论了存在的一些问题和今后需要进一步研究的课题。  相似文献   

6.
本文从理论上分析了小波变换应用于语音分析的优势所在,在将小波变换直接应用于语音分析的基础上,结合汉语语音信号的特点,对小波变换的相平面作了调整,并将其应用于语音的谱分析中。结果证明,调整后的相平面,更加适合于汉语语音信号的分析,可以更清晰的表达语音信号的动态谱结构。  相似文献   

7.
语音情感识别中,情感特征信息的提取和选择、情感识别模型的选择是2个重要部分.结合语音信号的声学特征参数和听觉特征参数进行情感识别,针对两类不同情感之间的差别选择最优的特征集,并设计了一个基于神经网络的情感交叉识别,与听觉特征参数结合,经过分类器得到识别情感,达到平均92%识别率.  相似文献   

8.
针对传统谱减法会产生“音乐噪声”及在低噪比环境下降噪效果不理想的问题,提出一种基于语谱图分析的语音增强算法.所提方法先对带噪语音进行谱减处理,再通过语谱图分析对处理后的语音信号进行去小亮块处理,即对“音乐噪声”进行有效的削弱,最后通过设置阈值,滤除低灰度值的成份,即消除残留近似高斯噪声.实验结果表明,提出的算法可以有效地解决谱减法后残留的“音乐噪声”及低信噪比下谱减法残留噪声较大的问题.  相似文献   

9.
语音情感识别的主要目的是对语音信号按照不同的情感进行分类,比如生气、恐惧、厌恶、高兴等,探究语音情感识别的任务,使用的方法是在小的语音区间上计算的一系列声学特征训练的深度递归神经网络。同时,使用CTC损失函数考虑到了同时包含情绪化和中性成分的长话语,在IEMOCAAP语料库上设置对照实验,验证了该方法的高性能。  相似文献   

10.
利用语音在语谱图中表现出的不同特征,提出了一种基于语谱图的语音端点检测算法。首先利用基音频率检测的原理在语谱图矩阵中搜索浊音段,然后计算出浊音段的信噪比,再根据信噪比和语谱图矩阵中浊音段的峰值进行完整的端点检测。因多数突发噪声并没有稳定的频率或者频率不在人的基音频率范围内,因此,该算法能够很好地抑制突发噪声的干扰,实验结果表明,在信噪比为10dB以上时该算法能够准确检测出语音的端点位置。  相似文献   

11.
Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢。针对此问题,本文提出一种线性注意力机制的语音识别方法。首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度。其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度。最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类(connectionist temporal classification, CTC)损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数。在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升。  相似文献   

12.
徐凡  杨剑峰  颜为之  王明文 《信号处理》2021,37(10):1860-1871
方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差CNN(Convolutional Neural Networks)和Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。   相似文献   

13.
本文在文献(1)建立的外周听觉系统以及部分中枢听觉神经系统的基础上,建立了一个主意识别器。它由听觉模型作为语音声学前端处理器(即特征提取),由具有tonotopic组织结构的神经网络作为识别分类器。大量实验表明,由该听觉模型提取的特征参数不仅能很好地表示主意区别意义,而且对于噪声环境下的语音特征表示有较好tobustness。语音识别实验表明:在有噪声的情况下,采用听觉模型参数的识别器,其识别率明  相似文献   

14.
唐海桃  薛嘉宾  韩纪庆 《电子学报》2020,48(7):1255-1260
注意力模型是当前语音识别中的主流模型,然而其存在一个缺点,即当前时刻的注意力模型可能产生异常得分.为此,本文首先提出前向注意力模型,其采用上一时刻正常注意力得分平滑当前时刻异常得分.接着通过对上一时刻的注意力得分添加约束因子来对前向注意力模型进行优化,达到自适应平滑的目的.最后,在优化模型基础上提出多尺度前向注意力模型,其通过引入多尺度模型来对不同等级的语音基元进行建模,进而将所得到的不同等级目标向量进行融合,以达到解决注意力得分异常值的目的.采用SwitchBoard作为训练集,Hub5'00作为测试集进行实验,相比于基线系统,多尺度前向注意力模型的词错误率(Word Error Rate,WER)相对降低14.28%.  相似文献   

15.
WuYuanqing  HaoJie 《通信学报》1997,18(3):26-34
Auditory┐SpectrumQuantizationBasedSpeechRecognitionWuYuanqingHaoJieLuDajinLiXingZhuXuelong(DepartmentofElectronicEngineering,...  相似文献   

16.
主要讨论了情感语音特征参数的提取、语音情感的分类、语音资料的获取和应用连续隐马可夫模型进行情感识别等,重点比较了ZCPA特征参数和传统特征参数在不同噪声环境下的识别率,实验表明,在不同的噪声环境下,采用ZCPA特征的语音情感的识别效果较好,识别率也没有明显的下降。  相似文献   

17.
余华  徐开军 《电子工程师》2011,37(2):53-55,64
本文提出了一种基于模糊集理论的情感特征识别方法,实现了对3种情感的识别:欢快、愤怒和悲伤。利用提取的情感语句全局统计特征参数,对从10名话者中搜集的100句情感识别语句,获得了不错的平均情感识别率。  相似文献   

18.
文章提出了一种基于Hilbert-Huang变换的汉语语音情感分类方法,研究了六种最基本的人类情感.用EMD分别对每一组的语音信号进行频率族的分解,并求其Hilbert能量谱,用以反映情感语音信号的能量随时间和频率的分布情况,从而分离出不同的情感.结果表明,基于Hilbert-Huang变换可以非常有效的识别出各情感语句中所带的情感.Hiibert-Huang变换作为一种新的信号分析方法,被成功的应用到了语音情感识别领域中来,这为语音信号情感分析提供了一个新的可行的研究方法,也为拓展Hiibert-Huang变换的理论应用进行了一个新的尝试.  相似文献   

19.
Journal of Signal Processing Systems - Speech emotion recognition is very challenging because the definition of emotion is uncertain and the feature representation is complex. Accurate feature...  相似文献   

20.
语音情感识别是人工智能的重要研究领域之一,特征参数提取的准确性直接影响识别的效果。分析了发音持续时间、平均振幅、基音频率,第一共振峰和Mel频率倒谱参数,并基于模糊熵理论提取了各参数的权重。再利用模糊熵进行有效的度量融合.最后通过改进后综合判决对情感语句做出识别判定。研究发现融合后的参数增强了情感识别的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号