首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 18 毫秒
1.
文章以动窗离散傅立叶变换为基础获取说话人的长时平均频谱(即短时频谱的长时平均),然后将长时平均频谱经过能量归一化和频率归一化后作为“文本无关“话者识别的语音特征.分析之前,语音样本经过频域预加权和时域汉明窗加权处理,并利用帧能量门限自动去除了样本中的寂静段.通过在小人群范围内对该方法的大量实验,得到很好的话者识别效果.另外,作为“文本无关“话者识别的一个重要辅助手段,文章还利用短时频谱分析给出了话者语音样本的窄带三维语图和宽带三维语图,它们能清晰地给出话者语音的时变频率特征.  相似文献   

2.
希尔伯特边际谱在语音情感识别中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
谢珊  曾以成  蒋阳波 《声学技术》2009,28(2):148-152
利用希尔伯特.黄变换(Hilbert-Huang Transform,HHT)对情感语音进行处理,得到其边际谱,然后对比分析四种情感即高兴、生气、厌恶、无情感语音信号边际谱的特征,提出四个特征量:子带能量(SE)、子带能量的一阶差分(DSE)、子带能量倒谱系数(SECC)、子带能量倒谱系数的一阶差分(DSECC)用于情感识别。用它们作说话人无关,文本无关的语音情感识别,得到最高90%的识别率,比基于傅立叶变换的梅尔频率倒谱系数(MFCC)高22个百分点。实验结果表明,基于HHT边际谱的特征能够较好地反映语音信号中的情感信息。  相似文献   

3.
为了提高语音情感识别的准确率,本文针对新的声门波信号频谱特征抛物线频谱参数(parabolic spectralparameter,PSP)和谐波丰富因子(harmonic richness factor,HRF)进行了研究,并将其应用到语音的情感识别中.提取6种不同情感(生气、害怕、高兴、中性、悲伤和惊奇)语音信号的发音速率和短时能量、基音频率、前3个共振峰、12阶Mel频率倒谱系数(MFCC)的最大值、最小值、变化范围和平均值等常用特征构成一个特征矢量,并利用主成分分析方法降维;提取声门波信号的频谱特征PSP和HRF,并分析了PSP和HRF的情感表达能力;采用深度学习栈式自编码算法对只有常用特征以及融合了声门波信号频谱特征后的特征进行分类.结果表明:融合声门波信号频谱特征后识别率更高.  相似文献   

4.
文章讨论了一种新的基于回波分离算法的改进算法,并将其应用于室内有较强混响干扰下的语音定向。算法在有效语音片段检出时,不仅采用了回波估计,还同时考虑了语音特征,最后利用数字波束形成法来计算检出的有效语音片段的方位角,并且,回波估计是在语音短时能量分析的基础上进行的。试验表明,所获得的精度和人耳定向精度相接近。  相似文献   

5.
韩雪  慕昱  盛桂敏 《声学技术》2023,42(1):118-126
鸟类是生态系统中的重要组成部分,鸟类物种的多样性对生态环境有重要作用。所以,通过鸟声信号来识别鸟类从而对其进行保护有现实意义。文章对鸟声信号采用双参数的双门限法进行分段,从鸟声信号中寻找出声音的起始点和终止点的具体帧,进一步进行特征提取,提取每段鸟声信号中的短时能量和短时平均幅度,短时语谱图中的平均值、对比度、熵,共5种特征,采用优化参数的支持向量机进行鸟类物种分类。结果表明,基于混沌云粒子群优化(Chaos Cloud Particle Swarm Optimization, CCPSO)的支持向量机对比普通支持向量机的分类准确度得到提升,可有效地识别鸟类。利用该方法实现鸟类物种保护和生态系统管理的目的。  相似文献   

6.
针对传统鸟声识别算法中特征提取方式单一、分类识别准确率低等问题,提出一种结合卷积神经网络和Transformer网络的鸟声识别方法。该方法综合考虑网络局部特征学习和全局上下文依赖性构造,从原始鸟声音频信号中提取短时傅里叶变换(Short Time Fourier Transform,STFT)语谱图特征,将其输入到卷积神经网络(ConvolutionalNeural Network,CNN)中提取局部频谱特征信息,同时提取鸟声信号的对数梅尔特征及一阶差分、二阶差分特征用于合成梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)混合特征向量,将其输入到Transformer网络中获取全局序列特征信息,最后融合所提取的特征可得到更丰富的鸟声特征参数,通过Softmax分类器得到鸟声识别结果。在Birdsdata和xeno-canto鸟声数据集上进行实验,平均识别准确率分别达到了97.81%和89.47%。实验结果表明该方法相较于其他现有的鸟声识别模型具有更高的识别准确率。  相似文献   

7.
Margenau-Hill分布在滚动轴承故障识别中的应用   总被引:1,自引:0,他引:1  
滚动轴承出现故障时,振动信号具有明显的冲击特征。以轴承故障振动信号分析为基础,给出此信号的数学模型。采用时频分析方法对滚动轴承振动加速度信号进行处理,提出了一种基于伪Margenau-Hill分布时间特征量进行故障识别的方法。以滚动轴承外圈故障为例,通过时频谱图对故障类型进行识别,并指出故障的轻重程度。  相似文献   

8.
针对同步提取变换(SET)不能分离频率成分间隔相近的多分量信号的问题,提出了一种结合变分模态分解(VMD)和同步提取变换识别时变结构瞬时频率的方法。首先,通过傅里叶变换确定预设模态数量,利用VMD对多分量信号进行分解得到多个模态分量;然后,采用SET对每个模态分量进行时频分析获取瞬时频率;最后,将各模态分量的时频谱图叠加得到完整的多分量信号时频谱图。针对多分量时变信号和两自由度时变结构自由振动响应信号的瞬时频率识别结果,验证了基于VMD和SET结合方法识别时变结构瞬时频率的有效性和正确性。结果表明,该方法具有较好的噪声鲁棒性和能量聚集性,克服了SET处理频率成分间隔相近的多分量信号的不足,能有效识别具有近距离频率成分的时变结构瞬时频率。索力线性和正弦变化时拉索瞬时频率识别的试验验证了该方法的适用性。  相似文献   

9.
宋南  吴沛文  杨鸿武 《声学技术》2018,37(4):372-379
针对聋哑人与正常人之间存在的交流障碍问题,提出了一种融合人脸表情的手语到汉藏双语情感语音转换的方法。首先使用深度置信网络模型得到手势图像的特征信息,并通过深度神经网络模型得到人脸信息的表情特征。其次采用支持向量机对手势特征和人脸表情特征分别进行相应模型的训练及分类,根据识别出的手势信息和人脸表情信息分别获得手势文本及相应的情感标签。同时,利用普通话情感训练语料,采用说话人自适应训练方法,实现了一个基于隐Markov模型的情感语音合成系统。最后,利用识别获得的手势文本和情感标签,将手势及人脸表情转换为普通话或藏语的情感语音。客观评测表明,静态手势的识别率为92.8%,在扩充的Cohn-Kanade数据库和日本女性面部表情(Japanese Female Facial Expression,JAFFE)数据库上的人脸表情识别率为94.6%及80.3%。主观评测表明,转换获得的情感语音平均情感主观评定得分4.0分,利用三维情绪模型(Pleasure-Arousal-Dominance,PAD)分别评测人脸表情和合成的情感语音的PAD值,两者具有很高的相似度,表明合成的情感语音能够表达人脸表情的情感。  相似文献   

10.
基于多分辨分析的时频分析   总被引:10,自引:3,他引:7  
短时傅里叶变换由于采用固定宽度的时域窗,在缓变与瞬变信号共存的宽频带信号分析中,其时间与频率分辨力矛盾突出。采用Mallat算法的小波变换能够将信号正交分解成多尺度的信号分量,然而所提供的时频信息不很直观,难以识别其时频谱。通过对短时傅里叶变换和小波变换在时频分析中的优缺点分析,发现两者具有互补性。因此本文提出基于多分辨分析的短时傅里叶变换(取名为WAVSTFT),即采用Mallat算法将信号分解成多个尺度信号分量,再对各分量分别做与其尺度相适应的短时傅里叶变换,最后把得到的各时频谱在同一个不相平面上叠加,从而得到信号的总体时频构造。经理论分析与实例验证,该方法有效可行,为工程测试中的时频分析提供了一种有效的手段。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号