首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
用于神经网络说话人识别的PCA-GA研究   总被引:1,自引:1,他引:0  
针对用于神经网络说话人识别的海量特征参数带来的识别率和网络训练稳定性的问题,提出了一种用于神经网络的基于语音特征参数的PCA新方法.该方法提取出的新特征参数在神经网络中的识别率和训练速度得到较大提高.结合GA能有效防止网络收敛于局部极小点,缩短训练时间,提高网络稳定性.从而全面提高了基于NN的说话人识别效果.  相似文献   

2.
说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。神经网络是一种基于非线性理论的分布式并行处理网络模型,具有很强的模式分类能力及对不完全信息的鲁棒性,为说话人识别技术提供了一种独特的方法。BP(Back-propagation Neural Network)是一种非循环多级网络训练算法,有输入层,输出层和N个隐含层组成。首先概述了语音识别技术,介绍了BP神经网络训练过程的7个步骤及其模型,如何建立BP神经网络模型。同时介绍了与其相关的特征参数的提取,神经网络的训练和识别过程,最后,通过编程在Linux系统下实现说话人身份的识别。  相似文献   

3.
为了解决语言障碍者与健康人之间的交流障碍问题,提出了一种基于神经网络的手语到情感语音转换方法。首先,建立了手势语料库、人脸表情语料库和情感语音语料库;然后利用深度卷积神经网络实现手势识别和人脸表情识别,并以普通话声韵母为合成单元,训练基于说话人自适应的深度神经网络情感语音声学模型和基于说话人自适应的混合长短时记忆网络情感语音声学模型;最后将手势语义的上下文相关标注和人脸表情对应的情感标签输入情感语音合成模型,合成出对应的情感语音。实验结果表明,该方法手势识别率和人脸表情识别率分别达到了95.86%和92.42%,合成的情感语音EMOS得分为4.15,合成的情感语音具有较高的情感表达程度,可用于语言障碍者与健康人之间正常交流。  相似文献   

4.
基于动静态组合特征参数的语音识别   总被引:1,自引:0,他引:1  
基于语音信号的时变特性,本文提出了动静态特征参数结合的语音信号识别方法,首先在特征参数提取中引入了小波包变换,借助MFCC(Mel-Frequency Cepstrum Coefficient)参数的提取方法,用小波包变换代替傅立叶变换和Mel滤波器组,提取了新的静态特征参数DWPTMFCC(Discrete Wavelet Packet Transform Mel-Frequency Coefficient),然后把它与一阶DWPTMFCC差分参数相结合成一个向量,作为一帧语音信号的参数,通过试验和仿真,此参数具有很高的识别率,是一种很好的语音特征参数.并且把混沌特性引入到神经元,构成混沌神经网络,把这种神经网络用于语音识别,并与常用的BP神经网络识别方法进行了比较.试验结果表明,混沌神经网络的平均识别率要高于同等条件下常用的神经网络方法的识别率.  相似文献   

5.
基于粒子群优化神经网络的语音情感识别   总被引:1,自引:0,他引:1  
提出了一种基于粒子群优化算法的人工神经网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化。利用粒子群优化算法(PSO)训练随机产生的初始数据,优化神经网络的连接权值和阈值,快速地实现网络的收敛。在实验中比较了BP神经网络、RBF神经网络与PSO神经网络分别用于语音情感识别的识别率,PSO神经网络的平均识别率高于BP神经网络6.7%,高于RBF神经网络5.4%。结果显示,粒子群优化神经网络用于语音情感识别提高了识别性能。  相似文献   

6.
针对单一特征参数表征语音信息不够全面的缺点,利用时域特征参数和频域不同特征参数的优点,融合频域特征参数MFCC、GFCC、MFCC一阶差分、GFCC一阶差分和时域特征参数短时能量,然后将多维度的融合特征参数进行主成分分析降维。降维后的特征参数送入双向长短时记忆神经网络模型进行识别训练。仿真实验表明,本文目标参数参与训练的说话人识别模型取得了99.61%的识别正确率,较其他说话人识别模型的识别率更高。  相似文献   

7.
为了通过语音实时便捷检测人体疲劳度,提取了语音中包含的疲劳特征参数,并提出了基于BP神经网络有效分类语音疲劳程度。首先,筛选之前工作中创建的疲劳语料库的有用语音段;其次,对语音信号进行预处理,将模拟语音信号数字化,并在此基础上进行预加重、加窗分帧、端点检测;再次,提取能够有效反映疲劳程度信息的语音特征参数;最后,基于BP神经网络分类疲劳特征参数。笔者推荐的基于BP神经网络的最佳分类识别率可达92.5%,实现了运动疲劳程度的有效识别。  相似文献   

8.
针对语音识别的特点,对BP神经网络在语音识别技术中的应用进行了探索性研究,进而结合人工智能领域较为有效的方法——遗传(GA)算法,针对传统BP算法识别准确率高但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时间,提高了网络训练速度和语音的识别率。  相似文献   

9.
遗传算法与BP神经网络相结合的说话人识别系统   总被引:2,自引:0,他引:2  
基于BP神经网络的说话人识别系统是目前说话人识别中的一种主要模型,但BP神经网络通常难以确定隐含层单元的数目,且收敛速度慢。针对此缺点,提出了一种基于遗传算法(GA)的说话人识别BP神经网络优化方案,该方案利用混合编码的GA对神经网络的连接权和结构进行了优化,可以有效地剔除整个网络冗余节点和冗余连接权,方案利用了BP神经网络的并行性和GA的全局搜索能力,显著地改善了网络的处理能力。实验表明:基于混合编码GA的BP神经网络具有快速学习网络权重的能力,识别率高,是说话人识别的一种有效可行的新方案。  相似文献   

10.
针对语音识别的特点,对BP神经网络在语音识别技术中的应用进行了探索性研究,进而结合人工智能领域较为有效的方法——遗传(GA)算法,针对传统BP算法识别准确率高但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时间,提高了网络训练速度和语音的识别率。  相似文献   

11.
目前大多数声音识别系统在无噪声环境下可以达到很高的识别率,但是在噪声环境下,识别率急剧下降。针对这个问题,提出一种基于小波矩和BP网络的声音识别方法。根据声音信号生成声谱图;通过小波矩对声谱图进行特征提取,选取有代表性意义的特征参数;根据选取的参数进行BP网络分类识别,从而识别声音的种类。实验结果表明,该方法在不同噪声种类以及不同信噪比的噪声环境下仍然具有较好的识别效果,克服了低信噪比下识别率低的缺陷。  相似文献   

12.
针对法庭说话人识别中待鉴定人员语音样本不足的问题,提出了一种新的对说话人自身变化性建模的替代性方法以及相应的方差控制算法。使用同条件下的参考数据库构建识别系统的多个相同说话人得分模型,代替检验需要的多个非同期的带检验人员语音样本比较时的得分模型,以获得能反映说话人自身变化性的统计模型。基于目前最新的法庭证据评估的似然比证据强度评估体系,使用MFCC(Mel Frequency Cepstral Coefficients)和GFCC(Gammatone Frequency Cepstral Coefficients)特征对该方法的有效性进行了验证,并对上述特征进行了特征级和决策级融合。实验结果表明:该方法在纯净语音环境和噪声环境下都具有很高的识别率和稳定性,并且特征级融合能进一步提高识别系统的性能。  相似文献   

13.
为了提高说话人识别的准确率,可以同时采用多个特征参数,针对综合特征参数中各维分量对识别结果的影响可能不一样,同等对待并不一定是最优的方案这个问题,提出基于Fisher准则的梅尔频率倒谱系数(MFCC)、线性预测梅尔倒谱系数(LPMFCC)、Teager能量算子倒谱参数(TEOCC)相混合的特征参数提取方法。首先,提取语音信号的MFCC、LPMFCC和TEOCC三种参数;然后,计算MFCC和LPMFCC参数中各维分量的Fisher比,分别选出六个Fisher比高的分量与TEOCC参数组合成混合特征参数;最后,采用TIMIT语音库和NOISEX-92噪声库进行说话人识别实验。仿真实验表明,所提方法与MFCC、LPMFCC、MFCC+LPMFCC、基于Fisher比的梅尔倒谱系数混合特征提取方法以及基于主成分分析(PCA)的特征抽取方法相比,在采用高斯混合模型(GMM)和BP神经网络的平均识别率在纯净语音环境下分别提高了21.65个百分点、18.39个百分点、15.61个百分点、15.01个百分点与22.70个百分点;在30 dB噪声环境下,则分别提升了15.15个百分点、10.81个百分点、8.69个百分点、7.64个百分点与17.76个百分点。实验结果表明,该混合特征参数能够有效提高说话人识别率,且具有更好的鲁棒性。  相似文献   

14.
利用话者识别原理和语音数字信号处理技术对人声建模方法进行研究,建立了基于GMM模型的VDR环境下的人声识别基准系统;从分析影响人声识别率因素的角度出发,指出传统算法的不足,并提出一种基于近似熵的语音端点检测算法。理论分析和实验结果证明:新算法能有效屏蔽大动态冲击性噪声,解决了语音的虚检现象,并且在低信噪比0 dB情况下的识别率提升66%。  相似文献   

15.
相对解码重建后的语音进行说话人识别,从VoIP的语音流中直接提取语音特征参数进行说话人识别方法具有便于实现的优点,针对G.729编码域数据,研究基于DTW算法的快速说话人识别方法。实验结果表明,在相关的说话人识别中,DTW算法相比GMM在识别正确率和效率上有了很大提高。  相似文献   

16.
说话人识别中MFCC参数提取的改进   总被引:1,自引:0,他引:1  
在说话人识别方面,最常用到的语音特征就是梅尔倒频谱系数(MFCC)。提出了一种改进的提取MFCC参数的方法,对传统的提取MFCC过程中计算FFT这一步骤进行频谱重构,对频谱进行噪声补偿重建,使之具有很好的抗噪性,逼近纯净语音的频谱。实验表明基于此改进提取的MFCC参数,可以明显提高说话人识别系统的识别率,尤其在低信噪比的环境下,效果明显。  相似文献   

17.
李燕萍  曹盼  左宇涛  张燕  钱博 《自动化学报》2022,48(7):1824-1833
提出一种基于i向量和变分自编码相对生成对抗网络的语音转换方法, 实现了非平行文本条件下高质量的多对多语音转换. 性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性特征是否准确. 首先为了改善合成语音自然度, 利用生成性能更好的相对生成对抗网络代替基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 克服了Wasserstein生成对抗网络性能不稳定和收敛速度较慢等问题. 进一步为了提升转换语音的说话人个性相似度, 在解码阶段, 引入含有丰富个性信息的i向量, 以充分学习说话人的个性化特征. 客观和主观实验表明, 转换后的语音平均梅尔倒谱失真距离值较基准模型降低4.80%, 平均意见得分值提升5.12%, ABX 值提升8.60%, 验证了该方法在语音自然度和个性相似度两个方面均有显著的提高, 实现了高质量的语音转换.  相似文献   

18.
提出了一种基于情感语音的差异检测与剔除的说话人识别方法,克服了前人的方法中需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息给系统的使用带来的不便性,并在识别性能上比传统的ASR系统提高4.7%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号