首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 164 毫秒
1.
基于ARM的说话人识别系统的研究与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于压缩感知(CS)的说话人识别算法以及在ARM系统中的实现,首先,介绍压缩感知理论框架,提出说话人识别可以与压缩感知理论相结合的依据;其次,提出基于压缩感知的说话人识别算法的基本方法,即建立说话人语音特征数据库和基追踪匹配得到最大均值系数,其中,语音特征向量由GMM均值超向量核算法得到,大量实验数据表明,该方法一定程度上提高了识别率,并且在说话人集合较大的情况下识别效果较好。  相似文献   

2.
语音信号的加权mel倒谱分析   总被引:1,自引:0,他引:1  
本文利用人耳的感知特性,提出了加权mel倒谱系数,并建立了相应的分析算法。实验结果表明,该系数不仅能够准确地刻画说话人声道的短时特征,还能用来重建出高质量的语音。因此加权mel倒谱分析不仅能够应用于语音识别和说话人识别,还能应用于语音编码和参数合成。  相似文献   

3.
付贤政  陈军宁 《通信技术》2009,42(10):194-197
结合人耳听觉掩蔽效应,提出一种基于听觉感知加权的卡尔曼滤波语音增强方法。由于人耳对语音的感知主要是通过语音信号频谱分量幅度获得的,引入听觉感知加权滤波器在频域上使共振峰区域残留噪声更多,而共振峰之间及语音幅度谱较低的区域残留噪声减少,这样符合人耳的听觉特性,从而使得主观感觉到的噪声最小。采用语音质量感知评估对语音增强的效果进行评测,与传统的卡尔曼滤波语音增强算法相比,实验结果显示该算法提高了增强语音的质量。  相似文献   

4.
赵越  林玮 《电声技术》2016,40(11):48-52
耳语音的声学特征是研究其语音识别和说话人识别的重要组成部分.介绍了耳语音的特点并讨论了其声学特征.由于耳语音没有基频,所以共振峰与音长特性可以作为重要的声学参数用于识别.对汉语6个耳语音元音进行了分析研究,证明共振峰频率和音长可以作为耳语音识别的特征参数.  相似文献   

5.
宋鹏  王浩  赵力 《信号处理》2013,29(10):1294-1299
针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率(Maximum A Posteriori,MAP)方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型(Gaussian Mixture Model,GMM)的语音转换方法的效果。   相似文献   

6.
基于压缩感知重构信号的说话人识别系统抗噪方法研究   总被引:1,自引:0,他引:1  
叶蕾  郭海燕  杨震 《信号处理》2010,26(3):321-326
基于语音信号在离散余弦基下的近似稀疏性,本文对语音信号采用压缩感知(Compressed Sensing)技术进行压缩和重构,即将语音信号投影到随机高斯观测矩阵,并采用线性规划(Linear Program)方法进行重构,研究了重构误差与观测矢量点数的关系,分析了噪声环境下重构信号的频谱变化情况。针对噪声环境下压缩感知重构信号比原始信号频谱变化小的特性,提出了一种基于压缩感知重构信号的说话人识别系统抗噪方法,给出了不同信噪比下获得最高识别率时压缩感知观测矢量的最佳点数。   相似文献   

7.
基于高斯混合模型和残差预测的说话人转换系统   总被引:1,自引:1,他引:0  
说话人转换是将源说话人的语音特征转换成目标说话人的特征,使得听起来像是目标说话人的语音。提出的说话人转换系统分为2个部分,第一部分利用高斯混合模型进行谱包络的转换,训练采用时间对齐的源说话人和目标说话人的语音数据进行。第二部分基于一个分类器和残差码本对残差信号预测。该系统在现有的说话人转换系统的基础上做了一些改进,改进后不再需要说话人模仿别人的语调,并且在某些性能上超过了现有的系统。  相似文献   

8.
陈胜  徐岩 《电子质量》2014,(12):80-84
针对传统子空间语音增强算法中,因语音增强方法中去除噪声而出现的音乐噪声和失真问题,提出了一种人耳感知掩蔽效应的子空间语音增强算法,并结合频域到特征值域的变换,在Bark域内实现人耳的感知掩蔽效应的语音增强。实验结果表明,该算法在白噪声和有色噪声的背景下,与传统子空间语音增强算法相比,不仅提高了语音信号的信噪比,而且减少了语音失真和音乐噪声,提高了增强后语音的听觉质量。  相似文献   

9.
当前基于预训练说话人编码器的语音克隆方法可以为训练过程中见到的说话人合成较高音色相似性的语音,但对于训练中未看到的说话人,语音克隆的语音在音色上仍然与真实说话人音色存在明显差别。针对此问题,本文提出了一种基于音色一致的说话人特征提取方法,该方法使用当前先进的说话人识别模型TitaNet作为说话人编码器的基本架构,并依据说话人音色在语音片段中保持不变的先验知识,引入一种音色一致性约束损失用于说话人编码器训练,以此提取更精确的说话人音色特征,增加说话人表征的鲁棒性和泛化性,最后将提取的特征应用端到端的语音合成模型VITS进行语音克隆。实验结果表明,本文提出的方法在2个公开的语音数据集上取得了相比基线系统更好的性能表现,提高了对未见说话人克隆语音的音色相似度。  相似文献   

10.
为了将源说话人的语音特征进行转换,使得听起来像是目标说话人的语音,本文提出了一种同语种的说话人转换算法。算法分为两个部分,一是利用高斯混合模型进行谱包络的转换,采用改进的方法对模型进行训练,去除语音数据时间对齐不准确的影响;二是基于高斯混合模型分类器和残差码本对残差信号预测。算法还对转换语音进行了后续处理,增强了语音的自然度。非正式的听觉测试表明,在利用时间不长的语音数据训练后,此算法可以进行说话人的转换,转换语音明显带有目标说话人的特征,且具有较高的可懂度。  相似文献   

11.
在G.729的基本框架下,码本搜索采用次最优部分码本快速搜索法,知觉加权滤波器使用基于声学心理模型的知觉加权滤波器,使得8Kb/s共扼结构代数码激励线性预测语音编码在不降低语音质量的情况下降低计算复杂度。次最优部分码本快速搜索方法虽然降低搜索准确度,但是大大减小了搜索时的数据处理量;声学心理滤波器考虑人耳对不同频率信号的不同敏感度,因而能获得更好的主观音质效果。仿真结果表明,该算法复杂度降低,并取得满意的合成语音质量。  相似文献   

12.
In this paper, we describe a group delay-based signal processing technique for the analysis and detection of hypernasal speech. Our preliminary acoustic analysis on nasalized vowels shows that, even though additional resonances are introduced at various frequency locations, the introduction of a new resonance in the low-frequency region (around 250 Hz) is found to be consistent. This observation is further confirmed by a perceptual analysis carried out on vowel sounds that are modified by introducing different nasal resonances, and an acoustic analysis on hypernasal speech. Based on this, for subsequent experiments the focus is given only to the low-frequency region. The additive property of the group delay function can be exploited to resolve two closely spaced formants. However, when the formants are very close with considerably wider bandwidths as in hypernasal speech, the group delay function also fails to resolve. To overcome this, we suggest a band-limited approach to estimate the locations of the formants. Using the band-limited group delay spectrum, we define a new acoustic measure for the detection of hypernasality. Experiments are carried out on the phonemes /a/, /i/, and /u/ uttered by 33 hypernasal speakers and 30 normal speakers. Using the group delay-based acoustic measure, the performance on a hypernasality detection task is found to be 100% for /a/, 88.78% for /i/ and 86.66% for /u/. The effectiveness of this acoustic measure is further cross-verified on a speech data collected in an entirely different recording environment.  相似文献   

13.
本文根据心理声学的基本理论和实验资料,提出了一个基于听觉感知特征的听觉模型,与基于生理声学的听觉模型相比较,该模型更能反映人对连续自然语音的感知特性,因而适于对连续语音的识别。  相似文献   

14.
On the basis of psychological acoustic theories and experiments, this paper proposes an acoustic model which is based on acoustic perceptual feature. Compared with the physiological acoustics based acoustic model, this model is more suitable to represent human's perceptual features of continuous speech, so it is suitable for recognition of continuous speech.  相似文献   

15.
On the basis of psychological acoustic theories and experiments, this paper proposes an acoustic model which is based on acoustic perceptual feature. Compared with the physiological acoustics based acoustic model, this model is more suitable to represent human’s perceptual features of continuous speech, so it is suitable for recognition of continuous speech.  相似文献   

16.
提出了一种基于双波长解调的光纤法布里-珀罗(Fabry-Perot,FP)干涉型传声器,采用归一化算法和微分交叉相乘处理(DCM)算法,实现了声信号的准确还原.在归一化算法中,利用椭圆拟合,实现了两路波长光信号的归一化,减小了激光器输出波动对光纤FP干涉型传声器输出特性的影响;在DCM算法中,通过信号处理及滤波,实现了声信号的准确输出,减小了温度等环境因素对光纤FP干涉型传声器输出特性的影响.在实验中,采用对比法,测试了基于双波长解调的光纤FP干涉型传声器的特性,结果显示器件实现了灵敏度为210 mV/Pa、频率响应为100~3 15 0 H z的声信号测量,能够很好地应用于语音识别、噪声测量、空气声探测等领域.  相似文献   

17.
The use of noninvasive techniques to evaluate the larynx and vocal tract helps the speech specialists to perform accurate diagnose of diseases. In this study, a method to distinguish among 21 different pathologies using speech signals was developed. Through inverse filtering (Kalman and Wiener filters) of the voice signal, the residue was estimated and seven acoustic features were extracted from it to evaluate the laryngeal diseases. As time-invariant inverse filtering was used, the nonstationary nature of dysphonic voices was also considered. Together with the estimation of the acoustic features using a robust statistical method, this technique also allowed us to discriminate among pathologies with very close perceptual characteristics. The results from a Mann-Whitney test indicated that the best measurement for pathological discrimination was JITTER with 54.79% ability to cluster the voice types and the worst one was spectral flatness of residue (SFR) with 36.41%  相似文献   

18.
语音信号的Bark子波变换及其在语音识别中的应用   总被引:17,自引:1,他引:16       下载免费PDF全文
付强  易克初 《电子学报》2000,28(10):102-105
本文首先在语音感知实验基础上所得到的Bark尺度概念与子波的构造联系起来,提出了一种语音信号Bark子波及其变换.在感知特性中,它与人耳的听觉系统是直接吻合的:在数学上,它是一种非正交的但却是超完备的,可逆且是自反演的子波变换.应用在语音识别中时,利用子波的局部基性质,取较小的分析帧长,提高了前端处理的时间分辨率.实验表明,所形成的新特征在对辅音区别能力方面明显优于目前应用于广泛的MFCC特征.  相似文献   

19.
20.
脉冲调制的超高亮度白光LED制伏器采用功率型白光LED模组集成化封装并配合高效光学镜头,在频率0~100Hz范围、占空比0~ 100%可调的脉冲驱动系统的驱动下,来实现满足LED制伏器要求的高功率超高亮度脉冲调制白光LED光源,可以在使用者安全距离以外(5 m以上)远处达到大于105 lx的照度,超过太阳光在地球表面1...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号