首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
目前在矢量量化的码本训练中经典的聚类方法是LBG算法,但该算法的主要缺陷是对初始码书的依赖性较大,容易过早地陷入局部极小.本文在基于矢量量化的说话人识别中研究了一种随机局部搜索的聚类算法.该算法不依赖初始条件,结构规则,容易实现,效果好,具有很优越的全局优化搜索能力,在语音参数聚类实验中表现出了很好的性能,得到的码书质量也优于经典的LBG-算法,从而为在基于矢量量化的说话人识别中设计准全局最优码书提供了一种新思路.  相似文献   

2.
该文介绍了一种基于矢量量化(VQ)方法的一个说话人识别算法。基于矢量量化的说话人识别,因其运算过程简单等特点,在说话人识别领域有着广泛的应用。用不同语音参数进行实验,实验表明应用矢量量化的方法用在说话人识别中是一种有效方法。  相似文献   

3.
基于矢量量化的说话人识别研究   总被引:7,自引:0,他引:7  
说话人识别可以看作语音识别的一种,是当前研究的热点之一。阐明了说话人识别的基本概念、发展状况以及原理和方法,并介绍了一种基于矢量量化的且与文本无关的说话人识别系统。  相似文献   

4.
模糊C-均值聚类新算法在说话人辨认中的应用   总被引:2,自引:0,他引:2  
该文提出了一种将模糊C-均值聚类法的各种改进算法与矢量量化法相结合的说话人辨认的新方法。首先从语音信号中提取MFCC特征矢量,其次利用矢量量化来设计码书,最后用改进算法对待识语音进行辨认。新算法的辨认率达到95%以上,抗噪性能也优于矢量量化法。  相似文献   

5.
杨彦  赵力 《数据采集与处理》2015,30(6):1233-1239
为了进一步提高基于高斯混合模型的与文本无关说话人识别系统的识别性能,本文针对高斯混合模型在建模时需要较多的训练数据的缺陷,提 出了一种新的应用于小样本说话人识别系统的与文本无关说话人识别方法,该方法综合考虑了模糊集理论、矢量量化和高斯混合模型的优点,通过用模糊矢量量化误差尺度取代传统高 斯混合模型的输出概率函数,减少了建模时对训练数据量的要求,提高了模型精度和识别速 度。同时由于模糊集理论起到了“数据整形”的作用,所以增强了目标说话人数据的相似性。实验结果表明该方法针对小样本数据的说话人识别系统,识别性能优于传统的基于高斯混合模型的说话人识别系统。  相似文献   

6.
压缩域说话人识别算法(Compressed-domain automatic speaker recognition,CD-ASR)即从压缩语音数据中直接提取压缩参数进行说话人识别,无需参数译码和波形合成.本文提出了基于概率统计直方图的VoIP压缩域说话人识别算法,包括矢量量化统计直方图和高斯混合模型统计直方图两种方法.在给出了G.729,G.723.1(6.3 kb/s),G.723.1(5.3 kb/s)压缩码流的压缩域特征提取方案后,分别以矢量量化统计直方图和高斯混合模型统计直方图作为识别模型进行说话人识别.实验结果表明,概率统计直方图法比在压缩码漉中提取同样识别参数的GMM模型,识别率有很大提高.  相似文献   

7.
戴彦群  王茂芝 《计算机应用》2004,24(5):64-66,101
对向传播神经网络(CPN)可以作为矢量量化器用于图像压缩,但CPN学习算法在进行码书设计时存在两个明显的缺陷。本文对CPN学习算法进行改进,提出了一种新的码书设计算法——快速竞争学习及误差修正算法(FCLECA)和一个基于改进CPN的快速矢量量化器模型,并讨论了FCLECA中的重要步骤和重要参数。仿真实验结果表明,FCLECA在生成高质量码书的同时大幅减少了训练时间,可以有效地实现快速矢量量化。  相似文献   

8.
设计了一套基于LabVIEW的语音身份认证系统,以LabVIEW2009为开发平台,采用改进的美尔倒频谱系数法进行语音信号特征提取,采用矢量量化模型进行语音识别,实现了与文本、性别无关的声纹识别.实验结果表明该系统能够有效克服环境噪声、说话人声音变异带来的影响.  相似文献   

9.
一种基于MFCC和LPCC的文本相关说话人识别方法   总被引:1,自引:0,他引:1  
于明  袁玉倩  董浩  王哲 《计算机应用》2006,26(4):883-885
在说话人识别的建模过程中,为传统矢量量化模型的码字增加了方差分量,形成了一种新的连续码字分布的矢量量化模型。同时采用美尔倒谱系数及其差分和线性预测倒谱系数及其差分相结合作为识别的特征参数,来进行与文本有关的说话人识别。通过与动态时间规整算法和传统的矢量量化方法进行比较表明,在系统响应时间并未明显增加的基础上,该模型识别率有一定提高。  相似文献   

10.
许允喜  俞一彪 《计算机应用》2008,28(2):339-341,
矢量量化(VQ)方法是文本无关说话人识别中广泛应用的建模方法之一,它的主要问题是码本设计问题。语音特征参数是高维数据,样本分布复杂,因此码本设计的难度也很大,传统的LBG算法只能获得局部最优的码本。提出一种VQ码本设计的新方法,将小生境技术与K-均值算法融入到免疫算法训练过程中,形成混合免疫算法,采用针对高维数据聚类的改进变异算子,降低了随机变异的盲目性,增强群体的全局及局部搜索能力,同时通过接种疫苗提高算法的收敛速度。说话人识别实验表明,与传统LBG和基于混合遗传算法的VQ码本设计方法相比,该方法可以得到更优的模型参数,使得系统的识别率进一步提高。  相似文献   

11.
在上下文无关的说话人识别应用中,针对传统MFCC特征参数在语音预处理方面不足以及三角滤波器组的缺陷,提出一种改进的MFCC特征参数提取方法.一方面在传统算法上加入端点检测,去除与说话人语音特征无关的静音段;另一方面用高斯滤波器组(Gaussian shaped filters GF)代替三角滤波器组进行频率到Mel频率的转换,提高识别准确率.说话人识别模型使用流行的高斯混合模型(GMM).实验结果显示,高斯滤波器组的引入相比于传统三角滤波器组识别率有4.45%的提升,本文改进后的MFCC特征参数相比于传统方法识别率也提升了6.43%,能更好的代表说话人的语音特征.  相似文献   

12.

Speaker recognition revolution has lead to the inclusion of speaker recognition modules in several commercial products. Most published algorithms for speaker recognition focus on text-dependent speaker recognition. In contrast, text-independent speaker recognition is more advantageous as the client can talk freely to the system. In this paper, text-independent speaker recognition is considered in the presence of some degradation effects such as noise and reverberation. Mel-Frequency Cepstral Coefficients (MFCCs), spectrum and log-spectrum are used for feature extraction from the speech signals. These features are processed with the Long-Short Term Memory Recurrent Neural Network (LSTM-RNN) as a classification tool to complete the speaker recognition task. The network learns to recognize the speakers efficiently in a text-independent manner, when the recording circumstances are the same. The recognition rate reaches 95.33% using MFCCs, while it is increased to 98.7% when using spectrum or log-spectrum. However, the system has some challenges to recognize speakers from different recording environments. Hence, different speech enhancement techniques, such as spectral subtraction and wavelet denoising, are used to improve the recognition performance to some extent. The proposed approach shows superiority, when compared to the algorithm of R. Togneri and D. Pullella (2011).

  相似文献   

13.
屈微  刘贺平 《计算机应用》2005,25(10):2401-2403
使用独立分量分析(ICA)来提取说话人特征并与矢量量化(VQ)判决方法相结合,实现了一个高性能的基于ICA特征的VQ (ICA VQ)说话人识别系统。通过ICA变换得到说话人语音特征基函数系数用于生成VQ码书,并导出包含能量失真的ICA VQ码书失真测度和质心确定条件,生成最终的判决。仿真实验中ICA提取的特征分别用于不同系统实现说话人确认任务,各系统的DET曲线对比验证了VQ方法用于ICA特征分类判决的优势,同时不同码书尺寸下的等差率(EER)对比证明了VQ码书设计的有效性。  相似文献   

14.
研究了基于美尔倒谱特征参数及高斯混合模型的文本无关的说话人识别系统,为了提高噪声环境下识别系统的识别率,从两个角度研究改善该系统抗噪性能的方法,即利用语音识别将文本无关的系统转化为文本有关的说话人识别方法和通过选择鲁棒性较强的帧进行说话人识别的方法,分析了以上方法对系统识别性能的改善作用,并通过实验验证上述方法确实可以提高系统在噪声环境下的识别率。  相似文献   

15.
基于方差归一化失真测度的改进的LBG算法   总被引:2,自引:1,他引:2  
矢量量化(VQ)技术在话者识别系统中得到了广泛的应用。 VQ码本的产生通常采用 LBG算法,失真测度则为对矢量的各分量等权重的欧氏距离。在话者识别系统中特征矢量的各个分量的分布是有差别的,且对于不同的话者,这种差别的程度又是不一样的。由于不同分布的各维参数对话者识别的有效性各不相同,因此,文章提出了一种能反映这种有效性差别的失真测度,即:方差归一化失真测度。以该失真测度为基础,并结合时序相关的初始码本设计方法及有效的零胞腔处理技术,文章提出了改进的LBG算法,同时利用该算法训练出改进的VQ话者模型,并进行了话者识别实验。  相似文献   

16.
为提高文本无关说话人识别系统的识别率,提出一种基于总体最小二乘法的无用分量投影算法。利用总体最小二乘法估计的隐含变量考虑无用分量投影矩阵的扰动,并将该扰动最小化,使基于该隐含变量求得的投影矩阵能更好地刻画无用分量空间。在美国国家标准技术署于2008年公布说话人识别数据库上的实验结果验证该方法的有效性。  相似文献   

17.
陈迪  龚卫国  杨利平 《计算机应用》2007,27(5):1217-1219
提出了一种可用于改善说话人识别效果的基于基音周期的可变窗长语音MFCC参数提取方法。基本原理是将原始的语音分解为当前基音周期整数倍长度以内部分及其以外部分,并保留前者舍去后者,以减小训练语音与测试语音的频谱失真。通过文本无关的说话人确认实验,验证了该方法能有效提高说话人确认的识别率,并能提高短时语音的稳定性。  相似文献   

18.
话音识别系统的时间鲁棒性是影响话者识别系统实用化的关键问题之一。为了提高系统的时间鲁棒性,文章提出了基于子带矢量量化(SBVQ)的话者模型。该话者模型由对应语音文本不同频段的各个子带上的矢量量化码本(SBVQ码本)构成。SBVQ话者模型反映了不同频段对话者识别系统性能的不同影响,并可将时间间隔等因素对系统性能的影响局限在某个子带内从而提高模型的时间鲁棒性。识别时,利用BP型人工神经网络(BPNN)对训练数据在各个子带上的量化误差进行拟合可进一步提升系统的性能。实验表明,文章提出的SBVQ话者模型具有较好的时间鲁棒性。  相似文献   

19.
基于高斯混合模型的说话人确认系统   总被引:4,自引:1,他引:4  
杨澄宇  赵文  杨鉴 《计算机应用》2001,21(4):7-8,11
由于在人的话音频谱中,低频和较高频段含有较多说话人的个性信息,本文提出一种LPC倒谱的改进算法用于与文本无关的说话人识别,该改进算法通过话音频谱的各频段进行加权,突出说话人的个性信息,从而使说话人更易于区分。  相似文献   

20.
传统的利用话者的一个时期的语音作为训练语音,进行话者码本训练的方法,识别系统往往不够稳定.为了适应话者自身语音的时变性,文中提出了利用话者不同时期的语音进行训练话者的模型,每个话者具有多个码本.这些码本是采用逐渐减小误识率的优化过程得到的.为了补偿不同信道对系统识别性能的影响,文中给出了一种信道补偿方法.同时提出以一帧高能的浊音语音特征代替一个浊音音素的特征,实现了在线浊音特征提取,利用两级矢量量化及码本索引策略减少了44%的识别计算量.这些方法大大增加了系统的识别速度和鲁棒性.文中比较了用PLP分析和LPC倒谱分析进行话者辨认的识别结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号