共查询到17条相似文献,搜索用时 859 毫秒
1.
采用遗传算法的VQ码本设计及说话人识别 总被引:2,自引:0,他引:2
矢量量化(VQ)方法是文本无关说话人识别中广泛应用的建模方法之一。在矢量量化过程中,经典的LBG算法收敛速度快,但极易收敛于局部最优点,无法保证根据有限样本数据得到最优码本,并最终影响系统识别性能。考虑到遗传算法(GA)是一种具有全局化寻优搜索能力的算法,本文提出了遗传算法和K均值算法相结合的综合分析方法GA-K进行码本设计,改善了码本的质量。讨论了具体的算法实现,分析了在不同的特征参数LPCC及MFCC、不同测试语音长度下的说话人识别性能。实验结果显示,GA-K方法优于传统的LBG算法,可以很好地协调收敛性和识别率之间的关系。 相似文献
2.
3.
4.
一种改进的模糊C-均值聚类算法在说话人识别中的应用 总被引:3,自引:0,他引:3
提出了一种将改进的FCM聚类算法与矢量量化相结合的说话人识别的方法。先从语音信号中提取待识别的特征矢量集,再利用矢量量化来设计码本,最后用改进的算法对待识别语音进行辩识。该算法解决了FCM算法对初始值敏感、易陷入局部最优的问题。所使用的特征参数较少,计算比较简单,但识别率较高,且具有较好的鲁棒性。 相似文献
5.
6.
在粒子群优化(Particle Swarm Optimization, PSO)和混合蛙跳算法(Shuffled Frog-Leaping Algorithm, SFLA)的基础上,该文提出了一种新的混合粒子对优化(Shuffled Particle-Pair Optimizer, SPPO)算法,应用于矢量量化的说话人识别。该算法将全局信息交换和局部深度搜索相结合寻求最佳的说话人码本。群体按适应值分为3个粒子对,每个粒子对由两个粒子构成,按先后顺序执行PSO算法中的速度位置更新和LBG算法以实现局部细致搜索,间隔一定的迭代次数通过SFLA混合策略实现粒子对间的信息交换,从而使群体向全局最优解靠近。实验结果表明,本算法始终稳定地取得显著优于LBG,FCM,FRLVQ-FVQ和PSO算法的说话人识别性能,较好地解决了初始码本影响的识别性能的问题,且在计算时间和收敛速度方面有相当的优势。 相似文献
7.
8.
LBG算法中空包腔的优化处理 总被引:5,自引:0,他引:5
矢量量化(VQ)技术在说话人识别方面得到广泛的应用。VQ码本的产生通常采用LBG算法,LBG算法不可忽视的问题之一是空包腔的处理,它对码本的质量和算法的效率都产生影响。为此提出一种优化的空包腔处理方法:对得分最大的包腔的分解是基于聚类机会均等和码字最有代表性原则下进行的,避免了再一次产生空包腔的可能性。同时该方法还是基于不损失矢量的原则,对保持矢量空间分布的完备性具有意义。该方法得到了实验的验证。 相似文献
9.
VQ+WNN(Vector Quantization and Wavelet Neural Network)说话人识别系统主要利用VQ进行矢量量化,将量化矢量送到小波神经网络进行说话人训练和识别。经过VQ量化后的特征矢量可以大大减少小波神经网络的运算量,提高网络的收敛速度与识别精度。虽然运算量是可以接受的,但如果在矢量量化之前采用分量处理方法,去除对识别精度影响不大的特征矢量,则可进一步减少运算量,而识别精度基本维持不变。 相似文献
10.
本文提出了一种新的说话人码本的优化设计方法—粒子对协同优化算法,应用于矢量量化的说话人辨认.此算法利用两个初始粒子对分别在每次迭代中执行粒子群优化算法的速度、位置更新和标准LBG算法实现并行搜索最优码本,粒子对由两个粒子构成,每隔一定的迭代次数通过交换粒子实现粒子对间的信息交流,最后分别选出两个较优粒子组成精英粒子对进一步搜索.此算法避免传统LBG算法陷入局部最优的缺点.实验结果表明,本算法始终稳定地取得显著优于LBG、FCM、FRLVQ-FVQ、FEP和PSO算法的说话人辨认性能,较好地解决了初始码本影响优化结果的问题,且在计算时间和收敛速度方面有优势. 相似文献
11.
《Vision, Image and Signal Processing, IEE Proceedings -》1995,142(5):313-318
The authors evaluate continuous density hidden Markov models (CDHMM), dynamic time warping (DTW) and distortion-based vector quantisation (VQ) for speaker recognition, emphasising the performance of each model structure across incremental amounts of training data. Text-independent (TI) experiments are performed with VQ and CDHMMs, and text-dependent (TD) experiments are performed with DTW, VQ and CDHMMs. For TI speaker recognition, VQ performs better than an equivalent CDHMM with one training version, but is outperformed by CDHMM when trained with ten training versions. For TD experiments, DTW outperforms VQ and CDHMMs for sparse amounts of training data, but with more data the performance of each model is indistinguishable. The performance of the TD procedures is consistently superior to TI, which is attributed to subdividing the speaker recognition problem into smaller speaker-word problems. It is also shown that there is a large variation in performance across the different digits, and it is concluded that digit zero is the best digit for speaker discrimination 相似文献
12.
13.
Bootstrap and aggregating VQ classifier for speaker recognition 总被引:1,自引:0,他引:1
Youn Jeong Kyung Hwang Soo Lee 《Electronics letters》1999,35(12):973-974
A bootstrap and aggregating (bagging) vector quantisation (VQ) classifier is proposed for speaker recognition. This method obtains multiple training data sets by resampling the original training data set, and then integrates the corresponding multiple classifiers into a single classifier. Experiments involving a closed set, text-independent and speaker identification system are carried out using the TIMIT database. The proposed bagging VQ classifier shows considerably improved performance over the conventional VQ classifier 相似文献
14.
基于MVQM说话人识别系统的DSP实现 总被引:1,自引:1,他引:0
谢建平 《微电子学与计算机》2006,23(6):220-222,226
文章运用TMS320C5416实现了说话人自动识别系统。提出了一种新的说话人识别方法。该方法综合了VQ和GMM的优点。通过用VQ误差尺度取代传统GMM的输出概率函数。减少了建模时对训练数据量的要求,提高了识别速度。实验结果证明该方法是有效的。 相似文献
15.
16.
基于支持向量机的说话人识别研究 总被引:1,自引:0,他引:1
说话人识别技术的研究是智能信息处理的研究热点问题之一。支持向量机是统计学习理论的一个重要学习方法,也是解决模式识别问题的一个有力工具。介绍了模式识别的分类原理,提出基于支持向量机的说话人识别模型。通过把所得到的结果与原有VQ模型的试验结果相比较,表明该方法具有较高的识别准确率。 相似文献
17.
该文介绍了优先度排序径向基函数(PORBF)神经网络的结构与算法,并提出了将其应用于与文本无关说话人确认时的训练算法、似然度的计算方法以及识别规则。为了增强PORBF网络的泛化能力,该文用压缩矢量构造抑制样本集,提出了顺序选取、最近邻选取和最远距离选取等3种选择抑制样本集中说话人的方法,并对PORBF神经元的输出进行了等比递减加权.在相同条件下的与文本无关说话人确认实验中,传统的矢量量化方法的等差错率可达10.56%,而基于PORBF网络的确认系统使用最近邻选择方法构造抑制样本集,其等差错率可达6.83%;性能提高很多。 相似文献