首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 781 毫秒
1.
文中研究表明,反映说话人特征信息的特征参数矢量的各个分量通常具有不同的分布,对正确识别说话人身份的有效性是有差别的。文中将这种有效性差别作为权重矢量反映到失真测度计算公式中,提出了一种新的失真测度,即方差归一化失真测度可有效提高话者识别系统的识别性能。进一步的实验还表明,该失真测度能提高话者识别系统的时间鲁棒性。文中同时还给出了适合于话者识别的参数归正方法:帧内幅度归正。  相似文献   

2.
话音识别系统的时间鲁棒性是影响话者识别系统实用化的关键问题之一。为了提高系统的时间鲁棒性,文章提出了基于子带矢量量化(SBVQ)的话者模型。该话者模型由对应语音文本不同频段的各个子带上的矢量量化码本(SBVQ码本)构成。SBVQ话者模型反映了不同频段对话者识别系统性能的不同影响,并可将时间间隔等因素对系统性能的影响局限在某个子带内从而提高模型的时间鲁棒性。识别时,利用BP型人工神经网络(BPNN)对训练数据在各个子带上的量化误差进行拟合可进一步提升系统的性能。实验表明,文章提出的SBVQ话者模型具有较好的时间鲁棒性。  相似文献   

3.
一种基于小波变换的图像压缩方法   总被引:8,自引:0,他引:8  
提出一种基于小波变换的灰度图像数据压缩编码方法,基本思路是利用小波变换实现图像的多分辨分解,用矢量量化(VQ)对分解后的图像进行编码,在矢量量化LBG算法的初始码书的选取中根据矢量中各分量的特性提出一种改进的随机选取法,避免了可能的胞腔不均现象,提高了码书的质量,而且重构的图像质量也有所提高。  相似文献   

4.
传统的利用话者的一个时期的语音作为训练语音,进行话者码本训练的方法,识别系统往往不够稳定.为了适应话者自身语音的时变性,文中提出了利用话者不同时期的语音进行训练话者的模型,每个话者具有多个码本.这些码本是采用逐渐减小误识率的优化过程得到的.为了补偿不同信道对系统识别性能的影响,文中给出了一种信道补偿方法.同时提出以一帧高能的浊音语音特征代替一个浊音音素的特征,实现了在线浊音特征提取,利用两级矢量量化及码本索引策略减少了44%的识别计算量.这些方法大大增加了系统的识别速度和鲁棒性.文中比较了用PLP分析和LPC倒谱分析进行话者辨认的识别结果.  相似文献   

5.
提出了一种用于矢量量化的改进的聚类算法,该算法在MKM(Modified K-Means)算法的框架的基础上,对初始码本的生成、失真测度的选择、非典型胞腔的处理等方面进行了改进,从而减少了原算法在能量和增益上对聚类结果的影响。并将该算法应用于波形编辑孤立字识别器,这种识别器直接对语音样本的时域波形进行训练和聚类,不需要提取语音参数,算法复杂度较低,加上提出的聚类算法失真测度简单易实现,对芯片的运算能力要求不高,非常适用于有低成本要求的语音识别器场合。通过中文元音字识别的实验证明,在相同码本尺寸下,运用改进后的聚类算法的识别器的识别率有所提高。  相似文献   

6.
本文对神经网络语音识别中的语音特征提取、网络结构以及学习算法进行了初步的研究,提出了一种用于时特征矢量量化的简化和改进的自组织神经网络模型VQNN。VQNN中引入了动态规划法估计语音样本矢量的码本类中心初值并确定网络的初始权矩阵,可构造出256个量化等级的码本矢量。该方法具有较强的鲁棒性且矢量量化过程简单迅速。对28个地名的语音量化识别实验结果表明了这种量化方法对时识别的有性。  相似文献   

7.
语音识别中基于SFCM模糊聚类的矢量量化方法   总被引:4,自引:1,他引:3  
模糊聚类分析算法用隶属度确定样本所属类别,因其良好的效果而被广泛用于语音识别领域。文中提出了一种模糊聚类分析算法SFCM,并将其用于语音特征的矢量量化,最终形成码本尺寸为128的码本,用SFCM算法得到的码本分布合理,没有空类。采用此码本的误音识别实验表明了这种量化方法对语音识别的有效性。  相似文献   

8.
一个改进的LBG算法   总被引:6,自引:0,他引:6  
LGB算法是矢量量化码书设计的基本算法,本文提出一个改进的LBG算法,它加入了分裂失真较大的胞腔和删除非典型胞腔两条新规则,并采用了新的分裂法,分析与试验结果表明,改进的算法具有新的优点,且减少了运算量。  相似文献   

9.
李宏言  盛利元  陈妮 《计算机工程与设计》2007,28(19):4702-4704,4737
针对传统DTW语音识别方法的运算量和存储空间大的缺陷,提出一种基于矢量量化和查找表的改进DTW方法.方法利用矢量量化操作将连续特征矢量空间转化成离散矢量空间,以降低模式存储空间,在此基础上建立矢量失真测度表,并通过Hash查表方式实现了地址空间的精确定位,从而省去了动态规划操作造成的大量距离测度计算,极大提高了识别匹配速度.理论分析和实验结果证明了改进方法的有效性.同时为研究方便,在Matlab平台下设计和开发了DTW实时语音识别系统.  相似文献   

10.
传统的利用话者的一个时期的语音作为训练语音,进行语者码本训练的方法,识别系统往往不够稳定。为了适应话者自身语音的时变性,文中提出了利用话者不同时期的语音进行训练话者的模型,每个语者具有多个码本。这些码本是采用逐渐减小误识率的优化过程得到的。为了补偿不同信道对系统识别性能的影响,文中给出了一种信道补偿方法。  相似文献   

11.
基于分布特征统计的说话人识别   总被引:2,自引:2,他引:0       下载免费PDF全文
给出了基于公共码书的说话人分布特征的定义。提出了基于分布特征统计的说话人识别算法,根据所有参考说话人的训练语音建立公共码书,实现对语音特征空间的分类,统计各参考说话人训练语音的在公共码字上的分布特征进行建模。识别中引入双序列比对方法进行识别语音的分布特征统计与参考说话人模型间的相似度匹配,实现对说话人的辨认。实验表明,该方法保证识别率的情况下,进一步提高了基于VQ的说话人识别的速度。  相似文献   

12.
屈微  刘贺平 《计算机应用》2005,25(10):2401-2403
使用独立分量分析(ICA)来提取说话人特征并与矢量量化(VQ)判决方法相结合,实现了一个高性能的基于ICA特征的VQ (ICA VQ)说话人识别系统。通过ICA变换得到说话人语音特征基函数系数用于生成VQ码书,并导出包含能量失真的ICA VQ码书失真测度和质心确定条件,生成最终的判决。仿真实验中ICA提取的特征分别用于不同系统实现说话人确认任务,各系统的DET曲线对比验证了VQ方法用于ICA特征分类判决的优势,同时不同码书尺寸下的等差率(EER)对比证明了VQ码书设计的有效性。  相似文献   

13.
王让定  杜呈透 《计算机工程》2004,30(17):146-148
研究了基于VQ的有限非特定人汉语语音命令的识别方法,识别对象是有限的特定人群(如5到6人)、有限汉语短语。该文采用MFCC作为识别特征,利用改进的LBG算法训VQ码本,为了提高识别率和拒识率,提出了采用倒谱距离法的有效语音端点检测方法以及实用的拒识方法。实验结果证明,系统在具有背景噪声的一般办公环境下由有限人训练后,当训练的说话人与识别系统的距离在0.5m的范围内时,测试识别率达到99%以上,未训练说话人的拒识率达82%。  相似文献   

14.
许允喜  俞一彪 《计算机应用》2008,28(2):339-341,
矢量量化(VQ)方法是文本无关说话人识别中广泛应用的建模方法之一,它的主要问题是码本设计问题。语音特征参数是高维数据,样本分布复杂,因此码本设计的难度也很大,传统的LBG算法只能获得局部最优的码本。提出一种VQ码本设计的新方法,将小生境技术与K-均值算法融入到免疫算法训练过程中,形成混合免疫算法,采用针对高维数据聚类的改进变异算子,降低了随机变异的盲目性,增强群体的全局及局部搜索能力,同时通过接种疫苗提高算法的收敛速度。说话人识别实验表明,与传统LBG和基于混合遗传算法的VQ码本设计方法相比,该方法可以得到更优的模型参数,使得系统的识别率进一步提高。  相似文献   

15.
An important task of speaker verification is to generate speaker specific models and match an input speaker’s utterance with these models. This paper focuses on comparing the performance of text dependent speaker verification system using Mel Frequency Cepstral Coefficients feature and different Vector Quantization (VQ) based speaker modelling techniques to generate the speaker specific models. Speaker-specific information is mainly represented by spectral features and using these features we have developed the model which serves as an important entity for determining the claimed identity of the speaker. In the modelling part, we used Linde, Buzo, Gray (LBG) VQ, proposed adaptive LBG VQ and Fuzzy C Means (FCM) VQ for generating speaker specific model. The experimental results that are performed on microphonic database shows that accuracy significantly depends on the size of the codebook in all VQ techniques, and on FCM VQ accuracy also depend on the value of learning parameter of the objective function. Experiment results shows that how the accuracy of speaker verification system is depend on different representations of the codebook, different size of codebook in VQ modelling techniques and learning parameter in FCM VQ.  相似文献   

16.
在TI的DSK5402平台上构建了一个主要采用VQ方法的6个说话人识别系统。该系统采用了10阶的线性预测参数、10阶的线性预测倒谱参数及基音参数,提出了一种改进的LBG算法,以避免在迭代过程中产生空胞腔,使之能适应多种距离测量。实验证明,本系统在指定文本的说话人闭集测试中取得了满意的效果。  相似文献   

17.
目前在矢量量化的码本训练中经典的聚类方法是LBG算法,但该算法的主要缺陷是对初始码书的依赖性较大,容易过早地陷入局部极小.本文在基于矢量量化的说话人识别中研究了一种随机局部搜索的聚类算法.该算法不依赖初始条件,结构规则,容易实现,效果好,具有很优越的全局优化搜索能力,在语音参数聚类实验中表现出了很好的性能,得到的码书质量也优于经典的LBG-算法,从而为在基于矢量量化的说话人识别中设计准全局最优码书提供了一种新思路.  相似文献   

18.
该文介绍了一种基于矢量量化(VQ)方法的一个说话人识别算法。基于矢量量化的说话人识别,因其运算过程简单等特点,在说话人识别领域有着广泛的应用。用不同语音参数进行实验,实验表明应用矢量量化的方法用在说话人识别中是一种有效方法。  相似文献   

19.
This paper evaluates the impact of three special forms of the Minkowski metric (Euclidean, City Block, and Chebychev distances) on the performance of the conventional vector quantization (VQ) and Gaussian mixture model (GMM) based closed-set text-independent speaker recognition systems, in terms of recognition rate and confidence on decisions. For the VQ based system, evaluations are carried out using the two most common clustering algorithms, LBG and K-means, and it is revealed which clustering algorithm and distance pair should be used to exploit the best attribute of both to achieve the best recognition rate for a given codebook size. In the case of GMM based system, we introduce the metrics into the GMM using a concatenation of the LBG and K-means algorithms in estimating the initial mean vectors, to which the system performance is sensitive, and explore their impact on system performance. We also make comparison of results obtained from evaluations on clean speech (TIMIT) and telephone speech databases (NTIMIT and NIST2001) with the modern classifiers VQ-UBM and GMM-UBM. It is found that there are cases where conventional VQ based system outperforms the modern systems. Moreover, the impact of distance metrics on the performance of the conventional and modern systems depends on the recognition task imposed (verification/identification).  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号