期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

亢明汪成亮陈娟娟《计算机应用》2009,29(1):146-148

在基于矢量量化的说话识别系统所选用的LBG算法中,码本分裂时的阈值是影响初始码本生成的重要因素之一, 而传统方式所采用的阈值不容易确定,且需要进行大量的实验来获得经验值。提出在一定范围内动态地,随机地产生阈值的方法来改进初始码本形成策略,并结合差分倒谱参数建立说话人识别模型。实验结果表明该方法在识别率得到一定改善的前提下,训练时间及识别时间有了明显改善。相似文献

2.

说话人识别中基于聚类特征的矢量量化技术

徐利敏唐振民何可可钱博《计算机工程与应用》2007,43(27):196-198

为解决采用矢量量化的方法进行说话人识别时出现的失真问题,根据汉语语音的发音特性,提出了将矢量量化与语音特征的聚类技术相结合的方法,在进行矢量量化码书训练之前,先对特征矢量进行聚类筛选。实验结果表明,当测试语音片段长度为4 s时,在保持95％左右识别率下,采用普通矢量量化方法需64码本数,而采用该文方法只需8码本数,降低了8倍。结果说明该方法不但在一定程度上解决了因训练样本不足而引起的失真问题,而且通过方法的改进,实现了采用较低码字数产生较好的识别结果,从而提高识别效率。相似文献

3.

基于随机匹配的非局部相似块搜索算法

余文森吴薇《计算机系统应用》2016,25(3):209-213

针对非局部相似块搜索问题,提出一个基于随机匹配的k近邻块匹配算法.在基于Jump Flooding传播的块匹配算法基础上,改进其候选参考块的产生方式,增加从查询块的局部邻域中随机产生候选参考块这一方式.这一改进提高了候选参考块匹配的可能性,进而提高了算法的匹配精确度.实验结果表明改进算法在时间效率和并行性上,与原算法相差不大,但在匹配精确度上,要优于原算法. 相似文献

4.

用DSP实现基于VQ的说话人识别系统

宋大杰黄乡生朱鹤树《微型机与应用》2012,31(5):20-22,25

在TI的DSK5402平台上构建了一个主要采用VQ方法的6个说话人识别系统。该系统采用了10阶的线性预测参数、10阶的线性预测倒谱参数及基音参数,提出了一种改进的LBG算法,以避免在迭代过程中产生空胞腔,使之能适应多种距离测量。实验证明,本系统在指定文本的说话人闭集测试中取得了满意的效果。相似文献

5.

基于遗传LBG的图像矢量量化改进算法

陈倩《计算机科学》2012,39(7):280-281,286

矢量量化在图像压缩中有着举足轻重的地位。码书的设计是算法的关键,经典的LBG聚类算法由于对初始码书的选择非常敏感会导致不同的量化效果。把遗传算法和LBG算法相结合,充分利用LBG算法的局部搜索能力和遗传算法的全局寻优能力,能够在大大改善码本质量的同时加快算法的收敛速度。相似文献

6.

基于VQ的说话人识别算法与实验 总被引：4，自引：1，他引：3

江太辉《计算机工程与应用》2004,40(9):77-79

介绍一种基于矢量量化(VQ)的说话人识别算法。用不同语音参数进行实验,得到令人满意的结果,说明VQ用于说话人识别是一种有效的方法。相似文献

7.

基于矢量量化的说话人识别研究 总被引：7，自引：0，他引：7

周星王成友孟晨杨锁昌魏保华《计算机工程与设计》2002,23(11):12-14,62

说话人识别可以看作语音识别的一种，是当前研究的热点之一。阐明了说话人识别的基本概念、发展状况以及原理和方法，并介绍了一种基于矢量量化的且与文本无关的说话人识别系统。相似文献

8.

主成分分析和K-means聚类在说话人识别中的应用

马金龙景新幸杨海燕冼灿娇赵靖《计算机应用》2015,(Z1)

为了解决特征提取计算量大且特征参数不够全面的问题,提出了用主成分分析和K-means聚类进行语音特征参数提取的方法。通过对说话人识别系统中最常用的线性预测倒谱系数( LPCC)参数和梅尔倒谱系数( MFCC)参数提取原理以及差分参数的提取算法深入研究,选择LPCC、MFCC以及其一阶差分参数的组合作为最终混合特征参数。首先用主成分分析降低每一帧语音信号特征参数的阶数,然后经过K-means聚类降低帧数,最后通过矢量量化( VQ)来进行说话人识别。实验结果表明,该方法降低了计算复杂度,同时也提升了识别准确性。相似文献

9.

模糊聚类与LBG级联的VQ算法

姜占才孙燕姚刚《计算机工程与科学》2011,33(5):155-160

针对LBG算法初始码本随机选取后易出现空胞腔、易陷入局部极小、迭代次数大等缺陷,本文依据模糊聚类理论引入了矢量量化码本设计训练的模糊聚类与LBG级联算法:先用模糊聚类算法训练码本,将训练得到的码本作为传统LBG算法的初始码本,再用传统LBG算法训练.论述了模糊聚类和LBG联合算法的原理与方法;用该算法分剐训练了语音线性... 相似文献

10.

SAT局部搜索算法的转移矩阵模型 总被引：1，自引：0，他引：1

曾卫玲周智黄刘生《计算机工程》2006,32(3):199-202

对不完全算法在搜索空间上的部分特性进行统计分析，并对算法的执行轨迹进行Markov建模，推导出算法的转移矩阵模型，最后通过实验证明了该模型的正确性。相似文献

11.

基于改进VQ算法的文本无关的说话人识别 总被引：3，自引：2，他引：3

张庆芳赵鹤鸣《计算机工程与应用》2006,42(10):65-68

基于矢量量化的说话人识别,因其运算过程简单等特点,在文本无关的说话人识别领域有着广泛的应用。论文根据说话人识别中训练语音的特点并结合快速搜索算法,对矢量量化的码书形成算法进行了改进,提出了一种基于改进算法的与文本无关的说话人识别方法。经实验结果证明,论文的方法加快了码书的形成,减少了码书形成的计算量,改善了码本的性能,提高了说话人识别的识别率。相似文献

12.

基于TLS-NAP的文本无关说话人识别算法

何亮杨毅刘加《模式识别与人工智能》2012,25(6):916-921

为提高文本无关说话人识别系统的识别率,提出一种基于总体最小二乘法的无用分量投影算法。利用总体最小二乘法估计的隐含变量考虑无用分量投影矩阵的扰动,并将该扰动最小化,使基于该隐含变量求得的投影矩阵能更好地刻画无用分量空间。在美国国家标准技术署于2008年公布说话人识别数据库上的实验结果验证该方法的有效性。相似文献

13.

语音识别中基于i-vector的说话人归一化研究 总被引：1，自引：0，他引：1

李亚琦黄浩《现代计算机》2014,(5):3-7

i-vector是反映说话人声学差异的一种重要特征,在目前的说话人识别和说话人验证中显示了有效性。将i-vector应用于语音识别中的说话人的声学特征归一化,对训练数据提取i-vector并利用LBG算法进行无监督聚类．然后对各类分别训练最大似然线性变换并使用说话人自适应训练来实现说话人的归一化。将变换后的特征用于训练和识别．实验表明该方法能够提高语音识别的性能。相似文献

14.

Capturing Local Variability for Speaker Normalization in Speech Recognition

Miguel A. Lleida E. Rose R. Buera L. Saz O. Ortega A. 《IEEE transactions on audio, speech, and language processing》2008,16(3):578-593

The new model reduces the impact of local spectral and temporal variability by estimating a finite set of spectral and temporal warping factors which are applied to speech at the frame level. Optimum warping factors are obtained while decoding in a locally constrained search. The model involves augmenting the states of a standard hidden Markov model (HMM), providing an additional degree of freedom. It is argued in this paper that this represents an efficient and effective method for compensating local variability in speech which may have potential application to a broader array of speech transformations. The technique is presented in the context of existing methods for frequency warping-based speaker normalization for ASR. The new model is evaluated in clean and noisy task domains using subsets of the Aurora 2, the Spanish Speech-Dat-Car, and the TIDIGITS corpora. In addition, some experiments are performed on a Spanish language corpus collected from a population of speakers with a range of speech disorders. It has been found that, under clean or not severely degraded conditions, the new model provides improvements over the standard HMM baseline. It is argued that the framework of local warping is an effective general approach to providing more flexible models of speaker variability. 相似文献

15.

一种用于说话人辨认的EM训练算法 总被引：2，自引：0，他引：2

熊汉春贺前华《数据采集与处理》1998,13(3):214-219

提出用于说话人辨认的一种概率映射网络（ＰＭＮ）分类器，分类器的参数用ＥＭ（Ｅｘｐｅｃｔａｔｉｏｎｍａｘｉｍｉｚａｔｉｏｎ）算法进行训练。ＰＭＮ网为一个四层前馈网，它构成一个贝叶斯分类器，实现多类分类的贝叶斯判别，把输入的说话人语音数据模型参数通过网络变换为输出的说话人判定。其网络节点对应于贝叶斯后验概率公式的各个变量。该ＰＭＮ网络用高斯核函数作为密度函数，网络参数训练由ＥＭ算法实现，其学习方式为类间的监督学习和类内的非监督学习。实验结果表明，这种分类网络及其学习算法在说话人辨认应用中是有效的。相似文献

16.

语音识别中的一种说话人聚类算法 总被引：1，自引：1，他引：1

肖述才欧智坚王作英《中文信息学报》2005,19(4):85-89

本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等。我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适应效果的改进的作用,即比较使用此算法后系统性能的改进进行评价。实验表明:在使用GLR 距离作为距离测度的时候,该算法对句子的聚类正确率达85169 %;在识别实验中,该聚类算法的使用,使得用于说话人自适应的数据更加充分,提高了自适应的效果,系统的误识率已经接近利用已知说话人信息进行自适应时的误识率。相似文献

17.

基于最大似然线性回归矩阵的说话人识别算法研究

钟山何亮邓妍刘加《自动化学报》2009,35(5):546-550

研究了将自适应领域的最大似然线性回归(Maximum likelihood linear regression, MLLR)变换矩阵作为特征进行文本无关的说话人识别算法. 本文引入了基于统一背景模型的MLLRSV-SVM说话人识别算法, 并在此基础上进行高层音素聚类以进一步提高识别性能. 在采用多种信道补偿技术后, 在NIST SRE 2006年1训练语段-1测试语段同信道和跨信道数据库上, 基于MLLR特征的系统与其他最好的系统性能接近并有很强的互补性, 经过简单线性融合可以极大提高识别性能. 相似文献

18.

一种改进的聚类算法及其在说话人识别上的应用 总被引：3，自引：5，他引：3

董国华《微计算机信息》2004,20(9):134-135,22

目前应用最广泛的模糊聚类算法是基于目标函数的模糊k-均值算法．针对该算法存在的缺点。本文提出一种改进的聚类算法．利用遗传算法的全局优化的特点，在能够在正确获得未知对象的聚类中心数目的同时．克服模糊k-均值算法对初始中心点影响的缺陷。将该聚类算法用于确定EBF(椭圆基函数)网络的隐层节点和中心值等参数，在不依赖文本的话者确认实验中．获得了较好的识别效果。相似文献

19.

小波语音增强算法在说话人识别中的应用

王娜郑德忠刘海龙《控制工程》2007,14(5):495-498

干净语音环境下识别率很高的说话人识别系统,在有噪声语音环境下识别性能显著降低。针对这一问题,将小波语音增强算法应用于说话人识别系统,提出一种结点阈值去噪新方法。语音增强主要目的是从带噪语音中尽可能地提取纯净的原始语音。在不同信噪比条件下进行实验,结果表明,提出的方法比传统的阈值法能更好地提高语音质量。相似文献

20.

说话人识别中语音切分算法的研究

何致远胡起秀徐光祜《计算机科学》2002,29(Z1):140-143

在说话人识别中,通常只根据帧幅度或帧能量筛选出有声帧用于训练和识别,对语音的精确切分并没有太高的要求.但是,当用于训练和识别的语音数据量较小时,如基于孤立词的文本提示与文本相关的说话人识别,为了保证数据的有效性,需要对输入的语音进行精确切分. 相似文献