首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 546 毫秒
1.
稀疏表示以其出色的分类性能成为说话人确认研究的热点,其中过完备字典的构建是关键,直接影响其性能。为了提高说话人确认系统的鲁棒性,同时解决稀疏表示过完备字典中存在噪声及信道干扰信息的问题,提出一种基于i-向量的主成分稀疏表示字典学习算法。该算法在高斯通用背景模型的基础上提取说话人的i-向量,并使用类内协方差归一化技术对i-向量进行信道补偿;根据信道补偿后的说话人i-向量的均值向量估计其信道偏移空间,在该空间采用主成分分析方法提取低维信道偏移主分量,用于重新计算说话人i-向量,从而达到进一步抑制i-向量中信道干扰的目的;将新的i-向量作为字典原子构建高鲁棒性稀疏表示过完备字典。在测试阶段,测试语音的i-向量在该字典上寻找其稀疏表示系数向量,根据系数向量对测试i-向量的重构误差确定目标说话人。仿真实验表明,该算法具有良好的识别性能。  相似文献   

2.
为了提高数字信号调制模式识别在低信噪比下的正确率,通过分析基于稀疏表示的模式识别,提出了一种基于K-SVD和稀疏表示的特征提取方法.该方法首先引入主成分分析对样本进行降维,然后利用K-SVD算法构造稀疏字典并构建稀疏线性模型,最后通过e1范数最优化求解测试样本的稀疏系数,根据稀疏系数的分布提取特征值.利用支持向量机分类器进行信号的分类识别,仿真研究证明,新方法提取的特征值具有较好的有效性.  相似文献   

3.
对样本进行稀疏描述,可获得充分描述样本特征且具备区分能力的稀疏向量.提出一种基于稀疏描述的SAR目标型号识别算法.首先,对目标SAR图像进行特征提取,以抑制斑点噪声的影响.然后,利用全体训练样本构造字典矩阵,将测试样本在字典矩阵上进行投影得到其稀疏向量.最后,根据拥有相同标号且方位角最接近的样本之间差异最小的特点,构造单个样本重构误差最小准则,实现SAR目标的型号识别.在MSTAR数据上的实验验证了本文算法的有效性.  相似文献   

4.
近年来,随着信号的稀疏性理论越来越受到人们的关注,稀疏表征分类器也作为一种新型的分类算法被应用到话者识别系统中。该模型的基本思想是:只要超完备字典足够大,任意待测样本都能够用超完备字典进行线性表示。基于信号的稀疏性理论,未知话者的向量系数,即稀疏解可以通过L1范数最小化获取。超完备字典则可视为语音特征向量在高斯混合模型-通用背景模型(GMM-UBM)上进行MAP自适应而得到的大型数据库。采用稀疏表征模型作为话者辨认的分类方法,基于TIMIT语料库的实验结果表明,所采用的话者辨认方法,能够大大提高说话人识别系统的性能。  相似文献   

5.
针对基于稀疏表示分类器(Sparse Representation-based Classification,SRC)的人脸识别方法用单位阵作误差字典不能很好地描述人脸图像噪声和误差以及由于训练样本不足可能造成字典不完备的问题,提出一种基于低秩恢复稀疏表示分类器(Low Rank Recovery Sparse Representation-based Classification,LRR_SRC)的人脸识别方法。该方法首先采用低秩矩阵恢复(LRR)算法将训练样本矩阵分解为一个低秩逼近矩阵和一个稀疏误差矩阵。然后,由低秩逼近矩阵和误差矩阵组成字典。在此基础上,得到测试样本在该字典下的稀疏表示。更进一步,基于测试样本的稀疏表示系数和字典,对测试样本进行类关联重构,并计算其类关联重构误差。最后,基于类关联重构误差,完成测试样本的分类识别。在YaleB和CMU PIE人脸数据库上的实验结果表明,提出的基于LRR_SRC的人脸识别方法具有较高的识别率。  相似文献   

6.
基于压缩感知的K L分解语音稀疏表示算法   总被引:1,自引:0,他引:1  
为克服稀疏基在KLT域不便传输的不足,提出一种基于Karhunen-Loeve(K-L)正交分解的语音稀疏表示算法.结合压缩感知理论,建立语音自相关模型并求解Fredholm积分方程,采用二分法估计出可实时传输的模型参数,构造非相干字典;然后用随机矩阵对语音在字典上的稀疏投影系数进行观测获得低维观测值.重构结果表明:相比已有的稀疏表示算法,本文算法的字典匹配性更好,且具有较好的语音质量.  相似文献   

7.
利用语音信号线性预测残差的稀疏性特点可对语音信号进行压缩感知,但需要信号的线性预测系数来构造稀疏变换矩阵,从而增加预测系数传输的数据量。为此,提出将线性预测系数存入对角阵向量中构造循环矩阵,由此得到循环观测矩阵,再对语音信号进行观测。提取该循环矩阵中的线性预测系数构造残差域稀疏变换矩阵,利用正交匹配追踪算法对观测信号进行重构。仿真实验结果表明,与传统线性预测方法相比,该方法减少了3.9%以上的数据量,且比将高斯随机矩阵作为观测矩阵的方法具有更高的帧平均重构信噪比。  相似文献   

8.
针对基于稀疏表示分类方法的训练样本于与类别标签信息提取不足,特别是在训练样本和待测样本都受到噪声污染的情况下将会明显下降及算法复杂度较高的问题,提出以Gabor特征以及加权协同为基础的人脸识别算法;最初需要对人脸图像内所包含的各个尺度以及方向的Gabor特征完成提取,在稀疏表示中引入Gabor特征,将降维后的Gabor特征矩阵作为超完备字典,再用稀疏表示增强加权协同表示得到该字典下的的稀疏表示系数,然后利用增强系数与训练样本的标签矩阵完成对测试样本进行分类识别,从而得到Gabor特征以及加权的协同表示分类方法,在Yale人脸数据库、Extended Yale B和AR人脸数据库上以及在FERET人脸数据库对人脸姿态变化的实验表明新算法具有更好的识别率和较短的计算时间.  相似文献   

9.
针对非负矩阵分解稀疏性不够,通过引入平滑矩阵调节字典矩阵和系数矩阵的稀疏性,提出基于非平滑非负矩阵分解语音增强算法。算法通过语音和噪声的先验字典学习构造联合字典矩阵;然后通过非平滑非负矩阵分解更新带噪语音在联合字典矩阵下的投影系数实现语音增强;同时通过滑动窗口法实时更新先验噪声字典。仿真结果表明,该算法相对非负矩阵分解语音增强算法和MMSE算法具有更好的抑制噪声能力。  相似文献   

10.
在短语音环境下,总变率空间对语音概率分布估计不足,导致说话人识别性能下降.针对上述问题,提出一种基于总变率空间和时延神经网络(TDNN)的增强说话人身份向量的方法.目的 是学习总变率空间和时延神经网络的线性相关性,同时提取说话人嵌入向量并投影在新的空间上,组合成新的说话人超向量来增强说话人信息.训练阶段,分别训练总变率空间和时延神经网络,重新组建一个无关说话人集,从中提取身份向量和x向量并在典型关联分析(CCA)下得到投影矩阵;注册和测试阶段,抽取注册和测试说话人的嵌入向量,通过投影矩阵映射在新空间中,然后组合向量增强说话人身份信息.实验表明,在短注册时长和短测试时长下,融合的新向量比基线身份向量、x向量在等误差率上都有明显下降.  相似文献   

11.
The cross projection engenders when mixed speech signal is represented over joint dictionary because of the bad distinguishing ability of joint dictionary in single-channel blind source separation (SBSS) using sparse representation theory, which leads to bad separation performance. A new algorithm of constructing joint dictionary with common sub-dictionary is put forward in this paper to this problem. The new dictionary can effectively avoid being projected over another sub-dictionary when a source signal is represented over joint dictionary. In the new algorithm, firstly we learn identify sub-dictionaries using source speech signals corresponding to each speaker. And then we discard similar atoms between two identity sub-dictionaries and construct a common sub-dictionary using these similar atoms. Finally, we combine those three sub-dictionaries together into a joint dictionary. The Euclidean distance among two atoms is used to measure the correlation of them in different identity sub-dictionaries, and similar atoms are searched based on the correlation. In testing stage, each source can be reconstructed with the projection coefficients corresponding to individual sub-dictionary and the common sub-dictionary. Contrast experiments tested in speech database show that the algorithm proposed in this paper performs better, when the Signal-to-Noise Ratio (SNR) is used to measure separation effect. The algorithm set out in this paper has lower time complexity as well.  相似文献   

12.
The i-vector framework based system is one of the most popular systems in speaker identification (SID). In this system, session compensation is usually employed first and then the classifier. For any session-compensated representation of i-vector, there is a corresponding identification result, so that both the stages are related. However, in current SID systems, session compensation and classifier are usually optimized independently. An incomplete knowledge about the session compensation to the identification task may lead to involving uncertainties. In this paper, we propose a bilevel framework to jointly optimize session compensation and classifier to enhance the relationship between the two stages. In this framework, we use the sparse coding (SC) to obtain the session-compensated feature by learning an overcomplete dictionary, and employ the softmax classifier and support vector machine (SVM) in classifying respectively. Moreover, we present a joint optimization of the dictionary and classifier parameters under a discriminative criterion for classifier with conditions for SC. In addition, the proposed methods are evaluated on the King-ASR-010, VoxCeleb and RSR2015 databases. Compared with typical session compensation techniques, such as linear discriminant analysis (LDA) and nonparametric discriminant analysis (NDA), our methods can be more robust to complex session variability. Moreover, compared with the typical classifiers in i-vector framework, i.e. the cosine distance scoring (CDS) and probabilistic linear discriminant analysis (PLDA), our methods can be more suitable for SID (multiclass task).  相似文献   

13.
Audio classification is an important problem in signal processing and pattern recognition with potential applications in audio retrieval, documentation and scene analysis. Common to general signal classification systems, it involves both training and classification (or testing) stages. The performance of an audio classification system, such as its complexity and classification accuracy, depends highly on the choice of the signal features and the classifiers. Several features have been widely exploited in existing methods, such as the mel-frequency cepstrum coefficients (MFCCs), line spectral frequencies (LSF) and short time energy (STM). In this paper, instead of using these well-established features, we explore the potential of sparse features, derived from the dictionary of signal atoms using sparse coding based on e.g. orthogonal matching pursuit (OMP), where the atoms are adapted directly from audio training data using the K-SVD dictionary learning algorithm. To reduce the computational complexity, we propose to perform pooling and sampling operations on the sparse coefficients. Such operations also help to maintain a unified dimension of the signal features, regardless of the various lengths of the training and testing signals. Using the popular support vector machine (SVM) as the classifier, we examine the performance of the proposed classification system for two binary classification problems, namely speech–music classification and male–female speech discrimination and a multi-class problem, speaker identification. The experimental results show that the sparse (max-pooled and average-pooled) coefficients perform better than the classical MFCCs features, in particular, for noisy audio data.  相似文献   

14.
基于K-SVD的最大似然稀疏表示体域网动作分类算法   总被引:1,自引:0,他引:1  
为有效提高体域网动作分类性能,本文提出了一种基于K-SVD的最大似然稀疏表示体域网动作分类算法. 该算法首先基于K-SVD优化学习算法,将不同动作模式训练样本按其所属类别分组优化训练,避免各类样本数据训练时相互干扰,得到不同动作模式类别所属的子字典,然后将其拼合构成一个完整字典,准确稀疏表示测试样本,最后基于最大似然稀疏模型准确估计稀疏表示系数残差,并得到测试样本所属类别. 实验结果表明,本文所提算法能够获得最优字典,基于最大似然稀疏表示可准确估计测试动作样本稀疏表示残差. 所提算法识别率明显优于传统稀疏表示动作分类算法,可有效提高体域网动作模式分类性能.  相似文献   

15.
孙念  张毅  林海波  黄超 《计算机应用》2018,38(10):2839-2843
当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法。该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析(PCA)去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析(LDA)挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能。结合TIMIT语料库进行实验,同一时长的短语音(2 s)条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知对数面积比系数(PLAR)特征系统在等错误率(EER)上分别有相对72.16%、69.47%和73.62%的下降。不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数(DCF)上大致都有50%的降低。基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能。  相似文献   

16.
i-vector是反映说话人声学差异的一种重要特征,在目前的说话人识别和说话人验证中显示了有效性。将i-vector应用于语音识别中的说话人的声学特征归一化,对训练数据提取i-vector并利用LBG算法进行无监督聚类.然后对各类分别训练最大似然线性变换并使用说话人自适应训练来实现说话人的归一化。将变换后的特征用于训练和识别.实验表明该方法能够提高语音识别的性能。  相似文献   

17.
目前的说话人识别系统在噪声环境下性能将急剧下降,为了解决这一问题,提出一种新的基于稀疏编码的说话人识别方法。该方法用一个通用背景字典(Universal Background Dictionary,UBD)刻画说话人语音的共性,并为每个说话人和环境噪声训练相应的字典来刻画说话人和环境的特殊变化。这些字典拼接成一个大字典,然后将待测试语音稀疏分解在这个大字典上以实现说话人识别。为了提高说话人字典的区分能力,通过从说话人字典中移除与通用背景字典原子相似的原子来优化说话人字典。为了跟踪变化的噪声,采用带噪声的语音在线更新噪声字典。在各种噪声条件下的实验表明,所提出的方法在噪声环境下具有较强的鲁棒性。  相似文献   

18.
针对现有基于字典学习的增强算法依赖先验信息的问题,基于矩阵的稀疏低秩分解提出一种无监督的单通道语音增强算法。该算法首先通过稀疏低秩分解将带噪语音的幅度谱分解为低秩、稀疏和噪声三部分,然后通过对低秩部分进行自学习构建出噪声字典,最后利用所得噪声字典和乘性迭代准则于低秩和稀疏部分中分离出纯净语音。相较于其他基于字典学习的语音增强算法,本文所提算法无需语音或噪声的先验信息,因而更加方便和实用。实验结果显示,本文算法能够在保留语音谐波结构的同时有效抑制噪声,增强效果明显优于鲁棒主成分分析和多带谱减法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号