首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
白志刚  鲍长春 《信号处理》2020,36(6):831-838
基于非负矩阵分解(Nonnegative matrix factorization, NMF)的语音增强算法需要和背景噪声类型匹配的噪声基矩阵(Basis matrix),而在实际中,这是很难被保证的。本文提出了一种基于噪声基矩阵在线更新的非负矩阵分解语音增强方法,该方法首先利用一个无语音帧判决模块识别出带噪语音的无语音区域,然后利用一个固定长度的滑动窗口(Sliding window)来包含若干帧最近过去的带噪语音的无语音帧,并用这些无语音帧的幅度谱在线更新噪声基矩阵,最后利用更新得到的噪声基矩阵和预先训练的语音基矩阵实现语音增强。该方法能够在线更新出匹配的噪声基矩阵,有效地解决了噪声基矩阵不匹配的问题。实验证明,本文所提的方法在线学习到的噪声基矩阵在大多数条件下比匹配训练集下训练得到的噪声基矩阵的性能还要优越。   相似文献   

2.
鲍长春  白志刚 《信号处理》2020,36(6):791-803
语音增强在语音信号处理领域举足轻重,其目的在于减少背景噪声对语音信号的影响。然而,如何从极度非平稳噪声环境下有效地分离出目标语音仍然是一个具有挑战性的问题。基于非负矩阵分解(Nonnegative matrix factorization, NMF)的语音增强算法利用非负的语音和噪声基矩阵来建模语音和噪声的频谱子空间,是目前一种先进的对抑制非平稳噪声非常有效的技术。本文首先详细地介绍了非负矩阵分解理论,包括非负矩阵分解模型,代价函数(Cost function)的定义以及常用的乘法更新准则(Multiplicative update rules)。然后,本文详细地介绍了基于非负矩阵分解的语音增强方法的基本原理,包括训练阶段和增强阶段的具体过程,并进行了实验,此外,还利用一个基于非负矩阵分解的语音重构实验验证了语音基矩阵对语音频谱的建模能力。最后,本文总结了传统的基于非负矩阵分解的算法的不足,并对一些现有的基于非负矩阵分解的算法分别做了一个简单的概述,包括其创新点和优缺点,并对比分析了几种具有代表性的方法。本文从历史的角度展示了基于非负矩阵分解的语音增强方法的不断发展。   相似文献   

3.
为了提高认知无线电系统中低信噪比条件下的频谱感知性能,提出了基于非负矩阵分解的频谱感知方法。在无需知道被感知信号的先验信息的条件下,将原始信号进行短时傅里叶变换后,利用非负矩阵分解的噪声与信号之间的特征矩阵存在的差异性,将特征矩阵作为检测统计量进行频谱感知。仿真结果表明,基于非负矩阵分解的频谱感知方法在低信噪比条件下,具有较传统的能量检测方法与循环平稳检测方法更优的感知性能。  相似文献   

4.
为了提升复杂噪声环境下语音增强效果,该文提出了一种基于双层字典学习的单通道语音增强方法。在训练阶段首先采用干净语音和噪声训练初始化特征子字典,然后基于区分性约束和抗混淆约束的优化函数训练双层联合字典,第一层字典表达语音信号和噪声的可区分分量,而第二层字典表达语音信号和噪声的易混淆成分。在测试阶段含噪语音在双层联合字典上投影得到稀疏系数矩阵,然后重构得到增强后的语音。该方法利用目标优化函数的约束性减少“交叉投影”现象的发生,降低了信号在联合字典的混淆,从而进一步提升了语音增强的效果。实验结果表明,从全局信噪比(SNR)、主观语音质量评估(PESQ)和对数频谱距离(LSD)三个方面评价,相比于基于稀疏约束非负矩阵分解和改进的维纳滤波的语音增强方法,该方法具有更好的性能,能够更有效地去除噪声。   相似文献   

5.
基于压缩感知的稳健性说话人识别   总被引:1,自引:1,他引:0  
单进  芮贤义 《电声技术》2011,35(2):61-63
阐述了在噪声条件下,将基于压缩感知理论的丢失数据重建技术应用于说话人识别系统的系统前端.首先使用Mel滤波器组将带噪语音信号转换成Mel频谱,然后利用带噪MeI谱中可靠数据重建不可靠数据,最后从重建的Mel频谱中提取Mel倒谱特征参数用于说话人识别.稳健性实验结果表明,该方法能够提高在噪声环境下说话人系统的识别率.  相似文献   

6.
包永强  赵力  邹采荣 《信号处理》2006,22(6):899-902
噪声是影响语音识别和说话人识别性能的主要因素,目前常用的降噪方法多是针对平稳噪声的,而针对非平稳噪声的降噪方法很少。而在实际环境中,通常的噪声是非平稳的。本文将含噪语音变换到分数傅立叶域上,提出了一种在分数傅立叶变换域上进行线性最优滤波和中值滤波的联合滤波降噪方法。实验结果表明,该方法对含非平稳噪声的语音的降噪效果明显优于维纳滤波,能够有效地降低非平稳噪声的影响,提高非平稳噪声环境下的语音识别和说话人识别性能。  相似文献   

7.
本文主要研究藏语语音去噪算法,提出一种基于频谱映射的卷积长短期记忆藏语语音去噪算法。该算法由数据准备模块、特征提取模块、网络模块以及音频还原模块4个模块组成,以纯净的拉萨语语音和加了噪声库NOISE-92六种单一噪声的带噪语音作为数据集,提取带噪语音和纯净语音的对数功率谱特征作为输入对网络进行训练,网络的效果通过可感知语音质量和短时客观可懂度两个指标进行评价。实验结果表明,该算法在非平稳噪声上的去噪效果优于平稳噪声,且信噪比越大其去噪效果越好;在低信噪比下,该算法在非平稳噪声上的表现优于谱减法和最小均方误差法。  相似文献   

8.
针对小波包分解的高频混叠和频带顺序混乱,采取了一种改进小波包算法,采用一种更精细的Bark尺度小波包对带噪语音进行分解,以模拟人耳的听觉特性.对分解系数计算Teager能量算子(TEO),并使用一种简单的随TEO变化而调节的自适应阈值门限对带噪语音进行阈值去噪,不需要判别清浊音和无声段,实验证明,该方法在多种噪声下都能取得较好语音增强效果,特别是在有色噪声和非平稳噪声下.对于较低信噪比的语音也能获得一定改善.  相似文献   

9.
针对非平稳环境噪声提出一种基于噪声整形的语音去噪算法.该算法以最小感知均方误差为准则,在Wiener滤波的基础上,采用听觉感知加权函数修正Wiener滤波方程,实现对噪声谱整形,使噪声谱分布特性跟随语音谱而变:同时引入频率补偿因子克服非平稳噪声谱对语音影响的不均匀性;采用快速噪声估计算法实现对非平稳的估计.实验表明,该算法能更有效地抑制背景噪声,提高了去噪后的语音质量.  相似文献   

10.
本文提出了一种改进的非负矩阵分解语音增强算法,该算法可分为训练和增强两部分。首先,为了降低训练复杂度,采用卷积非负矩阵分解只提取噪声字典。增强时,考虑语音信号稀疏性比噪声信号稀疏性强,通过稀疏非负矩阵分解重构出语音幅度谱,采用交替方向乘子法进行优化迭代,克服了经典乘性迭代易陷入局部最优、分母只能收敛到零极限等问题。最后,基于算法融合的思想,将重构的语音幅度谱与谱减法、最小均方误差幅度谱估计得到的幅度谱进行加权融合。仿真实验中,在10种不同噪声环境中,通过多种评价标准证明所提算法能取得较好的增强效果。   相似文献   

11.
Traditionally, most of voice activity detection (VAD) methods are based on speech features such as spectrum, temporal energy, and periodicity. The robustness of these features plays a critical role on the performance of VAD. However, since these features are always directly generated from observed signal, the robustness of these features would be significantly degraded in non-stationary noise environments, especially at low level signal-to-noise ratio (SNR) condition. This paper proposes a kind of robust feature for VAD based on sparse representation with an optimized learned dictionary. To do so, a speech dictionary and a noise dictionary are first learned from speech corpus and noise corpus, respectively. Then an optimization algorithm is designed to reduce the mutual coherence between the two learned dictionaries. After that the proposed feature is generated from the optimized dictionary-based sparse representation, and a VAD method is derived from the proposed feature. The proposed method is evaluated over seven types of noise and four types of SNR level, experimental results show that the optimized dictionary is important for enhancing the robustness of the proposed method, and the proposed method performs well under non-stationary noise, especially at low level SNR condition.  相似文献   

12.
As a promising technique, sparse coding can be widely used for representation, compression, de-noising and separation of signals. This technique has been introduced into noisy speech processing, where enhancing speech itself or speech feature remains a challenge. Unlike other fields where noises are dense, the noises in speech are often sparse or partly sparse over the speech dictionary, re-sulting in performance degradation. It is necessary to un-derstand the noise conditions of speech environments and the applied range of sparse coding. This paper analyzes the assumptions of sparse coding and provides the bounds of reconstruction error for two sparse coding methods which are widely used. Based on this analysis, the performance of the two methods under different conditions are com-pared. The results show that the performance of sparse coding can be improved by a well-prepared noise dictio-nary. Experiments on speech enhancement and recognition are conducted, and the results coincide with the theoretical analysis well.  相似文献   

13.
噪声背景下基于多模板矢量量化的与文本无关的话者辩识   总被引:1,自引:0,他引:1  
沈春华  徐柏龄 《信号处理》2001,17(2):185-188
在话者辨识系统的实际应用中,导致系统识别率下降的根本原因是噪声的影响,它使得测试与训练条件不一致.本文针对实际环境中常见的加性背景噪声,提出了利用加入不同类型、不同信噪比噪声的含噪语音进行训练说话人的模型,每个说话人具有多个模板.实验结果表明,这种方法能够有效的提高系统的鲁棒性.文中还讨论了距离加权方法在话者辨识中的应用.  相似文献   

14.
基于贝叶斯阴阳机的2kb/s NMF-WI语音编码算法   总被引:3,自引:1,他引:2       下载免费PDF全文
郭莉莉  鲍长春 《电子学报》2009,37(5):1146-1153
 本文提出了一种改进型的基于非负矩阵分解(Nonnegative Matrix Factorization,NMF)的特征波形(Characteristic Waveform,CW)分解算法,一方面应用惩罚次胜者竞争学习算法(Rival Penalized Competitive Learning,RPCL)和贝叶斯阴阳机(Bayesian Ying-Yang,BYY)和谐学习算法,来计算NMF分解阶数,在没有明显降低语音质量的前提下,降低了编码器的复杂度;另一方面根据CW 的能量与编码矩阵的能量间的变化关系,提出了相位谱的混合自回归合成方法,提高了语音的自然度.最后,开发出一套改进型2kb/s NMF-WI低复杂度语音编码方法,采用基于K-L散度的NMF迭代算法和收敛速度更快的基矢量Mel刻度分带初始化方法,按照基音周期的统计分布将特征波形分为6类,在CW分解模块,复杂度下降了10MOPS,语音质量提高,与采用4bit散布矢量量化相位谱的2.16kb/s NMF-WI语音编码器的语音质量相当.  相似文献   

15.
噪声鲁棒性是影响话者确认系统实用化的关键问题之一,为了提高系统的噪声鲁棒性,本文设计了基于子带隐Markov模型(HMM)和多层感知机(MLP)的话者确认系统,系统由多个子带系统所构成,对每个子带分别建立基于背景模型的连续HMM话者确认模型,采用MLP对各个子带HMM的输出进行非线性拟合,并利用MLP直接做确认判决,在与文本有关的话者确认实验中,本文提出的模型较常规基于背景模型的HMM话者模型在确认性能和噪声鲁棒性上均有所提高,实验进一步表明,利用MLP进行拟合和判决在一定程度上解决了话者确认阈值设置的困难,有效地提高了确认系统的鲁棒性。  相似文献   

16.
Currently, many speaker recognition applications must handle speech corrupted by environmental additive noise without having a priori knowledge about the characteristics of noise. Some previous works in speaker recognition have used the missing feature (MF) approach to compensate for noise. In most of those applications, the spectral reliability decision step is performed using the signal to noise ratio (SNR) criterion, which attempts to directly measure the relative signal to noise energy at each frequency. An alternative approach to spectral data reliability has been used with some success in the MF approach to speech recognition. Here, we compare the use of this new criterion with the SNR criterion for MF mask estimation in speaker recognition. The new reliability decision is based on the extraction and analysis of several spectro-temporal features from across the entire speech frame, but not across the time, which highlight the differences between spectral regions dominated by speech and by noise. We call it the feature classification (FC) criterion. It uses several spectral features to establish spectrogram reliability unlike SNR criterion that relies only in one feature: SNR. We evaluated our proposal through speaker verification experiments, in Ahumada speech database corrupted by different types of noise at various SNR levels. Experiments demonstrated that the FC criterion achieves considerably better recognition accuracy than the SNR criterion in the speaker verification tasks tested.  相似文献   

17.
In this letter, we introduce confusion‐based confidence measures for detecting an impostor in speaker recognition, which does not require an alternative hypothesis. Most traditional speaker verification methods are based on a hypothesis test, and their performance depends on the robustness of an alternative hypothesis. Compared with the conventional Gaussian mixture model–universal background model (GMM‐UBM) scheme, our confusion‐based measures show better performance in noise‐corrupted speech. The additional computational requirements for our methods are negligible when used to detect or reject impostors.  相似文献   

18.
雷静  何培宇  徐自励 《信号处理》2020,36(8):1205-1211
传统语音端点检测方法利用语音和噪声在某单一参数特征上的差异进行信号中语音起止点的切分,但不同参数在低信噪比不同噪声环境下表现不稳定,鲁棒性差。因此,本文提出了基于均匀子带谱方差,能熵比,梅尔倒谱距离,似然比四种参数相融合的语音端点检测方法。该方法能自适应地改变各参数阈值,并通过实时监测噪声段能熵比的值确定所采用的投票判决机制,从而进行语音端点判定。实验结果表明,该方法在低信噪比下较常用的端点检测方法有更高的检测正确率及鲁棒性,对语音信号后续处理工作有一定的借鉴意义。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号