共查询到18条相似文献,搜索用时 156 毫秒
1.
语音增强在语音信号处理领域举足轻重,其目的在于减少背景噪声对语音信号的影响。然而,如何从极度非平稳噪声环境下有效地分离出目标语音仍然是一个具有挑战性的问题。基于非负矩阵分解(Nonnegative matrix factorization, NMF)的语音增强算法利用非负的语音和噪声基矩阵来建模语音和噪声的频谱子空间,是目前一种先进的对抑制非平稳噪声非常有效的技术。本文首先详细地介绍了非负矩阵分解理论,包括非负矩阵分解模型,代价函数(Cost function)的定义以及常用的乘法更新准则(Multiplicative update rules)。然后,本文详细地介绍了基于非负矩阵分解的语音增强方法的基本原理,包括训练阶段和增强阶段的具体过程,并进行了实验,此外,还利用一个基于非负矩阵分解的语音重构实验验证了语音基矩阵对语音频谱的建模能力。最后,本文总结了传统的基于非负矩阵分解的算法的不足,并对一些现有的基于非负矩阵分解的算法分别做了一个简单的概述,包括其创新点和优缺点,并对比分析了几种具有代表性的方法。本文从历史的角度展示了基于非负矩阵分解的语音增强方法的不断发展。 相似文献
2.
基于非负矩阵分解的语音去噪,在提高语音信号信噪比的同时,也会引起语音失真,从而导致噪声环境下说话人确认系统性能下降.本文提出基于分区约束非负矩阵分解的语音去噪方法(Nonnegative Matrix Factorization with Partial Constrains,PCNMF),目的是在未知和非平稳噪声条件下提高话人确认系统的鲁棒性.PCNMF在满足分区约束条件的基础上分别构建语音字典和噪声字典.考虑到传统语音训练产生的语音字典往往含有一定的噪声成分,PCNMF通过数学模型产生基音及泛音频谱,在此基础上利用该频谱模仿人声的共振峰结构来合成字典,从而保证语音字典纯净性.另一方面,为了克服传统噪声字典构建方法带来的部分噪声信息丢失问题,PCNMF对在线分离出的噪声样本进行分帧和短时傅里叶变换,然后以帧为单位线性组合生成噪声字典.性能评估实验引入了多种噪声类型,实验结果表明PCNMF可有效提高说话人确认系统的鲁棒性,特别是在未知和非平稳噪声条件下其等错率相比基线系统(Multi-Condition)平均降低了5.2%. 相似文献
3.
为了提升复杂噪声环境下语音增强效果,该文提出了一种基于双层字典学习的单通道语音增强方法。在训练阶段首先采用干净语音和噪声训练初始化特征子字典,然后基于区分性约束和抗混淆约束的优化函数训练双层联合字典,第一层字典表达语音信号和噪声的可区分分量,而第二层字典表达语音信号和噪声的易混淆成分。在测试阶段含噪语音在双层联合字典上投影得到稀疏系数矩阵,然后重构得到增强后的语音。该方法利用目标优化函数的约束性减少“交叉投影”现象的发生,降低了信号在联合字典的混淆,从而进一步提升了语音增强的效果。实验结果表明,从全局信噪比(SNR)、主观语音质量评估(PESQ)和对数频谱距离(LSD)三个方面评价,相比于基于稀疏约束非负矩阵分解和改进的维纳滤波的语音增强方法,该方法具有更好的性能,能够更有效地去除噪声。 相似文献
4.
针对谱减语音增强法中一直存在的去噪度、残留的音乐噪声和语音畸变度三者间均衡这一关键问题,本文提出一种基于无语音概率改进的对数谱估计增强算法.该算法结合无语音概率的思想,按照纯噪声帧和带噪语音帧两种状态.有区别地实时更新语音最小均方误差的对数谱增益,并利用无语音概率参数(SAP)自适应地调节平滑系数,以求随着噪声环境的变化,在去噪度、残留"音乐噪声"和语音畸变度之间自适应地折中.实验表明,该算法在相同去噪程度下,语音畸变和音乐噪声相对其他谱减法都同时地减弱,特别在低信噪比环境下优势更明显,而且平滑参数利用SAP参数,无需多余计算,便于实时处理. 相似文献
5.
本文提出了一种改进的非负矩阵分解语音增强算法,该算法可分为训练和增强两部分。首先,为了降低训练复杂度,采用卷积非负矩阵分解只提取噪声字典。增强时,考虑语音信号稀疏性比噪声信号稀疏性强,通过稀疏非负矩阵分解重构出语音幅度谱,采用交替方向乘子法进行优化迭代,克服了经典乘性迭代易陷入局部最优、分母只能收敛到零极限等问题。最后,基于算法融合的思想,将重构的语音幅度谱与谱减法、最小均方误差幅度谱估计得到的幅度谱进行加权融合。仿真实验中,在10种不同噪声环境中,通过多种评价标准证明所提算法能取得较好的增强效果。 相似文献
6.
针对传统语音增强方法在非平稳噪声环境下增强效果不理想的问题,提出了一种基于稀疏约束的概率潜分量分析(PLCA)和谱掩蔽的语音增强算法。该算法分为训练和增强两个阶段。训练阶段用稀疏约束的PLCA(SPLCA)和无约束的PLCA分别对语音谱和噪声谱建模成意义清晰的边缘分布,并用期望最大(EM)算法求其最优边缘分布,得到语音字典和噪声字典。增强阶段固定训练的字典,利用SPLCA推导出对应的语音编码矩阵和噪声编码矩阵,初步重构出语音和噪声,最后利用谱掩蔽得到增强语音。实验结果表明,该算法在抑制噪声、提高信噪比和减少语音失真方面要优于传统方法。 相似文献
7.
8.
本文提出了一种基于数据驱动字典和过完备稀疏表示的自适应语音增强方法。首先在训练阶段采用干净语音基于K奇异值分解(K singular value decomposition, K SVD)算法训练过完备字典,然后在测试阶段根据含噪语音的噪声方差自适应选择最优的阈值,采用正交匹配追踪算法对含噪语音信号在过完备字典上进行稀疏分解,最后利用系数稀疏表示重构语音信号,从而达到语音增强的目。该方法不像传统语音增强方法那样减少或消去噪声,而是从字典中选取适当的原子表示纯净信号,从而把纯净信号从含噪信号中分离出来。对白噪声和有色噪声环境下重构语音进行了主客观评价。仿真结果显示:该方法能有效去除加性噪声,并且改善了语音质量。 相似文献
9.
《无线互联科技》2016,(2)
从噪声背景中提取尽可能纯净的语音信号,增强有用信号,抑制、降低噪声干扰的技术称为语音增强技术。语音增强有着广泛的应用,因此寻求一种有效的算法对带噪语音信号进行处理得到较纯净的原始语音信号的研究有着很大的意义。多年来很多经典的语音增强算法被提出,如谱减算法,子空间算法等。文章提出了一种新颖的语音增强方法,即基于非负低秩稀疏分解的原理在强噪声环境下实现语音增强。把语音信号和噪声信号看做是一个非负低秩稀疏分解问题并且不断的优化算法分离出语音信号和噪声信号的幅度谱。实验结果表明在强噪声环境下这种方法对比一些传统的语音增强方法效果更好,具有更少的噪声残余与较低的语音失真等优点 相似文献
10.
在波形内插(Waveform Interpolation,WI)语音编码器中,如何低延时、高精度并且低复杂度的分解和量化特征波形(Characteristic Waveform,CW)一直是该编码模型的研究热点和难点.本文提出用非负矩阵分解(Non-negative Matrix Factorization,NMF)方法来分解语音特征波形.该分解方法仅需要当前帧的语音信号,不会给编码器带来额外的延时;为了提高分解精度,本文在CW分解之前先对CW按照其子帧的最大基音周期进行分类,然后按不同类别进行分解.另外,本文结合耳蜗模型提出了NMF的基矢量分带初始化算法,将CW的分解精度提高到与二阶奇异值分解相当的水平;为了降低WI编码器的计算复杂度,本文去除了传统WI编码器中的特征波形对齐模块,同时将NMF的分解阶数设定为16以折中CW分解的计算复杂度和分解精度.最后,本文基于矩阵量化技术,对非负矩阵分解后的编码矩阵采用分裂式矩阵量化方案来量化.主观A/B测试表明,本文提出的2kb/s NMF-WI编码器的合成语音质量接近于2.4kb/s SVD-WI编码器.MOS分测试表明,本文提出的2kb/s NMF-WI编码器的合成语音质量稍差于2.4kb/s MELP编码器. 相似文献
11.
12.
13.
Shota Morita Masashi Unoki Xugang Lu Masato Akagi 《Journal of Signal Processing Systems》2016,82(2):163-173
Voice activity detection (VAD) is used to detect speech and non-speech periods from observed speech signals. It is an important front-end technique for many speech technology applications. Many VAD methods have been proposed. However most of them have been applied under clean or noisy conditions. Only a few methods have been proposed for reverberant conditions, particularly under noisy reverberant conditions. We therefore need to understand the ill effects of noise and reverberation on speech to design an accurate and robust method of VAD under noisy reverberant conditions. The ill effects of noise and reverberation for speech can be regarded as the modulation transfer function (MTF) under noisy and reverberant conditions. Therefore, our study is based on the MTF concept to reduce the ill effects of noise and reverberation on speech, and propose a robust VAD method that we obtained in this study. Noise reduction and dereverberation were first applied to the temporal power envelope of the speech signal to restore the temporal power envelope with this method. Then, power thresholding as a VAD decision was designed based on the restored temporal power envelope. A method of estimating the signal to noise ratio (SNR) was proposed to accurately estimate the SNR in the noise reduction stage. Experiments under both artificial and realistic noisy reverberant conditions were carried out to evaluate the performance of the proposed method of VAD and it was compared with conventional VAD methods. The results revealed that the proposed method significantly outperformed the conventional methods under artificial and realistic noisy reverberant conditions. 相似文献
14.
针对现有深度神经网络语音增强方法对带噪语音的去噪能力有限、语音质量提升不高的问题,提出了一种基于奇异谱分析的深度神经网络语音增强方法。通过引入奇异谱分析算法对带噪语音进行预处理,以初步分离得到语音信号与噪声。接着将语音信号与噪声用于深度神经网络模型得训练,以得到性能更优的网络模型,从而使得本文方法具有更好的性能。最后在重建干净语音的环节中,同时使用神经网络估计得到的对数功率谱和带噪语音的对数功率谱,并加入了权重系数,使得本文提出的方法可以适应不同信噪比的情形,有效的去除背景噪声,降低语音信号的失真。本文通过仿真实验验证了该方法的有效性和鲁棒性。 相似文献
15.
16.
借助双耳线索编码原理,通过构建一个语音和噪声的双耳线索先验码书,本文提出一种单通道语音增强方法.首先,该算法将语音和噪声的双耳线索作为语音和噪声的先验知识,在线下被训练成为先验码书.之后,在线上通过加权码书映射(Weighted CodeBook Mapping,WCBM)算法估计纯净线索参数,最后,利用双耳线索编码原理增强含噪语音.此外,本文采用深度神经网络,即堆栈式自编码器(Stacked Auto-Encoders,SAE)代替WCBM算法估计纯净线索参数,提出了基于深度神经网络的双耳线索语音增强算法.进一步提高了增强算法的性能.客观测试结果表明,本文所提方法优于参考算法. 相似文献
17.
Zhong W. Li S. Tai H.-M. 《Vision, Image and Signal Processing, IEE Proceedings -》2005,152(6):800-805
A signal subspace method is proposed for speech enhancement in the presence of narrowband noise. A fundamental assumption in subspace methods for noise reduction is that the noise covariance matrix is positive definite. However, this is not always the case, especially when the noise has narrowband characteristics. Based on the eigenvalue decomposition of the rank deficient noise covariance matrix, it is shown how to formulate the enhancement algorithm by decomposing the vector space of noisy signal into a signal-plus-noise subspace and a noise-free subspace. The proposed subspace partition is different from the conventional subspace approaches in that the noise reduction algorithm is implemented using the whitening approach exclusively in the signal-plus-noise subspace. The enhancement is performed by estimating the clean speech from the signal-plus-noise subspace and adding the components in the noise-free subspace. An explicit form of the estimator is presented, and examples are illustrated to validate the effectiveness of the proposed method. 相似文献