共查询到19条相似文献,搜索用时 156 毫秒
1.
针对单通道语音增强技术对非平稳噪声的跟踪不准确、噪声抑制效果较差的问题,本文提出一种基于在线能量调整的语音增强方法.该方法以归一化临界带能量为特征,采用高斯混合模型对背景噪声进行分类,利用对应类型噪声的自回归隐马尔可夫模型(Auto-Regressive Hidden Markov Model,AR-HMM)和纯净语音的AR-HMM,在最小均方误差准则下估计语音和噪声的功率谱.考虑到非平稳环境中训练集和测试集的差异性,需在线调整语音模型和噪声模型中的能量,语音模型的能量调整采用迭代的期望最大化算法;噪声模型的能量调整则利用的是模型训练过程中的能量重估方法,并以最小值控制的递归平均算法确定噪声能量调整的初始值.在ITU-T G.160标准下对算法进行性能测试,测试结果表明,本文方法对非平稳噪声的跟踪效果较好,对噪声衰减量较大,收敛时间较短. 相似文献
2.
针对语音增强技术中先验信噪比参数的估计问题,本文通过结合两步噪声消除技术以及语音与噪声分量的高斯统计模型,在频率域中提出了一种新的先验信噪比估计算法。该算法基于直接判决方法的输出结果,利用最小均方误差估计理论直接计算当前帧纯净语音分量的谱能量,以获取带噪语音的先验信噪比估计。算法在保留两步噪声消除算法优点的基础上,无需语音增强系统中增益因子的任何先验条件,且在有效消除背景噪声的同时能够最大程度地抑制输出语音中音乐噪声的生成。多种噪声背景下的仿真结果表明:相对于经典的直接判决方法和新近的两步噪声消除算法,基于本文先验信噪比估计方案的语音增强系统在主观与客观评价标准下都具有更加优良的语音增强效果。 相似文献
3.
4.
5.
6.
为解决传统算法对噪声适应性较差,残留音乐噪声较强的问题,本文提出了一种基于自适应噪声估计的宽带语音增强算法。该算法可应用于宽带语音编码器,以提升在噪声环境下的编码质量。本文所提算法利用谱熵对噪声类型进行有效的判别,将背景噪声分为白噪声和有色噪声两类,并根据噪声特性选择适当的噪声估计方法。在白噪声背景下,选择一种谱平滑的方法;在有色噪声背景下,则选择经典的最小值控制递归平均算法。在此基础上结合经典的统计模型方法,构建一种具有较强噪声鲁棒性的宽带语音增强算法。在ITU-T G.160标准下对算法进行性能测试,测试结果表明,在不同强度的背景噪声环境下,增强语音的信噪比提高都较为明显。同时,在低信噪比情况下,该算法有效的抑制了严重影响听觉质量的音乐噪声现象。 相似文献
7.
提出了一种高效的基于高斯混合模型(GMM)的导谱频率(ISF)参数量化算法,算法的基本思想是利用高斯混合模型将导谱频率(ISF)参数发送给M个高斯簇,然后由高斯格型矢量量化器来量化相应高斯簇的导谱频率(ISF)参数,最终可以在M个量化值中选出频谱失真值最小的一个作为输出值。在设计高斯格型矢量量化器时,基于率失真理论提出了一种最佳比特分配算法。实验结果显示导谱频率(ISF)参数可以透明地压缩到42 bit/帧,与AMR-WB(G.722.2)的多级分裂矢量量化算法相比,节省了3 bit,减少了55%的存储空间。 相似文献
8.
《无线互联科技》2016,(2)
从噪声背景中提取尽可能纯净的语音信号,增强有用信号,抑制、降低噪声干扰的技术称为语音增强技术。语音增强有着广泛的应用,因此寻求一种有效的算法对带噪语音信号进行处理得到较纯净的原始语音信号的研究有着很大的意义。多年来很多经典的语音增强算法被提出,如谱减算法,子空间算法等。文章提出了一种新颖的语音增强方法,即基于非负低秩稀疏分解的原理在强噪声环境下实现语音增强。把语音信号和噪声信号看做是一个非负低秩稀疏分解问题并且不断的优化算法分离出语音信号和噪声信号的幅度谱。实验结果表明在强噪声环境下这种方法对比一些传统的语音增强方法效果更好,具有更少的噪声残余与较低的语音失真等优点 相似文献
9.
为了解决基于相位差滤波器(PBF)双麦克风方法残留噪声较多的问题,本文在PBF方法基础上提出一种基于高斯混合模型的双麦克风噪声消除方法。该方法首先采用高斯混合模型(GMM)对目标语音存在(λ1)与目标语音不存(λ0)在这两种情况进行建模。其次,在实时增强阶段,根据贝叶斯分类器计算每帧的目标语音存在概率(TSPP),随后根据噪声抑制最大化准则修正PBF的增益函数并得到改进的相位差滤波器(IPBF),最后将TSPP与 IPBF的增益函数相结合,进而得到一种用于双麦克风噪声消除的掩蔽滤波器。实验结果表明:本文提出算法可有效抑制残留噪声,尤其是在目标语音不存在的时间段 相似文献
10.
一种引入延迟的语音增强算法 总被引:3,自引:0,他引:3
针对传统语音增强算法中,只采用当前帧和当前帧以前的信息对当前帧语音谱进行估计而造成变电平噪声和音乐噪声的问题,采用一种改进的引入延迟的语音增强算法。通过引入延迟,可以在对当前帧语音谱进行估计时使用当前帧以后帧的信息,在噪声估计中采用类似路径搜索的双向搜索方法消除变电平噪声的影响,在先验信噪比估计中采用改进的非因果先验信噪比估计算法,消除低信噪比平滑不足带来的音乐噪声,在此基础上构建了一个完整的语音增强算法。实验结果表明,该算法基本不受变电平噪声的影响,而且音乐噪声和残留背景噪声都得到了很好的抑制。 相似文献
11.
A new segment quantization method using the Lempel-Ziv algorithm is proposed, and it is applied to quantize line spectral frequency parameters in speech codec. The proposed segment quantizer can save four bits per frame, compared with the ITU-T G.729 speech codec (18 bits/frame), without degradation of subjective or objective speech quality 相似文献
12.
由于环境噪声的影响,实际应用中说话人识别系统性能会出现急剧下降。提出了一种基于高斯混合模型-通用背景模型和自适应并行模型组合的鲁棒性语音身份识别方法。自适应并行模型组合是一种噪声鲁棒性的特征补偿算法,能够有效减少训练环境与测试环境之间的不匹配现象,从而提高系统识别准确率和抗噪性能。首先,算法从测试语音中估计出噪声特征,然后用一个单高斯模型对噪声特征进行拟合得到噪声均值和协方差。最后,根据得出的噪声均值和协方差,调整训练好的高斯混合模型均值向量和协方差矩阵,使其尽可能地匹配测试环境。实验结果表明,该方法可以准确地重构干净语音的高斯混合模型参数,并且能够显著提高说话人识别的准确率,特别是在低信噪比情况下。 相似文献
13.
基于LPC分析的语音特征参数研究及其在说话人识别中的应用 总被引:3,自引:0,他引:3
对LPC(线性预测系数)参数及其派生参数进行了研究,重点讨论了各参数的计算方法,在此基础上提出了一种由LPC参数和语音帧能量构成的组合参数。利用GMM对20个说话人进行了闭集文本无关说话人识别实验。结果表明,与LPC参数的派生参数相比,该组合参数可以以较少的运算量取得与LPC派生参数相当的识别效果;与直接使用LPC参数相比,该组合参数能够在运算量增加不明显的情况下改进系统的性能,特别是在测试音长度较短的情况下,对性能的改进尤为明显。 相似文献
14.
15.
为了提高语音信号的识别率。提出了一种改进的LPCC参数提取方法。该方法先对语音信号进行预加重、分帧加窗处理。然后进行小波分解,在此基础上提取LPCC参数,从而构成新向量作为每帧信号的特征参数。最后采用高斯混合模型(GMM)进行说话人语音识别,实验表明新特征参数取得了较好的识别率。 相似文献
16.
17.
CHEN Xian-tong ZHANG Ling-hua 《中国邮电高校学报(英文版)》2014,21(5):68-75
A voice conversion (VC) system was designed based on Gaussian mixture model (GMM) and radial basis function (RBF) neural network. As a voice conversion model, RBF network needs quantities of training data to improve its performance. For one speech, the networks trained by different segments of data have different transformation effects. Since trying segment by segment to obtain the best conversion effect is complex, a conversion method was proposed, that uses GMM for statistics before training RBF network to aim at the problem. The speech transformation and representation using adaptive interpolation of weighted spectrum (STRAIGHT) model is used for accurate extraction of vocal tract spectrum. Then GMM is used to classify the numerous spectral parameters. The obtained mean parameters were trained in RBF network. Experiment reveals that, the soft classification ability of GMM can promptly realize the reduction and classification of training data under the premise of ensuring the training effect. The selection complexity is decreased thereafter. Compared to the conventional RBF network training methods, this method can make the transformation of spectral parameters more effective and improve the quality of converted speech. 相似文献
18.
19.
《Communications Magazine, IEEE》2009,47(10):117-123
This article is an overview of the standardization, architecture, and performance of the new ITU-T Recommendation G.718. G.718 is an embedded variable bit rate codec providing a scalable solution for compression of 8 and 16 kHz sampled speech and audio signals at rates between 8 kb/s and 32 kb/s. It comprises five layers where higher-layer bitstreams can be discarded without affecting the lower layersiquest decoding. The codec also has an optional core layer interoperable with ITU-T G.722.2 (3GPP AMR-WB) at 12.65 kb/s. G.718 was designed to provide high speech quality at low bit rates and to be robust to significant rates of frame erasures or packet losses. It is also targeting good quality for generic audio at higher rates. 相似文献