首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
何玉文  鲍长春  夏丙寅 《电子学报》2014,42(10):1991-1997
针对单通道语音增强技术对非平稳噪声的跟踪不准确、噪声抑制效果较差的问题,本文提出一种基于在线能量调整的语音增强方法.该方法以归一化临界带能量为特征,采用高斯混合模型对背景噪声进行分类,利用对应类型噪声的自回归隐马尔可夫模型(Auto-Regressive Hidden Markov Model,AR-HMM)和纯净语音的AR-HMM,在最小均方误差准则下估计语音和噪声的功率谱.考虑到非平稳环境中训练集和测试集的差异性,需在线调整语音模型和噪声模型中的能量,语音模型的能量调整采用迭代的期望最大化算法;噪声模型的能量调整则利用的是模型训练过程中的能量重估方法,并以最小值控制的递归平均算法确定噪声能量调整的初始值.在ITU-T G.160标准下对算法进行性能测试,测试结果表明,本文方法对非平稳噪声的跟踪效果较好,对噪声衰减量较大,收敛时间较短.  相似文献   

2.
欧世峰  王显云  高颖  赵晓晖 《信号处理》2011,27(8):1171-1178
针对语音增强技术中先验信噪比参数的估计问题,本文通过结合两步噪声消除技术以及语音与噪声分量的高斯统计模型,在频率域中提出了一种新的先验信噪比估计算法。该算法基于直接判决方法的输出结果,利用最小均方误差估计理论直接计算当前帧纯净语音分量的谱能量,以获取带噪语音的先验信噪比估计。算法在保留两步噪声消除算法优点的基础上,无需语音增强系统中增益因子的任何先验条件,且在有效消除背景噪声的同时能够最大程度地抑制输出语音中音乐噪声的生成。多种噪声背景下的仿真结果表明:相对于经典的直接判决方法和新近的两步噪声消除算法,基于本文先验信噪比估计方案的语音增强系统在主观与客观评价标准下都具有更加优良的语音增强效果。   相似文献   

3.
为提高语音端点检测系统在低信噪比下检测的准确性,提出了一种基于倒谱特征和谱熵的端点检测算法.首先,根据分析得到待测语音帧的倒谱特征量,然后计算该特征量分别在通过训练得到的语音和噪声的高斯混合模型下的似然概率,通过两者概率的比较作出有声无声初判决;联合能量熵端点检测结果得到最终判决,最后通过Hangover机制最大限度的保护了语音.实验结果表明,此方法改善了能量熵端点检测法在babble噪声下的劣势,且在不同噪声环境下均优于G.729 Annex B的性能.  相似文献   

4.
张兴涛  鲍长春  刘鑫  张丽燕 《电子学报》2012,40(12):2501-2506
 本文采用非线性分析方法,基于Volterra级数提出了一种宽带音频信号的频带扩展方法,并利用高斯混合模型(Gaussian Mixture Model,GMM)和码本映射技术对扩展后的音频信号进行了谱包络和能量增益调整.实验表明,所提算法的性能要好于已有的非线性频带扩展算法,当用本文的方法替代ITU-T G.722.1C编码器中的噪声填充技术时,在24kbps得到了提升的超宽带音频质量.  相似文献   

5.
介绍了单话筒采集条件下基于语音短时对数谱的最小均方误差(MMSE-LSA)估计的语音增强算法,以及语音帧和噪声帧判别的有声/无声检测方法.将语音信号的相位提取后存储起来,然后对纯净语音的短时对数谱作最小均方误差估计,处理后的语音由估计得到的幅度谱和存储的相位重建.试验证明MMSE-LSA的增强效果很好,尤其在信噪比低时更为明显.  相似文献   

6.
周璇  鲍长春  夏丙寅  梁岩  何玉文 《信号处理》2011,27(9):1313-1318
为解决传统算法对噪声适应性较差,残留音乐噪声较强的问题,本文提出了一种基于自适应噪声估计的宽带语音增强算法。该算法可应用于宽带语音编码器,以提升在噪声环境下的编码质量。本文所提算法利用谱熵对噪声类型进行有效的判别,将背景噪声分为白噪声和有色噪声两类,并根据噪声特性选择适当的噪声估计方法。在白噪声背景下,选择一种谱平滑的方法;在有色噪声背景下,则选择经典的最小值控制递归平均算法。在此基础上结合经典的统计模型方法,构建一种具有较强噪声鲁棒性的宽带语音增强算法。在ITU-T G.160标准下对算法进行性能测试,测试结果表明,在不同强度的背景噪声环境下,增强语音的信噪比提高都较为明显。同时,在低信噪比情况下,该算法有效的抑制了严重影响听觉质量的音乐噪声现象。   相似文献   

7.
提出了一种高效的基于高斯混合模型(GMM)的导谱频率(ISF)参数量化算法,算法的基本思想是利用高斯混合模型将导谱频率(ISF)参数发送给M个高斯簇,然后由高斯格型矢量量化器来量化相应高斯簇的导谱频率(ISF)参数,最终可以在M个量化值中选出频谱失真值最小的一个作为输出值。在设计高斯格型矢量量化器时,基于率失真理论提出了一种最佳比特分配算法。实验结果显示导谱频率(ISF)参数可以透明地压缩到42 bit/帧,与AMR-WB(G.722.2)的多级分裂矢量量化算法相比,节省了3 bit,减少了55%的存储空间。  相似文献   

8.
从噪声背景中提取尽可能纯净的语音信号,增强有用信号,抑制、降低噪声干扰的技术称为语音增强技术。语音增强有着广泛的应用,因此寻求一种有效的算法对带噪语音信号进行处理得到较纯净的原始语音信号的研究有着很大的意义。多年来很多经典的语音增强算法被提出,如谱减算法,子空间算法等。文章提出了一种新颖的语音增强方法,即基于非负低秩稀疏分解的原理在强噪声环境下实现语音增强。把语音信号和噪声信号看做是一个非负低秩稀疏分解问题并且不断的优化算法分离出语音信号和噪声信号的幅度谱。实验结果表明在强噪声环境下这种方法对比一些传统的语音增强方法效果更好,具有更少的噪声残余与较低的语音失真等优点  相似文献   

9.
陈浩  鲍长春  夏丙寅 《信号处理》2014,30(7):813-821
为了解决基于相位差滤波器(PBF)双麦克风方法残留噪声较多的问题,本文在PBF方法基础上提出一种基于高斯混合模型的双麦克风噪声消除方法。该方法首先采用高斯混合模型(GMM)对目标语音存在(λ1)与目标语音不存(λ0)在这两种情况进行建模。其次,在实时增强阶段,根据贝叶斯分类器计算每帧的目标语音存在概率(TSPP),随后根据噪声抑制最大化准则修正PBF的增益函数并得到改进的相位差滤波器(IPBF),最后将TSPP与 IPBF的增益函数相结合,进而得到一种用于双麦克风噪声消除的掩蔽滤波器。实验结果表明:本文提出算法可有效抑制残留噪声,尤其是在目标语音不存在的时间段   相似文献   

10.
一种引入延迟的语音增强算法   总被引:3,自引:0,他引:3  
针对传统语音增强算法中,只采用当前帧和当前帧以前的信息对当前帧语音谱进行估计而造成变电平噪声和音乐噪声的问题,采用一种改进的引入延迟的语音增强算法。通过引入延迟,可以在对当前帧语音谱进行估计时使用当前帧以后帧的信息,在噪声估计中采用类似路径搜索的双向搜索方法消除变电平噪声的影响,在先验信噪比估计中采用改进的非因果先验信噪比估计算法,消除低信噪比平滑不足带来的音乐噪声,在此基础上构建了一个完整的语音增强算法。实验结果表明,该算法基本不受变电平噪声的影响,而且音乐噪声和残留背景噪声都得到了很好的抑制。  相似文献   

11.
A new segment quantization method using the Lempel-Ziv algorithm is proposed, and it is applied to quantize line spectral frequency parameters in speech codec. The proposed segment quantizer can save four bits per frame, compared with the ITU-T G.729 speech codec (18 bits/frame), without degradation of subjective or objective speech quality  相似文献   

12.
李聪  葛洪伟 《信号处理》2018,34(7):867-875
由于环境噪声的影响,实际应用中说话人识别系统性能会出现急剧下降。提出了一种基于高斯混合模型-通用背景模型和自适应并行模型组合的鲁棒性语音身份识别方法。自适应并行模型组合是一种噪声鲁棒性的特征补偿算法,能够有效减少训练环境与测试环境之间的不匹配现象,从而提高系统识别准确率和抗噪性能。首先,算法从测试语音中估计出噪声特征,然后用一个单高斯模型对噪声特征进行拟合得到噪声均值和协方差。最后,根据得出的噪声均值和协方差,调整训练好的高斯混合模型均值向量和协方差矩阵,使其尽可能地匹配测试环境。实验结果表明,该方法可以准确地重构干净语音的高斯混合模型参数,并且能够显著提高说话人识别的准确率,特别是在低信噪比情况下。   相似文献   

13.
对LPC(线性预测系数)参数及其派生参数进行了研究,重点讨论了各参数的计算方法,在此基础上提出了一种由LPC参数和语音帧能量构成的组合参数。利用GMM对20个说话人进行了闭集文本无关说话人识别实验。结果表明,与LPC参数的派生参数相比,该组合参数可以以较少的运算量取得与LPC派生参数相当的识别效果;与直接使用LPC参数相比,该组合参数能够在运算量增加不明显的情况下改进系统的性能,特别是在测试音长度较短的情况下,对性能的改进尤为明显。  相似文献   

14.
刘泽新  鲍长春  贾懋坤 《电子学报》2008,36(5):1013-1018
 本文基于ACELP和TCX编码技术,提出了一种8~32kb/s五层宽带嵌入式变速率语音编码方法,其中,前三层采用ACELP实现了8kb/s、12kb/s和16 kb/s的嵌入式编码,后两层采用TCX技术实现了24 kb/s和32 kb/s嵌入式编码.实验结果表明,该嵌入式语音编码方法的质量在纯净语音、办公室噪声和层间转换方面接近于ITU-T G.VBR的TOR要求.  相似文献   

15.
王彪 《电子设计工程》2012,20(6):29-30,33
为了提高语音信号的识别率。提出了一种改进的LPCC参数提取方法。该方法先对语音信号进行预加重、分帧加窗处理。然后进行小波分解,在此基础上提取LPCC参数,从而构成新向量作为每帧信号的特征参数。最后采用高斯混合模型(GMM)进行说话人语音识别,实验表明新特征参数取得了较好的识别率。  相似文献   

16.
周璇  鲍长春  夏丙寅 《通信学报》2013,34(8):13-101
提出了一种融合统计模型和经验模态分解(EMD)的宽带话音增强方法。该方法首先用统计模型增强算法消除含噪话音中的主要噪声成分,然后用一种基于活动话音检测(VAD)的EMD增强算法做后处理进一步抑制残留噪声,从而使以上2种方法的优点有效地结合。在ITU-T G.160标准下对算法进行了性能测试,测试结果表明,与经典的统计模型方法相比,在不同强度的背景噪声下,增强话音的信噪比提高都较为明显。同时,在低信噪比情况下,该方法能有效抑制增强话音高频部分的音乐噪声,提高了听觉舒适度。  相似文献   

17.
A voice conversion (VC) system was designed based on Gaussian mixture model (GMM) and radial basis function (RBF) neural network. As a voice conversion model, RBF network needs quantities of training data to improve its performance. For one speech, the networks trained by different segments of data have different transformation effects. Since trying segment by segment to obtain the best conversion effect is complex, a conversion method was proposed, that uses GMM for statistics before training RBF network to aim at the problem. The speech transformation and representation using adaptive interpolation of weighted spectrum (STRAIGHT) model is used for accurate extraction of vocal tract spectrum. Then GMM is used to classify the numerous spectral parameters. The obtained mean parameters were trained in RBF network. Experiment reveals that, the soft classification ability of GMM can promptly realize the reduction and classification of training data under the premise of ensuring the training effect. The selection complexity is decreased thereafter. Compared to the conventional RBF network training methods, this method can make the transformation of spectral parameters more effective and improve the quality of converted speech.  相似文献   

18.
针对广播语种识别问题,提出一种语音时域滤波方法,用gammatone时域函数与预处理后的语音信号进行卷积滤波,再分帧加窗并求对数化能量得到时域GF(gammatone filterbank)特征.将特征参数图像化表示,然后通过VGG19和Resnet34分类网络进行语种识别实验.同时,也使用自动色阶算法对加噪语音的图像...  相似文献   

19.
This article is an overview of the standardization, architecture, and performance of the new ITU-T Recommendation G.718. G.718 is an embedded variable bit rate codec providing a scalable solution for compression of 8 and 16 kHz sampled speech and audio signals at rates between 8 kb/s and 32 kb/s. It comprises five layers where higher-layer bitstreams can be discarded without affecting the lower layersiquest decoding. The codec also has an optional core layer interoperable with ITU-T G.722.2 (3GPP AMR-WB) at 12.65 kb/s. G.718 was designed to provide high speech quality at low bit rates and to be robust to significant rates of frame erasures or packet losses. It is also targeting good quality for generic audio at higher rates.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号