共查询到19条相似文献,搜索用时 62 毫秒
1.
针对传统的神经网络未能对时频域的相关性充分利用的问题,提出了一种利用深度全卷积编解码神经网络的单通道语音增强方法。在编码端,通过卷积层的卷积操作对带噪语音的时频表示逐级提取特征,在得到目标语音高级特征表示的同时逐层抑制背景噪声。解码端和编码端在结构上对称,在解码端,对编码端获得的高级特征表示进行反卷积、上采样操作,逐层恢复目标语音。跳跃连接可以很好地解决极深网络中训练时存在的梯度弥散问题,本文在编解码端的对应层之间引入跳跃连接,将编码端特征图信息传递到对应的解码端,有利于更好地恢复目标语音的细节特征。对特征融合和特征拼接两种跳跃连接方式、L1和L2两种训练损失函数对语音增强性能的影响进行了研究,通过实验验证所提方法的有效性。 相似文献
2.
3.
针对卷积编解码网络(CED, Convolution encoder-and-decoder)对语音时序相关信息捕获困难的问题,本文提出了一种基于门控残差卷积编解码网络的语音增强方法。该方法在卷积编解码网络的基础上引入了门控机制、膨胀卷积与残差连接:门控机制能够很好地处理序列前后相关信息;膨胀卷积使得卷积过程获得更大的感受野,提取更加丰富的全局信息;残差连接能够防止梯度消失与梯度爆炸,提升网络精度。此外,采用频域损失函数与时域评价指标联合优化的策略对网络进行训练,以进一步提升网络增强效果。实验表明,在匹配噪声和不匹配噪声下,相比于基线CED与其他对比方法,本文方法取得了更高的PESQ、STOI与SI-SDR,对语音的清浊音都有较好恢复效果,且具有较强的泛化能力。 相似文献
4.
基于深度神经网络时频掩码进行语音分离时,目标信号相位一般采用混合信号的相位谱,且对性别组合缺乏针对性处理,这导致分离语音的质量不佳。针对该问题,本文提出一种基于全卷积神经网络联合性别组合检测(Fully Convolutional Neural Network - Gender Combination Detection, FCN-GCD)多任务学习的时域语音分离方法。该方法首先在语音分离支路构建全卷积神经网络,该网络的输入为时域两人混合语音信号,输出为目标讲话者的纯净语音信号,运用卷积编码器和反卷积解码器对特征进行压缩和重建,实现端到端的语音分离。其次将混合语音性别组合检测任务整合到语音分离网络中,在两个任务联合约束下获取辅助信息特征和语音分离特征,并将这些深度特征相结合来提升语音分离质量。该FCN-GCD方法是一种时域语音分离方法,不需要进行相位恢复和频域到时域的重构,相比频域处理方法,该处理过程简单,从而提高了运算效率。另外,该方法从混合语音性别组合检测任务中提取有效的辅助信息特征,利用联合特征实现了更有效的语音分离。实验结果表明,与单任务的语音分离方法相比,本文所提出的FCN-GCD方法在男男、女女和男女三种性别组合下均有效提高了语音质量,在语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)、信号干扰比(Signal-to-Interference Ratio,SIR)、信号失真比(Signal-to-Distortion Ratio,SDR)和信号伪像比(Signal-to-Artifact Ratio,SAR)评价指标上均获得更佳的表现。 相似文献
5.
根据传统的基于短时谱的维纳滤波算法,提出了一种改进方法,能有效地对噪声估计环节引入的偏差做修正,提高了整个语音增强系统的抑噪功效。运用MATLAB进行试验仿真,并与传统维纳滤波算法相比较,结果表明该算法能十分有效地滤除噪声,增强语音,同时对有效语音信号带来的失真也非常小,使语音信号的清晰度与可懂度同时得到了提高。 相似文献
6.
近年来,随着神经网络的应用,语音增强效果显著提升。但对关联性较强的长序列语音数据,单一的网络结构受到自身性能的限制可能无法继续提升增强效果。为了进一步提升神经网络对语音增强的效果,本文将一种被称为双路径循环神经网络(dual-path recurrent neural network,DPRNN)的复合网络结构应用在语音增强任务中。该复合网络结构由卷积神经网络(convolution neural network,CNN)和长短时记忆神经网络(Long short-term memory,LSTM)组成,网络的核心是两个LSTM组成的双路径循环神经网络块(DPRNN Block)。DPRNN将长序列语音数据分割为重叠帧数据块,利用DPRNN Block对这些数据块执行块内计算和块间计算,以此实现数据的局部和全局建模。实验结果表明,相比于单一网络结构,DPRNN在训练噪声和非训练噪声条件下均取得最好结果。 相似文献
7.
为了充分利用含噪语音特征来提高语音增强网络的性能,基于含噪语音在时间和频率两个维度上的相关性,本文结合卷积神经网络的局部特征提取能力和门控循环单元的长期依赖建模能力,设计了一种适用于语音增强的卷积门控循环网络.该网络采用卷积网络结构代替全连接网络结构来改进门控循环单元中的特征计算过程,从而能够更好地保留含噪语音特征中的时频结构信息.实验结果表明,与其它语音增强网络相比,本文网络在语音成分的保留和噪声成分的抑制上具有明显优势,增强后语音具有更好的语音质量和可懂度. 相似文献
8.
基于Gamma语音模型的语音增强算法 总被引:2,自引:0,他引:2
提出了一种新的基于Gamma语音模型的语音增强算法。首先,在假定语音和噪声的短时DCT系数分别服从Gamma和Gaussian分布的基础上,推导了最小均方误差意义下的语音信号短时DCT系数估计;然后,根据语音存在概率估计,提出了语音信号短时DCT系数估计的修正因子。在增强算法中,提出了基于Gamma语音模型的改进最小统计量控制递归平均(IMCRA)噪声估计算法。仿真结果表明,该算法不仅在噪声抑制性能方面优于近两年国际上提出的几种基于Gaussian语音模型的语音增强算法,而且在增强语音质量方面也具有更好的性能。 相似文献
9.
10.
对背景噪声的估计,关键是使算法能跟得上噪声变化,以及时更新噪声的估计值。为了增强对非平稳噪声的跟踪估计能力,在Imrca算法的基础上,提出了基于前向和后向最小值搜索相结合的改进算法。验证实验内容包括:用改进算法、原Imrca算法,基本谱减法对含同种噪声不同信噪比的含噪语音处理后,恢复出来的语音的对比;以及在低输入信噪比情况下,对加入babble噪声的含噪语音经改进算法、原Imrca算法、基本谱减法处理后,所得到的平均分段信噪比的对比。实验结果表明,该改进算法对含噪语音的处理效果要优于原算法,对含有非平稳的噪声的含噪语音,取得了较好的增强效果。 相似文献
11.
基于子空间的语音增强算法不同于基于信号处理和统计估计的经典语音增强算法,其核心思想就是将带噪语音信号映射到信号子空间和噪声子空间中,并在信号子空间中估计原始信号。本文提出的算法是以线性代数和矩阵分析为基础,利用对语音信号和噪声协方差矩阵同时对角变换的条件,对混有加性白噪声和粉红噪声的语音信号进行增强处理。经过实验分析及与传统的语音增强算法相比较,语音失真较小,增强效果较好,能够在极大限度地抑制背景噪声的同时减少频谱失真和残余噪声。 相似文献
12.
对于加性噪声影响下的语音信号,利用双通道输入建立起来的增广卡尔曼滤波器模型,采用自适应共轭梯度方法对纯净语音和有色噪声干扰模型分别进行参数估计,提出了一种有效的语音增强算法。由于该方法对模型参数的估计精确性较高,而且估计速度快,同卡尔曼滤波类的其它语音增强方法相比,其语音增强效果良好,且具有一定的顽健性。仿真实验表明在环境噪声很复杂的情况下,该方法仍然有效。 相似文献
13.
14.
15.
16.
提出了利用频域的独立成分分析(Independent components analysis)算法分离语音信号和噪声信号,达到抑制噪声的效果.并且,针对ICA算法在噪声源集中的环境中效果较好,在噪声源分散的环境中性能有所退化的情况,基于时域带噪信号的ICA算法提出频域带噪信号的ICA算法.最后利用最小均方误差估计谱幅度算法(Minimum mean square error)去除残留噪声,达到较好的语音增强效果.通过大量的实验数据测试,文中提出的基于ICA和MMSE短时谱幅度估计的双麦克语音增强算法在不同信噪比(Signal to Noise Ratio)下,都取得了良好的降噪效果. 相似文献
17.
18.
针对目前语音增强存在较大时延的问题,提出一种低时延语音增强算法。在传统的先验信噪比估计和噪声估计的基础上,对判决引导算法进行低时延的改进,并提出了一种基于语音存在概率和语音激活检测相结合的噪声估计方法,本文的算法采用对数MMSE估计器结合语音存在概率。采用ITU-T P.826 PESQ、分段信噪比、总信噪比和对数谱失真对该算法进行了测试,并与其他几种算法进行了对比,实验结果表明,该算法有效降低了时延,可以很好的跟踪非平稳噪声,在信噪比较低的情况小可以取得很好的增强效果,且音乐噪声和残留背景噪声也可以得到很好的抑制。 相似文献
19.
基于自适应噪声估计的小波阈值语音增强 总被引:1,自引:1,他引:1
文中提出了一种基于小波阈值和自适应噪声估计方法的语音增强算法。该算法直接利用含噪语音信号估计出信噪比SNR,并通过该值调整小波阈值,从而实现了小波阈值的自适应变化。针对噪声的小波变换模值随尺度增大而减小的特性,采用了随尺度变化的小波阈值。并且改进了小波阈值函数。实验数据表明,本文算法在多种噪声环境下,均有较好的语音增强效果。并且在抑制噪声的同时,减少了语音失真。 相似文献