首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
张天骐  柏浩钧  叶绍鹏  刘鉴兴 《信号处理》2021,37(10):1986-1995
针对卷积编解码网络(CED, Convolution encoder-and-decoder)对语音时序相关信息捕获困难的问题,本文提出了一种基于门控残差卷积编解码网络的语音增强方法。该方法在卷积编解码网络的基础上引入了门控机制、膨胀卷积与残差连接:门控机制能够很好地处理序列前后相关信息;膨胀卷积使得卷积过程获得更大的感受野,提取更加丰富的全局信息;残差连接能够防止梯度消失与梯度爆炸,提升网络精度。此外,采用频域损失函数与时域评价指标联合优化的策略对网络进行训练,以进一步提升网络增强效果。实验表明,在匹配噪声和不匹配噪声下,相比于基线CED与其他对比方法,本文方法取得了更高的PESQ、STOI与SI-SDR,对语音的清浊音都有较好恢复效果,且具有较强的泛化能力。   相似文献   

2.
步兵战车强噪声背景下由于强背景噪声的存在,既影响了口令识别的正确率,又降低了指挥所后台监听的清晰度,为了提高语音质量,本文对口令数据进行增强处理.为此,本文提出了一种基于升降编解码全卷积神经网络(Increase De-crease Encoder Decode Convolution Neural Network,I...  相似文献   

3.
叶利剑 《电声技术》2011,35(10):68-74
系统研究了现有语音通信系统中使用的几种语音编解码算法以及主流的单通道语音增强算法,并将二者相结合,对实际通信系统中的结构进行仿真.研究发现,现有的基于线性预测分析技术的语音编解码算法,在高编码率的情况下对于语音增强算法的性能不仅不会有损失,反而会在一定程度上改善增强算法带来的语音失真的情况,提高语音增强算法的效果.  相似文献   

4.
在有监督语音增强任务中,上下文信息对目标语音的估计产生重要影响,为了获取更加丰富的语音全局相关特征,该文以尽可能小的参数为前提,设计了一种新型卷积网络来进行语音增强。所提网络包含编码层、传输层与解码层3个部分:编解码部分提出一种2维非对称膨胀残差(2D-ADR)模块,其能明显减小训练参数并扩大感受野,提升网络对上下文信息的获取能力;传输层提出一种1维门控膨胀残差(1D-GDR)模块,该模块结合膨胀卷积、残差学习与门控机制,能够选择性传递特征并获取更多时序相关信息,同时采用密集跳跃连接的方式对8个1D-GDR模块进行堆叠,以增强层间信息流动并提供更多梯度传播方式;最后,对相应编解码层进行跳跃连接并引入注意力机制,以使解码过程获得更加鲁棒的底层特征。实验部分,使用了不同的参数设置以及对比方法来验证网络的有效性与鲁棒性,通过在28种噪声环境下训练及测试,相比于其他方法,该文方法以1.25×106的参数取得了更优的客观和主观指标,具备较强的增强效果与泛化能力。  相似文献   

5.
闫昭宇  王晶 《信号处理》2020,36(6):863-870
语音增强的目的是从带有噪声的语音中分离出纯净语音,实现语音的质量和可懂度的提高。近年来,采用有监督学习的深度神经网络已经成为了语音增强的主流方法。卷积循环网络是一种新型的神经网络结构,包含编码层、中间层、解码层三个主要模块,其已经在语音增强任务中取得了较好的效果。时频注意力机制是一个由数个相连的卷积层通过跳跃连接构成的简单网络模块,在训练过程中可以计算语音幅度谱特征图的非邻域相关性,从而更加有利于网络关注到语音的谐波特性。本文将时频注意力机制引入卷积循环网络的编码层和解码层中,实验结果表明,在不同信噪比条件下,该方法相比基线卷积循环网络能够进一步提高语音质量和可懂度,且增强后的语音信号可以保留更多的语谱谐波信息,实现更低程度的语音失真。   相似文献   

6.
为了充分利用含噪语音特征来提高语音增强网络的性能,基于含噪语音在时间和频率两个维度上的相关性,本文结合卷积神经网络的局部特征提取能力和门控循环单元的长期依赖建模能力,设计了一种适用于语音增强的卷积门控循环网络.该网络采用卷积网络结构代替全连接网络结构来改进门控循环单元中的特征计算过程,从而能够更好地保留含噪语音特征中的时频结构信息.实验结果表明,与其它语音增强网络相比,本文网络在语音成分的保留和噪声成分的抑制上具有明显优势,增强后语音具有更好的语音质量和可懂度.  相似文献   

7.
现有的电视语音响度补偿是针对人耳听阈和听力障碍的损失进行均衡补偿,这类方法会放大同频段的非人声.针对这类方法的缺陷,提出利用深度学习语音增强技术将人声从电视节目音频中分离出来,使用户直接听到清晰人声.对此提出密集连接卷积网络(Densely Connected Convolutional Network,DenseNe...  相似文献   

8.
袁文浩  梁春燕  夏斌  孙文珠 《电子学报》2018,46(10):2359-2366
在时频域的语音增强中,幅度估计和相位估计都是影响语音增强性能的重要因素.为了在基于深度学习的语音增强方法中融合对相位的估计,本文将含噪语音短时傅里叶变换(STFT)的实部和虚部特征作为两个通道输入深度卷积神经网络,通过建立一个同步估计纯净语音STFT的实部和虚部特征的多任务学习模型,实现了对幅度和相位的同步估计.实验结果表明,相比仅考虑幅度估计的方法,本文方法具有更好的噪声抑制能力,在低信噪比条件下,显著提高了语音增强性能.  相似文献   

9.
王志杰  张学良 《信号处理》2021,37(10):1872-1879
近年来,随着神经网络的应用,语音增强效果显著提升。但对关联性较强的长序列语音数据,单一的网络结构受到自身性能的限制可能无法继续提升增强效果。为了进一步提升神经网络对语音增强的效果,本文将一种被称为双路径循环神经网络(dual-path recurrent neural network,DPRNN)的复合网络结构应用在语音增强任务中。该复合网络结构由卷积神经网络(convolution neural network,CNN)和长短时记忆神经网络(Long short-term memory,LSTM)组成,网络的核心是两个LSTM组成的双路径循环神经网络块(DPRNN Block)。DPRNN将长序列语音数据分割为重叠帧数据块,利用DPRNN Block对这些数据块执行块内计算和块间计算,以此实现数据的局部和全局建模。实验结果表明,相比于单一网络结构,DPRNN在训练噪声和非训练噪声条件下均取得最好结果。   相似文献   

10.
鲍长春  项扬 《信号处理》2019,35(12):1931-1941
语音增强是一种试图从噪声中分离出语音的技术,目的是提高语音的质量和可懂度。在过去的几十年里,人们提出了多种类型的语音增强方法,但这些方法在非平稳噪声环境中的表现还未达到最佳程度,因为他们没有充分利用语音和噪声的先验信息。近年来,随着深度学习的发展,深度神经网络已成为当下实现语音增强的主流方法,在改善语音质量和提升可懂度方面发挥了积极作用。本文从深度神经网络的结构出发,回顾了基于深度学习的单通道语音增强方法。首先,介绍了语音增强的背景;其次,详细描述了四种不同类型神经网络实现语音增强的方法;最后,给出了未来语音增强方法的建议和本文的结论。   相似文献   

11.
Journal of Communications Technology and Electronics - Majority of speech processing algorithms operate only with the spectral magnitude, leaving spectral phase unstructured and unexplored. With...  相似文献   

12.
针对低照度图像增强算法在实现细节增强的同时对噪声抑制考虑的不足问题,该文提出一种基于深度卷积神经网络的无参考低照度图像增强方法。首先,基于Retinex理论从输入的低照度图像中提取照射分量和反射分量,并分别对二者进行优化,随后将优化后的照射分量和反射分量相乘得到增强后的图像;同时,将3D块匹配(BM3D)的去噪效果融合进反射分量的优化过程中;最后,采用无参考图像训练的方式,并配合改进后的趋势一致性损失对网络参数进行更新。实验结果表明,该文算法相较于现有的主流算法,可有效地提升低照度图像的对比度和亮度,同时保持图像的自然性。  相似文献   

13.
《无线电工程》2019,(7):587-591
针对传统手势识别方法中人工特征提取信息不完整导致的识别率较低以及识别手势类别较少的问题,基于卷积神经网络(Convolutional Neural Network,CNN)的原理,设计了一种深度CNN框架,对多通道的表面肌电信号进行手势动作识别。所应用的表面肌电信号数据来自Ninapro数据库中DB2健康个体数据集,分别识别9种手指动作和49种手势动作(49种手势动作包含9种手指动作),另外40种手势动作是17种基本手势动作和23种手腕动作。对数据集的表面肌电信号数据进行提取均方根值特征,生成12通道的训练集、验证集和测试集。将处理过的表面肌电信号送入到深度CNN中,经过卷积、批次归一化、池化、梯度下降及dropout层处理,仿真测试后,DB2数据集的9种手势动作识别率是99.10%,49种手势动作手势不识别率是64.58%。  相似文献   

14.
安捷  马尽文 《信号处理》2019,35(4):556-562
气象卫星图像云检测是气象预报领域中的一项重要任务。包含降水预测,气象灾害预测在内的若干气象预报任务都依赖精确的云检测结果。依据气象卫星遥感图像数据,本文提出了一种基于全卷积网络模型的遥感图像云分割算法,实现了高分辨率、大尺度、多通道遥感图像的云分割。我们的算法包含: 1)图像分块;2)块状图像分割;3)分割图像拼接三个主要步骤,实现了像素级精度的云分割。相比传统算法,我们的算法不依赖人工经验,完全由数据驱动,并在极端数据情形下具有更好的鲁棒性。测试数据结果显示,我们的算法能够满足气象预报的需要,且具有商业应用的潜力。   相似文献   

15.
大部分的语音分离系统仅仅增强混合的幅值谱(短时傅里叶变换的系数),但是对于相位谱却不做任何处理。然而,最近的研究表明相位信息对于语音分离的质量起着很重要的作用。为了同时利用幅值和相位信息,本文提出了一种有效的端到端分离方法。这种方法是直接利用原始语音波行点作为特征,是一种基于编解码器的卷积神经网络结构。跟其他的说话人独立的语音分离系统不同,本文提出的方法其神经网络只输出一个说话人的信号,其他的语音可以由混合语音与网络输出信号的差值获得。我们在TIMIT数据集上验证本文提出的方法。实验结果表明,本文提出的方法明显优于句子级别的排列不变性训练(uPIT)基线方法,对于信号失真比(SDR)相对提高了16.06%。   相似文献   

16.
现有的深度神经网络语音增强方法忽视了相位谱学习的重要性,从而造成增强语音质量不理想。针对这一问题,文中提出了一种基于卷积循环网络与非局部模块的语音增强方法。通过设计一种编解码网络,将语音信号的时域表示作为编码端的输入进行深层特征提取,从而充分利用语音信号的幅值信息以及相位信息。在编码端和解码端的卷积层中加入非局部模块,在提取语音序列关键特征的同时,抑制无用特征,并引入门控循环单元网络捕捉语音序列间的时序相关性信息。在ST-CMDS中文语音数据集上实验结果表明,与未处理的含噪语音相比,使用文中方法生成的增强语音质量和可懂度平均提升了61%和7.93%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号