首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 593 毫秒
1.
现有的深度神经网络语音增强方法忽视了相位谱学习的重要性,从而造成增强语音质量不理想。针对这一问题,文中提出了一种基于卷积循环网络与非局部模块的语音增强方法。通过设计一种编解码网络,将语音信号的时域表示作为编码端的输入进行深层特征提取,从而充分利用语音信号的幅值信息以及相位信息。在编码端和解码端的卷积层中加入非局部模块,在提取语音序列关键特征的同时,抑制无用特征,并引入门控循环单元网络捕捉语音序列间的时序相关性信息。在ST-CMDS中文语音数据集上实验结果表明,与未处理的含噪语音相比,使用文中方法生成的增强语音质量和可懂度平均提升了61%和7.93%。  相似文献   

2.
时文华  张雄伟  邹霞  孙蒙 《信号处理》2019,35(4):631-640
针对传统的神经网络未能对时频域的相关性充分利用的问题,提出了一种利用深度全卷积编解码神经网络的单通道语音增强方法。在编码端,通过卷积层的卷积操作对带噪语音的时频表示逐级提取特征,在得到目标语音高级特征表示的同时逐层抑制背景噪声。解码端和编码端在结构上对称,在解码端,对编码端获得的高级特征表示进行反卷积、上采样操作,逐层恢复目标语音。跳跃连接可以很好地解决极深网络中训练时存在的梯度弥散问题,本文在编解码端的对应层之间引入跳跃连接,将编码端特征图信息传递到对应的解码端,有利于更好地恢复目标语音的细节特征。 对特征融合和特征拼接两种跳跃连接方式、基于L1和 L2两种训练损失函数对语音增强性能的影响进行了研究,通过实验验证所提方法的有效性。   相似文献   

3.
为了充分利用含噪语音特征来提高语音增强网络的性能,基于含噪语音在时间和频率两个维度上的相关性,本文结合卷积神经网络的局部特征提取能力和门控循环单元的长期依赖建模能力,设计了一种适用于语音增强的卷积门控循环网络.该网络采用卷积网络结构代替全连接网络结构来改进门控循环单元中的特征计算过程,从而能够更好地保留含噪语音特征中的时频结构信息.实验结果表明,与其它语音增强网络相比,本文网络在语音成分的保留和噪声成分的抑制上具有明显优势,增强后语音具有更好的语音质量和可懂度.  相似文献   

4.
针对雨滴使雨天图像背景特征模糊失真的问题,提出一种融合多尺度特征信息的图像雨滴去除算法。首先,搭建了一个编码-解码神经网络来学习图像特征映射,考虑到雨滴的物理形状特征,采用雨滴形状驱动注意力模块来捕捉雨滴位置。然后,引入空间与通道协调注意力机制,加强图像重要空间和通道特征权重。接着,利用空洞卷积、非对称卷积和金字塔结构设计了新型空洞空间卷积池化金字塔模块,以捕获图像的多尺度特征。最后,在同尺度的编码-解码卷积层间加入跳跃连接,将特征信息馈送到网络深处,达到去除图像中雨滴的目的。实验结果表明:本文算法在公开数据集Qian上的PSNR达到30.75,SSIM达到0.925 7;在自制雨天数据集上也可以有效去除图像中的雨滴。  相似文献   

5.
在有监督语音增强任务中,上下文信息对目标语音的估计产生重要影响,为了获取更加丰富的语音全局相关特征,该文以尽可能小的参数为前提,设计了一种新型卷积网络来进行语音增强。所提网络包含编码层、传输层与解码层3个部分:编解码部分提出一种2维非对称膨胀残差(2D-ADR)模块,其能明显减小训练参数并扩大感受野,提升网络对上下文信息的获取能力;传输层提出一种1维门控膨胀残差(1D-GDR)模块,该模块结合膨胀卷积、残差学习与门控机制,能够选择性传递特征并获取更多时序相关信息,同时采用密集跳跃连接的方式对8个1D-GDR模块进行堆叠,以增强层间信息流动并提供更多梯度传播方式;最后,对相应编解码层进行跳跃连接并引入注意力机制,以使解码过程获得更加鲁棒的底层特征。实验部分,使用了不同的参数设置以及对比方法来验证网络的有效性与鲁棒性,通过在28种噪声环境下训练及测试,相比于其他方法,该文方法以1.25×106的参数取得了更优的客观和主观指标,具备较强的增强效果与泛化能力。  相似文献   

6.
语音增强技术就是要抑制噪声,从带噪语音信号中尽可能的提取纯净的语音信号,提升其可懂度和清晰度。神经网络能够模拟人脑的工作原理,具有自学习能力和强大的非线性映射能力,故采取BP神经网络以及深度学习两种主流模型来展开研究,在此基础上研究了基于深度学习的反馈网络语音增强方法。通过对神经网络重复预训练和自学习,使之可以实现从带噪语音幅度谱到噪声幅度谱的非线性映射,同时训练了多个阈值和权重下的深度网络。通过真并对比其性能取得了很好的去噪效果。  相似文献   

7.
鲍长春  项扬 《信号处理》2019,35(12):1931-1941
语音增强是一种试图从噪声中分离出语音的技术,目的是提高语音的质量和可懂度。在过去的几十年里,人们提出了多种类型的语音增强方法,但这些方法在非平稳噪声环境中的表现还未达到最佳程度,因为他们没有充分利用语音和噪声的先验信息。近年来,随着深度学习的发展,深度神经网络已成为当下实现语音增强的主流方法,在改善语音质量和提升可懂度方面发挥了积极作用。本文从深度神经网络的结构出发,回顾了基于深度学习的单通道语音增强方法。首先,介绍了语音增强的背景;其次,详细描述了四种不同类型神经网络实现语音增强的方法;最后,给出了未来语音增强方法的建议和本文的结论。   相似文献   

8.
夏玉果  杜静赵力 《电子器件》2022,45(6):1434-1440
为了进一步提升语音情感特征的区别性,提出一种基于3D倒谱特征和注意力机制的语音情感识别方法。在提取典型特征MFCC的基础上,融合其一阶和二阶差分形成动态的3D倒谱特征矢量,然后利用卷积神经网络和双向长短期记忆网络搭建双向循环卷积神经网络(CNN-BiLSTM)进行长时建模,并利用注意力机制,进一步增强语音关键性情感特征的权重。实验结果表明,该方法能聚焦特征的有用信息,从而有效提高语音情感识别的准确率,在汉语情感语料库CASIA的准确率达到90.48%。  相似文献   

9.
语音时频特征的时间依赖性、局部相关性、全局相关性等特性,使得传统的神经网络结构与时频域语音增强任务无法完全相适应。针对这一问题,首先利用卷积层代替门控循环单元网络中的全连接层,构成卷积门控循环网络,解决门控循环单元网络在时间维度建模时无法提取频率维度局部相关性的问题;又因卷积层无法提取频率维度的全局相关性,进一步利用注意力机制关注全局相关性的能力,解决卷积门控循环网络无法关注频率维度全局相关性的问题,最后提出了一种深度融合自注意力机制的自注意-卷积门控循环网络。实验证明,该网络通过关注时频域特征的多种特性,有效地提升了语音增强性能。  相似文献   

10.
针对腺体图像在自动分割过程中由于多尺度目标和信息丢失影响导致准确率降低的问题,文中采用了一种引入注意力模块的全卷积神经网络模型。该模型遵循编码器-解码器结构,在编码网络中用空洞残差卷积层代替原有的普通卷积层,并添加空洞金字塔池;再在解码网络中加入注意力模块,使模型输出高分辨率特征图,提高对多尺度目标的分割精度。实验结果表明,提出的网络模型参数少分割精度高,对腺体图像的平均分割精度高达89.7%,具有较好的鲁棒性。  相似文献   

11.
谢福仕  康迂勇  施明月  郑能恒 《信号处理》2021,37(10):1996-2003
语音增强旨在从受噪声干扰的语音中提取目标语音,目前基于神经网络的语音增强方法在提升语音质量和可懂度方面已被证明是有效的。通过多目标联合优化,利用不同特征之间的互补性,可以提升基于神经网络的语音增强方法的性能。然而,这类多目标学习的语音增强方法在网络优化过程中,通常分别对单个输出目标进行损失函数的计算,多目标之间是并行的,并没有充分利用多目标之间可能存在的关联。为了在网络训练过程中增加输出目标间的关联,本文利用长短时记忆网络构建一种双输出系统框架,设计一种多目标损失函数计算策略用于网络训练。该框架估计出目标语音和噪声,基于此得到估计的带噪语音,然后对这三部分进行联合优化。实验结果表明,所提方法可以提高网络对噪声抑制能力,通过该策略可以获得质量更高,噪声残留更少的增强语音。   相似文献   

12.
王志杰  张学良 《信号处理》2021,37(10):1872-1879
近年来,随着神经网络的应用,语音增强效果显著提升。但对关联性较强的长序列语音数据,单一的网络结构受到自身性能的限制可能无法继续提升增强效果。为了进一步提升神经网络对语音增强的效果,本文将一种被称为双路径循环神经网络(dual-path recurrent neural network,DPRNN)的复合网络结构应用在语音增强任务中。该复合网络结构由卷积神经网络(convolution neural network,CNN)和长短时记忆神经网络(Long short-term memory,LSTM)组成,网络的核心是两个LSTM组成的双路径循环神经网络块(DPRNN Block)。DPRNN将长序列语音数据分割为重叠帧数据块,利用DPRNN Block对这些数据块执行块内计算和块间计算,以此实现数据的局部和全局建模。实验结果表明,相比于单一网络结构,DPRNN在训练噪声和非训练噪声条件下均取得最好结果。   相似文献   

13.
廖理心  赵耀  韦世奎 《信号处理》2022,38(6):1192-1201
高质量的数据是深度卷积神经网络成功的关键因素之一。在计算机视觉领域,常用图像数据集通常以JPEG格式存储。这种有损压缩技术不可避免地会导致原始数据信息的丢失,进而造成利用压缩数据训练的卷积神经网络的性能降低。因此,为了增强卷积神经网络的性能,本文提出了一种面向压缩图像复原的增强训练方法,通过复原压缩图像实现卷积神经网络的性能增强。该方法具体为一个包含复原模块和任务模块的联合增强框架。复原模块致力于恢复有损压缩技术造成的信息丢失;任务模块专注于基于任务需求增强压缩图像。两个模块联合训练,使得压缩图像的复原增强更具有目的性。本文通过图像分类任务的实验表明,与压缩图像相比,该方法能有效地复原压缩图像,增强卷积神经网络的性能。此外,该方法中两个模块间的低耦合性和可替代性保证了该方法的适用性。   相似文献   

14.
孙林慧  张蒙  梁文清 《信号处理》2022,38(12):2519-2531
实际语音分离时,混合语音的说话人性别组合相关信息往往是未知的。若直接在普适的模型上进行分离,语音分离效果欠佳。为了更好地进行语音分离,本文提出一种基于卷积神经网络-支持向量机(CNN-SVM)的性别组合判别模型,来确定混合语音的两个说话人是男-男、男-女还是女-女组合,以便选用相应性别组合的分离模型进行语音分离。为了弥补传统单一特征表征性别组合信息不足的问题,本文提出一种挖掘深度融合特征的策略,使分类特征包含更多性别组合类别的信息。本文的基于CNN-SVM性别组合分类的单通道语音分离方法,首先使用卷积神经网络挖掘梅尔频率倒谱系数和滤波器组特征的深度特征,融合这两种深度特征作为性别组合的分类特征,然后利用支持向量机对混合语音性别组合进行识别,最后选择对应性别组合的深度神经网络/卷积神经网络(DNN/CNN)模型进行语音分离。实验结果表明,与传统的单一特征相比,本文所提的深度融合特征可以有效提高混合语音性别组合的识别率;本文所提的语音分离方法在主观语音质量评估(PESQ)、短时客观可懂度(STOI)、信号失真比(SDR)指标上均优于普适的语音分离模型。  相似文献   

15.
张玥  张雄伟  孙蒙 《信号处理》2022,38(10):2134-2143
近年来,基于神经网络的方法大量应用于骨导语音增强中。然而,由于骨导数据集样本较少,骨导语音高频部分缺失,不同说话人高频部分失真程度不同,神经网络难以有效学习骨导语音的频谱特征。因此,现有骨导语音增强模型对于未知说话人骨导语音数据集增强效果不佳、鲁棒性不强。为充分利用骨导语音的时频信息,引导模型关注骨导语音的低频部分特征,提出一种基于时频注意力机制和U-Net的骨导语音增强方法。该方法将时频注意力机制引入U-Net结构中,首先根据骨导语音时间、频率方向特征信息的重要程度自动为其分配权重,而后以加权后的骨导语音谱作为输入,对应的气导语音谱作为目标进入U-Net结构训练,最后利用训练完成的增强模型重构骨导语音全频带的语音。仿真实验与可视化分析结果表明,对比基线U-Net结构与其他注意力机制,该方法对于未知说话人骨导语音数据集能够取得更高的PESQ和STOI客观评价指标,增强语音更加清晰。  相似文献   

16.
目前卷积神经网络已成为腹部动脉血管分割领域的研究热点,但经典的卷积网络存在分割精度低和分割血管不连续的问题。为此,文中提出了基于改进3D全卷积网络的腹部动脉血管分割算法。该方法在网络的编码路径上构造不同尺度的侧输入,并将侧输入卷积后的图像与下采样卷积后的图像进行融合,提取更多的特征信息。同时,网络中嵌入了新的多尺度特征提取模块,该模块将通道注意力与密集扩张卷积进行了融合,有效地捕获了更高层次的特征信息。对腹部动脉血管进行分割的结果表明,与其他分割方法相比,所提方法在直观性和定量性上均有提高,证明了该方法能够提升血管分割精度。  相似文献   

17.
王骞  何培宇  徐自励 《信号处理》2020,36(6):902-910
针对现有深度神经网络语音增强方法对带噪语音的去噪能力有限、语音质量提升不高的问题,提出了一种基于奇异谱分析的深度神经网络语音增强方法。通过引入奇异谱分析算法对带噪语音进行预处理,以初步分离得到语音信号与噪声。接着将语音信号与噪声用于深度神经网络模型得训练,以得到性能更优的网络模型,从而使得本文方法具有更好的性能。最后在重建干净语音的环节中,同时使用神经网络估计得到的对数功率谱和带噪语音的对数功率谱,并加入了权重系数,使得本文提出的方法可以适应不同信噪比的情形,有效的去除背景噪声,降低语音信号的失真。本文通过仿真实验验证了该方法的有效性和鲁棒性。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号