首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
单通道语音增强任务中相位估计不准确会导致增强语音的质量较差,针对这一问题,提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network, DCACRN)的语音增强方法,在复数域同时实现了语音幅度信息和相位信息的增强.首先使用基于复数卷积网络的编码器从输入语音信号中提取复数表示的特征,并引入卷积跳连模块用以将特征映射到高维空间进行特征融合,加强信息间的交互和梯度的流动.然后设计了基于轴向自注意力机制的编码器-解码器结构,利用轴向自注意力机制来增强模型的时序建模能力和特征提取能力.最后通过解码器实现对语音信号的重构,同时利用混合损失函数优化网络模型,提升增强语音信号的质量.实验在公开数据集Valentini和DNS Challenge上进行,结果表明所提方法相对于其他模型在客观语音质量评估(perceptual evaluation of speech quality, PESQ)和短时客观可懂度(short-time objective intelligibility,S...  相似文献   

2.
频域语音增强算法通常存在相位失配问题,而相位信息对于语音增强任务非常重要。时域语音增强算法可以有效解决相位失配问题,但是噪声和语音在频域中更易分离。为了实现时域和频域语音增强算法的优势互补,提出一种基于双阶段Conv-Transformer的时频域语音增强算法。采用编解码结构,将带噪语音经过短时傅里叶变换得到的频域特征和一维卷积处理后得到的时域特征作为输入。考虑到Transformer擅长提取语音序列的全局依赖关系,卷积神经网络可以关注局部特征,为了更好地提取时域和频域中的局部信息和全局信息,设计一种Conv-Transformer模块。在此基础上,联合时域和频域损失函数对模型进行优化,使得模型可以同时学习语音在时域和频域中的分布规律。实验结果表明,与单一域的语音增强算法相比,该算法具有更好的降噪效果,增强后的语音感知质量、短时可懂度、信号失真测度、噪声失真测度、综合质量测度分别为3.04、0.953、4.34、3.55、3.69。  相似文献   

3.
基于卷积神经网络的图像分类方法的关键是提取有区分性的重点特征.为了提高重点特征的关注度,增强网络泛化能力,文中提出双分支多注意力机制的锐度感知分类网络(Double-Branch Multi-attention Mechanism Based Sharpness-Aware Classification Network, DAMSNet).该网络以ResNet-34残差网络为基础,首先,修改ResNet-34残差网络输入层卷积核尺寸,删除最大池化层,减小原始图像特征的损失.再者,提出双分支多注意力机制模块,嵌入残差分支中,从全局特征和局部特征上提取图像在通道域和空间域的上下文信息.然后,引入锐度感知最小化算法,结合随机梯度下降优化器,同时最小化损失值和损失锐度,寻找具有一致低损失的邻域参数,提高网络泛化能力.在CIFAR-10、CIFAR-100、SVHN数据集上的实验表明,文中网络不仅具有较高的分类精度,而且有效提升泛化能力.  相似文献   

4.
为了解决在街道场景图像语义分割任务中传统U-Net网络在多尺度类别下目标分割的准确率较低和图像上下文特征的关联性较差等问题,提出一种改进U-Net的语义分割网络AS-UNet,实现对街道场景图像的精确分割.首先,在U-Net网络中融入空间通道挤压激励(spatial and channel squeeze&excitation block, scSE)注意力机制模块,在通道和空间两个维度来引导卷积神经网络关注与分割任务相关的语义类别,以提取更多有效的语义信息;其次,为了获取图像的全局上下文信息,聚合多尺度特征图来进行特征增强,将空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)多尺度特征融合模块嵌入到U-Net网络中;最后,通过组合使用交叉熵损失函数和Dice损失函数来解决街道场景目标类别不平衡的问题,进一步提升分割的准确性.实验结果表明,在街道场景Cityscapes数据集和Cam Vid数据集上AS-UNet网络模型的平均交并比(mean intersection over union, MIo U)相较于传统U-Net网络分别提...  相似文献   

5.
当前大多数基于时域波形映射的语音增强算法,其损失函数的设计没有考虑到语音频谱谐波结构,为此提出一种基于时域波形映射-频域谐波损失的语音增强算法.使用谐波噪声模型(HNM)对纯净语音进行建模,将建模后得到的频域中的HNM分量作为损失函数中的训练目标;通过最小化频域谐波损失函数,训练全卷积神经网络(FCN),使之产生时域增强语音.实验结果表明,使用频域谐波损失函数训练的时域波形映射语音增强模型具有更好的去噪能力,语音质量和语音可懂度显著提高.  相似文献   

6.
高戈  王霄  曾邦  尹文兵  陈怡 《计算机应用》2022,(S1):316-320
在频域语音增强算法中,由于估计幅度谱与带噪相位谱的不匹配,其性能难以突破固有上限。在时域语音增强框架中,模型将时域波形作为输入,由网络直接学习时域波形之间的映射关系,有效地避免了无效短时傅里叶变换(STFT)问题。然而,常见的采用波形最小均方误差的时域语音增强算法对语音频域特征的建模并未达到最优。针对这个问题,提出一种基于时频联合损失函数的语音增强算法。首先将时频联合损失函数应用到Wave-U-Net时域语音增强网络,同时设计并分析了一阶范数形式和二阶范数形式的时频联合损失函数对增强网络的影响,最后得到了面向语音通信任务和语音识别任务的相对最佳损失函数选择方案。实验结果表明,相较于采用时域损失的增强网络,采用面向语音通信时最佳联合损失函数的增强网络在语音质量的感知评估(PESQ)和短时目标清晰度(STOI)分别实现了3.6%和2.30%的相对提升,采用面向语音识别时最佳联合损失函数的增强网络在字符错误率(CER)上实现了1.82%的相对降低。相较于Wave-U-Net时域语音增强网络,该算法有更好的噪声抑制效果,在后端语音识别任务中表现更为优秀。  相似文献   

7.
卢小燕  徐杨  袁文昊 《计算机应用》2023,(10):3282-3289
针对主流的深度学习网络难以完整分割肺部病灶、区域边界预测模糊的问题,提出一种基于U-Net的多尺度稠密融合网络(MDF-Net)。首先,引入多分支密集跳层连接以捕获多级上下文信息,并在网络末端引入信息加权融合(IWF)模块进行逐级融合,以解决网络中的特征损失问题;其次,设计一种自注意力金字塔模块,使用各金字塔层对特征图进行不同规模的切分处理,并使用自注意力机制计算像素关联度,从而增强局部与全局区域的感染特征显著性;最后,设计一种区别于传统U-Net的上采样模式的上采样残差(UR)模块,多分支的残差结构与通道特征激励使网络能够还原更加丰富的微小病灶特征。在两个公开数据集上的实验结果显示,与UNeXt相比,所提网络的准确度(ACC)分别提升了1.5%和1.4%,平均交并比(MIoU)分别提升了3.9%和1.9%,实验结果验证了MDF-Net具有更好的肺部病灶分割性能。  相似文献   

8.
针对真实世界图像去噪算法存在对上下文信息和全局信息利用不足导致的去噪效果不佳问题,提出一种U形金字塔注意力网络(UPCA)。U形结构由多尺度特征模块与长距离通道注意力模块融合形成的金字塔注意力模块组成,U形结构通过拼接操作可以将每一层的输出特征图融合,减少卷积过程以及下采样过程中图像细节特征的丢失。多尺度特征金字塔模块可以更好地利用上下文信息从而更好地恢复出干净的图像,而建立长距离依赖的通道注意力模块可以更好地利用全局信息,提高网络的去噪效果。同时在损失函数部分加入噪声项来加快训练时收敛的速度以及提高去噪效果。UPCA网络在数据集SIDD和DND进行对比实验,验证了UPCA网络的可行性和先进性,同时与同样使用通道注意力的RIDNet相比UPCA网络的PSNR/SSIM指标提升了0.81 dB/0.044,去噪后的效果图直观表现也更好,而且同等参数下训练所需的算力更小。  相似文献   

9.
针对现有的语音增强方法对语谱图特征关联信息表达有限和去噪效果不理想的问题,提出一种双复数卷积注意聚合递归网络(DCCARN)的语音增强方法。首先,建立双复数卷积网络,对短时傅里叶变换后的语谱图特征进行两分支信息编码;其次,将两分支中编码分别使用特征块间和特征块内注意力机制对不同的语音特征信息进行重标注;再次,使用长短期记忆(LSTM)网络处理长时间序列信息,并用两解码器还原语谱图特征并聚合这些特征;最后,经短时逆傅里叶变换生成目标语音波形,以达到抑制噪声的目的。在公开数据集VBD(Voice Bank+DMAND)和加噪的TIMIT数据集上进行的实验的结果表明,与相位感知的深度复数卷积递归网络(DCCRN)相比,DCCARN在客观语音感知质量指标(PESQ)上分别提升了0.150和0.077~0.087。这验证了所提方法能更准确地捕获语谱图特征的关联信息,更有效地抑制噪声,并提高语音的清晰度。  相似文献   

10.
目的 干涉相位去噪是合成孔径雷达干涉测量(interferometric synthetic aperture radar,InSAR)技术中的关键环节,其效果对测量精度具有重要影响。针对现有的干涉相位去噪方法大多关注局部特征以及在特征提取方面的局限性,同时为了平衡去噪和结构保持两者之间的关系,提出了一种结合全局上下文与融合注意力的相位去噪网络GCFA-PDNet(global context and fused attention phase denoising network)。方法 将干涉相位分离为实部和虚部依次输入到网络,先从噪声相位中提取浅层特征,再将其映射到由全局上下文提取模块和融合注意力模块组成的特征增强模块,最后通过全局残差学习生成去噪图像。全局上下文提取模块能提取全局上下文信息,具有非局部方法的优势;融合注意力模块既强调关键特征,又能高效提取隐藏在复杂背景中的噪声信息。结果 所提出的方法与对比方法中性能最优者相比,在模拟数据结果的平均峰值信噪比(peak signal to noise ratio, PSNR)和结构相似性(structural similarity,...  相似文献   

11.
沈梦强  于文年  易黎  宋南 《计算机工程》2023,(6):115-122+130
现有语音增强方法在时域端到端语音增强中无法学习全面时间尺度特征信息且中间层序列建模不充分。提出从全面时间尺度进行语音降噪的方法。通过线性插值方式对输入特征序列进行扩充,获得比原输入数据具有更高分辨率的时间特征,使得模型能够从更细时间尺度上进行特征提取,并利用间隔抽样方法对每一层编码后的特征进行下采样,在较粗时间尺度上计算越来越多的高维特征,使网络模型能够捕获深层次的有用信息。同时,在网络模型中引入ConformerBlock作为中间层,其中,多头注意力机制和卷积模块能够增强中间层网络的序列建模能力,突出中间向量的表征信息,根据语音和噪声线性叠加的原理,采用联合噪声训练生成对抗网络的方法使网络从目标语音和噪声2个角度获取有用信息,进一步提升模型降噪能力。在公开语音增强测试数据集上的实验结果表明,该方法降噪后语音的各项指标均得到显著提升,相比Wave-U-net模型,在PESQ、STOI和SSNR这3项主要指标上分别提升了2.75%、1.06%、6.34%。  相似文献   

12.
文本图像二值化是光学字符识别的关键步骤,但低质量文本图像背景噪声复杂,且图像全局上下文信息以及深层抽象信息难以获取,使得最终的二值化结果中文字区域分割不精确、文字的形状和轮廓等特征表达不足,从而导致二值化效果不佳。为此,提出一种基于改进U-Net网络的低质量文本图像二值化方法。采用适合小数据集的分割网络U-Net作为骨干模型,选择预训练的VGG16作为U-Net的编码器以提升模型的特征提取能力。通过融合轻量级全局上下文块的U-Net瓶颈层实现特征图的全局上下文建模。在U-Net解码器的各上采样块中融合残差跳跃连接,以提升模型的特征还原能力。从上述编码器、瓶颈层和解码器3个方面分别对U-Net进行改进,从而实现更精确的文本图像二值化。在DIBCO 2016—2018数据集上的实验结果表明,相较Otsu、Sauvola等方法,该方法能够实现更好的去噪效果,其二值化结果中保留了更多的细节特征,文字的形状和轮廓更精确、清晰。  相似文献   

13.
依据带噪语音中不同类型语音分段(segment)对语音整体的可懂度影响不同,提出了一种基于语音分段来分类训练深度降噪自编码器(DDAE)的语音增强算法.该算法使得DDAE模型在尽可能减小Dropout所引入的扰动对带噪语音噪声特性破坏的同时,提高了对带噪语音可懂度关键分段(中均方根分段)语音特性学习的鲁棒性,提高了增强语音的可懂度.实验结果表明,该算法较现有方法提高了增强语音可懂度的NCM值.  相似文献   

14.
目的 从眼底图像中分割视盘和视杯对于眼部疾病智能诊断来说是一项重要工作,U-Net及变体模型已经广泛应用在视杯盘分割任务中。由于连续的卷积与池化操作容易引起空间信息损失,导致视盘和视杯分割精度差且效率低。提出了融合残差上下文编码和路径增强的深度学习网络RCPA-Net,提升了分割结果的准确性与连续性。方法 采用限制对比度自适应直方图均衡方法处理输入图像,增强对比度并丰富图像信息。特征编码模块以ResNet34(residual neural network)为骨干网络,通过引入残差递归与注意力机制使模型更关注感兴趣区域,采用残差空洞卷积模块捕获更深层次的语义特征信息,使用路径增强模块在浅层特征中获得精确的定位信息来增强整个特征层次。本文还提出了一种新的多标签损失函数用于提高视盘视杯与背景区域的像素比例并生成最终的分割图。结果 在4个数据集上与多种分割方法进行比较,在ORIGA(online retinal fundus image database for glaucoma analysis)数据集中,本文方法对视盘分割的JC(Jaccard)指数为0.939 1,F-measure为...  相似文献   

15.
为充分利用含噪语音特征来提升深度神经网络的语音增强性能,提出一种融合时频域特征的语音增强方法。以含噪语音的波形和纯净语音的对数功率谱分别作为训练特征和训练目标,获取含噪语音时域特征到纯净语音频域特征的映射关系。将含噪语音的波形和对数功率谱共同作为训练特征,构建融合含噪语音时域和频域特征的深度神经网络实现语音增强。实验结果表明,与单纯使用频域特征的语音增强方法相比,该方法能够明显提升增强语音的质量和可懂度,具有更好的语音增强性能。  相似文献   

16.
基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型。实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52%,且鲁棒性较好。  相似文献   

17.
U-Net在图像分割领域取得了巨大成功,然而卷积和下采样操作导致部分位置信息丢失,全局和长距离的语义交互信息难以被学习,并且缺乏整合全局和局部信息的能力。为了提取丰富的局部细节和全局上下文信息,提出了一个基于卷积胶囊编码器和局部共现的医学图像分割网络MLFCNet (network based on convolution capsule encoder and multi-scale local feature co-occurrence)。在U-Net基础上引入胶囊网络模块,学习目标位置信息、局部与全局的关系。同时利用提出的注意力机制保留网络池化层丢弃的信息,并且设计了新的多尺度特征融合方法,从而捕捉全局信息并抑制背景噪声。此外,提出了一种新的多尺度局部特征共现算法,局部特征之间的关系能够被更好地学习。在两个公共数据集上与九种方法进行了比较,相比于性能第二的模型,该方法的mIoU在肝脏医学图像中提升了4.7%,Dice系数提升了1.7%。在肝脏医学图像和人像数据集上的实验结果表明,在相同的实验条件下,提出的网络优于U-Net和其他主流的图像分割网络。  相似文献   

18.
针对合成孔径雷达干涉测量技术中的相位解缠问题,以深度学习U-Net框架为基础,结合空间金字塔池化(atrous spatial pyramid pooling,ASPP)网络和瓶颈模式残差单元,提出一种基于深度学习的相位解缠方法。该方法以U-Net架构为基础,建立从缠绕相位到真实相位的映射关系,搭建鲁棒性较强的相位解缠网络。ASPP结合多尺度信息和扩张卷积的优势,将不同扩张率的扩张卷积特征图结合到一起来捕获上下文信息,能在不牺牲特征空间分辨率的同时扩大特征接收野,有利于精确获取缠绕干涉图特征信息,增强相位解缠算法的稳健性;瓶颈残差网络可使网络模型在减小参数计算量的同时防止网络退化,提高网络训练精度与效率。模拟与实测干涉图解缠结果表明,该方法可获得与其他同类方法相比更稳健的结果。  相似文献   

19.
现有图像去雾方法普遍存在去雾不彻底、容易出现颜色失真等问题,基于传统深度学习模型的图像去雾方法多采用静态推理模式,在该模式下,模型对不同样本会采用同样的、固定的参数设置,从而抑制了模型的表达能力,影响图像的去雾效果。针对以上问题,文中提出了一种基于动态卷积核的自适应图像去雾算法,该算法包括编码网络、自适应特征增强网络和解码网络3个部分。文中采用动态卷积、密集残差、注意力机制设计了自适应特征增强网络,该网络主要包括动态残差组件和动态跨层特征融合组件。动态残差组件由动态密集残差模块、一个卷积层和双注意力模块构成,其中动态密集残差模块将动态卷积引入密集残差模块,同时设计了一个基于注意力的权重动态聚合子网络,动态地生成卷积核参数以达到样本自适应的目的,在减少信息丢失的同时增强了模型的表达能力;双注意力模块结合通道注意力和像素注意力,使模型更加关注图像通道之间的差异性以及雾霾分布不均匀的区域。动态跨层特征融合组件通过动态融合不同阶段的特征,来学习丰富的上下文信息,防止网络深层计算时遗忘网络的早期特征,同时极大地丰富了特征表示,有利于模型对无雾图像细节信息的恢复。在合成数据集和真实数据集上进行了大...  相似文献   

20.
针对全卷积网络在脑肿瘤核磁图像分割中信息丢失严重,分割精度差等问题,提出一种基于改进Res-Unet模型的脑肿瘤核磁图像分割算法。通过将深度残差结构融入到U-Net网络得到具有104个卷积层的深层Res-Unet网络,并将dropout整合到网络中减少训练过拟合,提高了网络的深度,加强了网络对特征表达的准确度。最后引入注意力机制,充分利用脑肿瘤核磁图像的空间信息和上下文信息。该算法采用Dice系数等指标评价,肿瘤整体区域达到0.90分,肿瘤核心区域为0.83分,肿瘤增强区域为0.80分。相比传统网络分割模型,本算法具有更好的分割性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号