首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 187 毫秒
1.
闫昭宇  王晶 《信号处理》2020,36(6):863-870
语音增强的目的是从带有噪声的语音中分离出纯净语音,实现语音的质量和可懂度的提高。近年来,采用有监督学习的深度神经网络已经成为了语音增强的主流方法。卷积循环网络是一种新型的神经网络结构,包含编码层、中间层、解码层三个主要模块,其已经在语音增强任务中取得了较好的效果。时频注意力机制是一个由数个相连的卷积层通过跳跃连接构成的简单网络模块,在训练过程中可以计算语音幅度谱特征图的非邻域相关性,从而更加有利于网络关注到语音的谐波特性。本文将时频注意力机制引入卷积循环网络的编码层和解码层中,实验结果表明,在不同信噪比条件下,该方法相比基线卷积循环网络能够进一步提高语音质量和可懂度,且增强后的语音信号可以保留更多的语谱谐波信息,实现更低程度的语音失真。   相似文献   

2.
为了充分利用含噪语音特征来提高语音增强网络的性能,基于含噪语音在时间和频率两个维度上的相关性,本文结合卷积神经网络的局部特征提取能力和门控循环单元的长期依赖建模能力,设计了一种适用于语音增强的卷积门控循环网络.该网络采用卷积网络结构代替全连接网络结构来改进门控循环单元中的特征计算过程,从而能够更好地保留含噪语音特征中的时频结构信息.实验结果表明,与其它语音增强网络相比,本文网络在语音成分的保留和噪声成分的抑制上具有明显优势,增强后语音具有更好的语音质量和可懂度.  相似文献   

3.
语音时频特征的时间依赖性、局部相关性、全局相关性等特性,使得传统的神经网络结构与时频域语音增强任务无法完全相适应。针对这一问题,首先利用卷积层代替门控循环单元网络中的全连接层,构成卷积门控循环网络,解决门控循环单元网络在时间维度建模时无法提取频率维度局部相关性的问题;又因卷积层无法提取频率维度的全局相关性,进一步利用注意力机制关注全局相关性的能力,解决卷积门控循环网络无法关注频率维度全局相关性的问题,最后提出了一种深度融合自注意力机制的自注意-卷积门控循环网络。实验证明,该网络通过关注时频域特征的多种特性,有效地提升了语音增强性能。  相似文献   

4.
针对单幅电子散斑干涉条纹图的相位恢复问题,以U-Net为基础网络,融合子像素卷积模块和结构化特征增强模块,提出了USS-Net,实现对单幅条纹图端到端的相位恢复。首先改进上采样方式,采用子像素卷积使网络能学习到更多的条纹细节信息,同时降低反卷积零值填充对梯度计算的影响。其次在编码部分改进特征融合方式,采用结构化特征增强模块,充分融合不同尺度的特征信息,解决条纹疏密程度不均导致特征提取不佳的问题,进而提升对单个像素点的分割准确性。建立了ESPI条纹-相位仿真和实验数据集,对USS-Net模型进行测试与分析,验证所提方法的有效性。所提方法克服了传统相位恢复方法过程繁琐、容易受噪声干扰等缺点,有效提高了单幅条纹图相位恢复的准确率。  相似文献   

5.
夏玉果  杜静赵力 《电子器件》2022,45(6):1434-1440
为了进一步提升语音情感特征的区别性,提出一种基于3D倒谱特征和注意力机制的语音情感识别方法。在提取典型特征MFCC的基础上,融合其一阶和二阶差分形成动态的3D倒谱特征矢量,然后利用卷积神经网络和双向长短期记忆网络搭建双向循环卷积神经网络(CNN-BiLSTM)进行长时建模,并利用注意力机制,进一步增强语音关键性情感特征的权重。实验结果表明,该方法能聚焦特征的有用信息,从而有效提高语音情感识别的准确率,在汉语情感语料库CASIA的准确率达到90.48%。  相似文献   

6.
时文华  张雄伟  邹霞  孙蒙 《信号处理》2019,35(4):631-640
针对传统的神经网络未能对时频域的相关性充分利用的问题,提出了一种利用深度全卷积编解码神经网络的单通道语音增强方法。在编码端,通过卷积层的卷积操作对带噪语音的时频表示逐级提取特征,在得到目标语音高级特征表示的同时逐层抑制背景噪声。解码端和编码端在结构上对称,在解码端,对编码端获得的高级特征表示进行反卷积、上采样操作,逐层恢复目标语音。跳跃连接可以很好地解决极深网络中训练时存在的梯度弥散问题,本文在编解码端的对应层之间引入跳跃连接,将编码端特征图信息传递到对应的解码端,有利于更好地恢复目标语音的细节特征。 对特征融合和特征拼接两种跳跃连接方式、基于L1和 L2两种训练损失函数对语音增强性能的影响进行了研究,通过实验验证所提方法的有效性。   相似文献   

7.
自动调制方式识别技术在通信领域有着不可或缺的作用,针对传统的卷积神经网络在信号分类问题中特征提取能力不足的问题,本文研究了一种利用多维度特征的端到端双流膨胀卷积神经网络来对调制信号进行分类的方法。该方法不仅利用原始采样信号,还利用输入信号的瞬时幅度和相位信息;原始IQ(In-phase and Quadrature, IQ)数据输入进神经网络后,网络首先通过内置的数据预处理模块对输入的IQ信号进行预处理,提取原始信号的幅度和相位信息,再将原始IQ信号和幅度相位两种特征信息分别通过两个并行的卷积神经网络结构分别进行特征提取;本文所设计的双流卷积神经网络模型中的膨胀残差网络分支利用卷积核的膨胀卷积特性,将膨胀卷积与残差网络结构相结合,在网络参数不变的情况下使得卷积核具有更大的感受野,同时也能够更好地结合上下文信息,另一个网络分支是将卷积神经网络与长短期记忆神经网络相串联,然后将两个并行卷积神经网络的输出特征向量进行矩阵相乘达到两种特征信息融合的目的。整个识别过程是基于端到端的,数据预处理模块内嵌到神经网络内部,由神经网络完成对数据的预处理,只需将原始的IQ数据直接送入神经网络即可;仿真实验...  相似文献   

8.
大部分的语音分离系统仅仅增强混合的幅值谱(短时傅里叶变换的系数),但是对于相位谱却不做任何处理。然而,最近的研究表明相位信息对于语音分离的质量起着很重要的作用。为了同时利用幅值和相位信息,本文提出了一种有效的端到端分离方法。这种方法是直接利用原始语音波行点作为特征,是一种基于编解码器的卷积神经网络结构。跟其他的说话人独立的语音分离系统不同,本文提出的方法其神经网络只输出一个说话人的信号,其他的语音可以由混合语音与网络输出信号的差值获得。我们在TIMIT数据集上验证本文提出的方法。实验结果表明,本文提出的方法明显优于句子级别的排列不变性训练(uPIT)基线方法,对于信号失真比(SDR)相对提高了16.06%。   相似文献   

9.
在语种识别过程中,为提取语音信号中的空间特 征以及时序特征,从而达到提高多语 种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型。该模型首先提 取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN) 提取低维度的空间特征;再通过空 间金字塔池化层(spatial pyramid pooling layer,SPP layer) 对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经 网络(recurrenrt neural network,CNN) 来判别语种信息。为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相 比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别 准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3% 和6.1%。  相似文献   

10.
为改善旋翼飞机空地语音通信质量,针对旋翼飞机螺旋桨造成的幅度调制(Amplitude Modulation, AM)信号复杂多频干扰以及恶劣机舱背景噪声,提出了一种通信语音时频掩膜智能增强方法,从而实现对机舱噪声与复杂干扰的有效抑制。该方法首先对原始时域语音信号进行分帧与加窗,通过短时傅里叶变换获取幅度谱与相位谱;然后将原始幅度谱作为网络输入,采用深度神经网络分析其语音信号的特征,采用长短期记忆网络挖掘语音信号的时序上下文信息,实现对语音时频掩膜的准确估计,并将其用于增强原始幅度谱以得到网络输出;最后结合原始相位谱,通过逆短时傅里叶变换获得增强后的时域语音信号。仿真与实际测试表明,该方法可有效抑制旋翼飞机环境下的干扰噪声,提高通信语音信号质量。  相似文献   

11.
步兵战车强噪声背景下由于强背景噪声的存在,既影响了口令识别的正确率,又降低了指挥所后台监听的清晰度,为了提高语音质量,本文对口令数据进行增强处理.为此,本文提出了一种基于升降编解码全卷积神经网络(Increase De-crease Encoder Decode Convolution Neural Network,I...  相似文献   

12.
袁文浩  梁春燕  夏斌  孙文珠 《电子学报》2018,46(10):2359-2366
在时频域的语音增强中,幅度估计和相位估计都是影响语音增强性能的重要因素.为了在基于深度学习的语音增强方法中融合对相位的估计,本文将含噪语音短时傅里叶变换(STFT)的实部和虚部特征作为两个通道输入深度卷积神经网络,通过建立一个同步估计纯净语音STFT的实部和虚部特征的多任务学习模型,实现了对幅度和相位的同步估计.实验结果表明,相比仅考虑幅度估计的方法,本文方法具有更好的噪声抑制能力,在低信噪比条件下,显著提高了语音增强性能.  相似文献   

13.
Siamese trackers have attracted considerable attention in the field of object tracking because of their high precision and speed. However, one of the main disadvantages of Siamese trackers is that their feature extraction network is relatively single. They often use AlexNet or ResNet50 as the backbone network. AlexNet is shallow and thus cannot easily extract abundant semantic information, whereas ResNet50 has many convolutional layers, reducing the real-time performance of Siamese trackers. We propose a multi-branch feature aggregation network with different designs in the shallow and deep convolutional layers. We use the residual module to build the shallow convolutional layers to extract textural and edge features. The deep convolution layers, designed with two independent branches, are built with residual and parallel modules to extract different semantic features. The proposed network has a depth of only nine modules, and thus it is a simple and effective network. We then apply the network to a Siamese tracker to form SiamMBFAN. We design multi-layer classification and regression subnetworks in the Siamese tracker by aggregating the last three modules of the two branches, improving the localization ability of the tracker. Our tracker achieves a better balance between performance and speed. Finally, SiamMBFAN is tested on four challenging benchmarks, including OTB100, VOT2016, VOT2018, and UAV123. Compared with other trackers, our tracker improves by 7% (OTB100).  相似文献   

14.
孙林慧  张蒙  梁文清 《信号处理》2022,38(12):2519-2531
实际语音分离时,混合语音的说话人性别组合相关信息往往是未知的。若直接在普适的模型上进行分离,语音分离效果欠佳。为了更好地进行语音分离,本文提出一种基于卷积神经网络-支持向量机(CNN-SVM)的性别组合判别模型,来确定混合语音的两个说话人是男-男、男-女还是女-女组合,以便选用相应性别组合的分离模型进行语音分离。为了弥补传统单一特征表征性别组合信息不足的问题,本文提出一种挖掘深度融合特征的策略,使分类特征包含更多性别组合类别的信息。本文的基于CNN-SVM性别组合分类的单通道语音分离方法,首先使用卷积神经网络挖掘梅尔频率倒谱系数和滤波器组特征的深度特征,融合这两种深度特征作为性别组合的分类特征,然后利用支持向量机对混合语音性别组合进行识别,最后选择对应性别组合的深度神经网络/卷积神经网络(DNN/CNN)模型进行语音分离。实验结果表明,与传统的单一特征相比,本文所提的深度融合特征可以有效提高混合语音性别组合的识别率;本文所提的语音分离方法在主观语音质量评估(PESQ)、短时客观可懂度(STOI)、信号失真比(SDR)指标上均优于普适的语音分离模型。  相似文献   

15.
王骞  何培宇  徐自励 《信号处理》2020,36(6):902-910
针对现有深度神经网络语音增强方法对带噪语音的去噪能力有限、语音质量提升不高的问题,提出了一种基于奇异谱分析的深度神经网络语音增强方法。通过引入奇异谱分析算法对带噪语音进行预处理,以初步分离得到语音信号与噪声。接着将语音信号与噪声用于深度神经网络模型得训练,以得到性能更优的网络模型,从而使得本文方法具有更好的性能。最后在重建干净语音的环节中,同时使用神经网络估计得到的对数功率谱和带噪语音的对数功率谱,并加入了权重系数,使得本文提出的方法可以适应不同信噪比的情形,有效的去除背景噪声,降低语音信号的失真。本文通过仿真实验验证了该方法的有效性和鲁棒性。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号