期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

闫昭宇王晶《信号处理》2020,36(6):863-870

语音增强的目的是从带有噪声的语音中分离出纯净语音，实现语音的质量和可懂度的提高。近年来，采用有监督学习的深度神经网络已经成为了语音增强的主流方法。卷积循环网络是一种新型的神经网络结构，包含编码层、中间层、解码层三个主要模块，其已经在语音增强任务中取得了较好的效果。时频注意力机制是一个由数个相连的卷积层通过跳跃连接构成的简单网络模块，在训练过程中可以计算语音幅度谱特征图的非邻域相关性，从而更加有利于网络关注到语音的谐波特性。本文将时频注意力机制引入卷积循环网络的编码层和解码层中，实验结果表明，在不同信噪比条件下，该方法相比基线卷积循环网络能够进一步提高语音质量和可懂度，且增强后的语音信号可以保留更多的语谱谐波信息，实现更低程度的语音失真。相似文献

2.

一种用于语音增强的卷积门控循环网络

下载免费PDF全文

袁文浩胡少东时云龙李钊梁春燕《电子学报》2020,48(7):1276-1283

为了充分利用含噪语音特征来提高语音增强网络的性能,基于含噪语音在时间和频率两个维度上的相关性,本文结合卷积神经网络的局部特征提取能力和门控循环单元的长期依赖建模能力,设计了一种适用于语音增强的卷积门控循环网络.该网络采用卷积网络结构代替全连接网络结构来改进门控循环单元中的特征计算过程,从而能够更好地保留含噪语音特征中的时频结构信息.实验结果表明,与其它语音增强网络相比,本文网络在语音成分的保留和噪声成分的抑制上具有明显优势,增强后语音具有更好的语音质量和可懂度. 相似文献

3.

融合自注意力的卷积门控循环网络语音增强

胡少东袁文浩时云龙《电讯技术》2022,62(7):953-958

语音时频特征的时间依赖性、局部相关性、全局相关性等特性,使得传统的神经网络结构与时频域语音增强任务无法完全相适应。针对这一问题,首先利用卷积层代替门控循环单元网络中的全连接层,构成卷积门控循环网络,解决门控循环单元网络在时间维度建模时无法提取频率维度局部相关性的问题;又因卷积层无法提取频率维度的全局相关性,进一步利用注意力机制关注全局相关性的能力,解决卷积门控循环网络无法关注频率维度全局相关性的问题,最后提出了一种深度融合自注意力机制的自注意-卷积门控循环网络。实验证明,该网络通过关注时频域特征的多种特性,有效地提升了语音增强性能。相似文献

4.

基于深度学习的电子散斑干涉条纹图相位恢复

张芳李文恒王雯赵芮《激光与光电子学进展》2023,(16):98-107

针对单幅电子散斑干涉条纹图的相位恢复问题，以U-Net为基础网络，融合子像素卷积模块和结构化特征增强模块，提出了USS-Net，实现对单幅条纹图端到端的相位恢复。首先改进上采样方式，采用子像素卷积使网络能学习到更多的条纹细节信息，同时降低反卷积零值填充对梯度计算的影响。其次在编码部分改进特征融合方式，采用结构化特征增强模块，充分融合不同尺度的特征信息，解决条纹疏密程度不均导致特征提取不佳的问题，进而提升对单个像素点的分割准确性。建立了ESPI条纹-相位仿真和实验数据集，对USS-Net模型进行测试与分析，验证所提方法的有效性。所提方法克服了传统相位恢复方法过程繁琐、容易受噪声干扰等缺点，有效提高了单幅条纹图相位恢复的准确率。相似文献

5.

基于３Ｄ倒谱特征和注意力机制的ＣＮＮ－ＢｉＬＳＴＭ语音情感识别

下载免费PDF全文

夏玉果杜静赵力《电子器件》2022,45(6):1434-1440

为了进一步提升语音情感特征的区别性,提出一种基于3D倒谱特征和注意力机制的语音情感识别方法。在提取典型特征MFCC的基础上,融合其一阶和二阶差分形成动态的3D倒谱特征矢量,然后利用卷积神经网络和双向长短期记忆网络搭建双向循环卷积神经网络(CNN-BiLSTM)进行长时建模,并利用注意力机制,进一步增强语音关键性情感特征的权重。实验结果表明,该方法能聚焦特征的有用信息,从而有效提高语音情感识别的准确率,在汉语情感语料库CASIA的准确率达到90.48%。相似文献

6.

利用深度全卷积编解码网络的单通道语音增强

下载免费PDF全文

时文华张雄伟邹霞孙蒙《信号处理》2019,35(4):631-640

针对传统的神经网络未能对时频域的相关性充分利用的问题，提出了一种利用深度全卷积编解码神经网络的单通道语音增强方法。在编码端，通过卷积层的卷积操作对带噪语音的时频表示逐级提取特征，在得到目标语音高级特征表示的同时逐层抑制背景噪声。解码端和编码端在结构上对称，在解码端，对编码端获得的高级特征表示进行反卷积、上采样操作，逐层恢复目标语音。跳跃连接可以很好地解决极深网络中训练时存在的梯度弥散问题，本文在编解码端的对应层之间引入跳跃连接，将编码端特征图信息传递到对应的解码端，有利于更好地恢复目标语音的细节特征。对特征融合和特征拼接两种跳跃连接方式、基于L1和 L2两种训练损失函数对语音增强性能的影响进行了研究，通过实验验证所提方法的有效性。相似文献

7.

残差膨胀卷积结构下的多模态特征调制方式识别

下载免费PDF全文

左晓亚张俊杰姚如贵樊晔蒋丽凤《信号处理》2023,(11):2013-2021

自动调制方式识别技术在通信领域有着不可或缺的作用,针对传统的卷积神经网络在信号分类问题中特征提取能力不足的问题,本文研究了一种利用多维度特征的端到端双流膨胀卷积神经网络来对调制信号进行分类的方法。该方法不仅利用原始采样信号,还利用输入信号的瞬时幅度和相位信息;原始IQ(In-phase and Quadrature, IQ)数据输入进神经网络后,网络首先通过内置的数据预处理模块对输入的IQ信号进行预处理,提取原始信号的幅度和相位信息,再将原始IQ信号和幅度相位两种特征信息分别通过两个并行的卷积神经网络结构分别进行特征提取;本文所设计的双流卷积神经网络模型中的膨胀残差网络分支利用卷积核的膨胀卷积特性,将膨胀卷积与残差网络结构相结合,在网络参数不变的情况下使得卷积核具有更大的感受野,同时也能够更好地结合上下文信息,另一个网络分支是将卷积神经网络与长短期记忆神经网络相串联,然后将两个并行卷积神经网络的输出特征向量进行矩阵相乘达到两种特征信息融合的目的。整个识别过程是基于端到端的,数据预处理模块内嵌到神经网络内部,由神经网络完成对数据的预处理,只需将原始的IQ数据直接送入神经网络即可;仿真实验... 相似文献

8.

一种基于卷积神经网络的端到端语音分离方法

下载免费PDF全文

范存航刘斌陶建华温正棋易江燕《信号处理》2019,35(4):542-548

大部分的语音分离系统仅仅增强混合的幅值谱（短时傅里叶变换的系数），但是对于相位谱却不做任何处理。然而，最近的研究表明相位信息对于语音分离的质量起着很重要的作用。为了同时利用幅值和相位信息，本文提出了一种有效的端到端分离方法。这种方法是直接利用原始语音波行点作为特征，是一种基于编解码器的卷积神经网络结构。跟其他的说话人独立的语音分离系统不同，本文提出的方法其神经网络只输出一个说话人的信号，其他的语音可以由混合语音与网络输出信号的差值获得。我们在TIMIT数据集上验证本文提出的方法。实验结果表明，本文提出的方法明显优于句子级别的排列不变性训练(uPIT)基线方法，对于信号失真比(SDR)相对提高了16.06%。相似文献

9.

基于CRNN混合神经网络的多语种识别

王瑶龙华邵玉斌杜庆治王延凯《光电子．激光》2022,33(6):620-628

在语种识别过程中,为提取语音信号中的空间特征以及时序特征,从而达到提高多语种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型。该模型首先提取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN) 提取低维度的空间特征;再通过空间金字塔池化层(spatial pyramid pooling layer,SPP layer) 对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经网络(recurrenrt neural network,CNN) 来判别语种信息。为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3% 和6.1%。相似文献

10.

面向旋翼飞机螺旋桨干扰的AM通信语音信号智能增强方法

田斌鹏董文方张昆周良辰文飞《电讯技术》2022,62(7):947-952

为改善旋翼飞机空地语音通信质量,针对旋翼飞机螺旋桨造成的幅度调制(Amplitude Modulation, AM)信号复杂多频干扰以及恶劣机舱背景噪声,提出了一种通信语音时频掩膜智能增强方法,从而实现对机舱噪声与复杂干扰的有效抑制。该方法首先对原始时域语音信号进行分帧与加窗,通过短时傅里叶变换获取幅度谱与相位谱;然后将原始幅度谱作为网络输入,采用深度神经网络分析其语音信号的特征,采用长短期记忆网络挖掘语音信号的时序上下文信息,实现对语音时频掩膜的准确估计,并将其用于增强原始幅度谱以得到网络输出;最后结合原始相位谱,通过逆短时傅里叶变换获得增强后的时域语音信号。仿真与实际测试表明,该方法可有效抑制旋翼飞机环境下的干扰噪声,提高通信语音信号质量。相似文献

11.

基于升降编解码全卷积神经网络语音增强技术

孙立辉曹丽静张竟雄《智能计算机与应用》2021,11(2):19-22

步兵战车强噪声背景下由于强背景噪声的存在,既影响了口令识别的正确率,又降低了指挥所后台监听的清晰度,为了提高语音质量,本文对口令数据进行增强处理.为此,本文提出了一种基于升降编解码全卷积神经网络(Increase De-crease Encoder Decode Convolution Neural Network,I... 相似文献

12.

一种融合相位估计的深度卷积神经网络语音增强方法

下载免费PDF全文

袁文浩梁春燕夏斌孙文珠《电子学报》2018,46(10):2359-2366

在时频域的语音增强中,幅度估计和相位估计都是影响语音增强性能的重要因素.为了在基于深度学习的语音增强方法中融合对相位的估计,本文将含噪语音短时傅里叶变换（STFT）的实部和虚部特征作为两个通道输入深度卷积神经网络,通过建立一个同步估计纯净语音STFT的实部和虚部特征的多任务学习模型,实现了对幅度和相位的同步估计.实验结果表明,相比仅考虑幅度估计的方法,本文方法具有更好的噪声抑制能力,在低信噪比条件下,显著提高了语音增强性能. 相似文献

13.

SiamMBFAN: Siamese tracker with multi-branch feature aggregation network

《Journal of Visual Communication and Image Representation》2022

Siamese trackers have attracted considerable attention in the field of object tracking because of their high precision and speed. However, one of the main disadvantages of Siamese trackers is that their feature extraction network is relatively single. They often use AlexNet or ResNet50 as the backbone network. AlexNet is shallow and thus cannot easily extract abundant semantic information, whereas ResNet50 has many convolutional layers, reducing the real-time performance of Siamese trackers. We propose a multi-branch feature aggregation network with different designs in the shallow and deep convolutional layers. We use the residual module to build the shallow convolutional layers to extract textural and edge features. The deep convolution layers, designed with two independent branches, are built with residual and parallel modules to extract different semantic features. The proposed network has a depth of only nine modules, and thus it is a simple and effective network. We then apply the network to a Siamese tracker to form SiamMBFAN. We design multi-layer classification and regression subnetworks in the Siamese tracker by aggregating the last three modules of the two branches, improving the localization ability of the tracker. Our tracker achieves a better balance between performance and speed. Finally, SiamMBFAN is tested on four challenging benchmarks, including OTB100, VOT2016, VOT2018, and UAV123. Compared with other trackers, our tracker improves by 7% (OTB100). 相似文献

14.

基于CNN-SVM性别组合分类的单通道语音分离

下载免费PDF全文

孙林慧张蒙梁文清《信号处理》2022,38(12):2519-2531

实际语音分离时,混合语音的说话人性别组合相关信息往往是未知的。若直接在普适的模型上进行分离,语音分离效果欠佳。为了更好地进行语音分离,本文提出一种基于卷积神经网络-支持向量机（CNN-SVM）的性别组合判别模型,来确定混合语音的两个说话人是男-男、男-女还是女-女组合,以便选用相应性别组合的分离模型进行语音分离。为了弥补传统单一特征表征性别组合信息不足的问题,本文提出一种挖掘深度融合特征的策略,使分类特征包含更多性别组合类别的信息。本文的基于CNN-SVM性别组合分类的单通道语音分离方法,首先使用卷积神经网络挖掘梅尔频率倒谱系数和滤波器组特征的深度特征,融合这两种深度特征作为性别组合的分类特征,然后利用支持向量机对混合语音性别组合进行识别,最后选择对应性别组合的深度神经网络/卷积神经网络（DNN/CNN）模型进行语音分离。实验结果表明,与传统的单一特征相比,本文所提的深度融合特征可以有效提高混合语音性别组合的识别率;本文所提的语音分离方法在主观语音质量评估（PESQ）、短时客观可懂度（STOI）、信号失真比（SDR）指标上均优于普适的语音分离模型。相似文献

15.

利用奇异谱分析的深度神经网络语音增强方法

下载免费PDF全文

王骞何培宇徐自励《信号处理》2020,36(6):902-910

针对现有深度神经网络语音增强方法对带噪语音的去噪能力有限、语音质量提升不高的问题，提出了一种基于奇异谱分析的深度神经网络语音增强方法。通过引入奇异谱分析算法对带噪语音进行预处理，以初步分离得到语音信号与噪声。接着将语音信号与噪声用于深度神经网络模型得训练，以得到性能更优的网络模型，从而使得本文方法具有更好的性能。最后在重建干净语音的环节中，同时使用神经网络估计得到的对数功率谱和带噪语音的对数功率谱，并加入了权重系数，使得本文提出的方法可以适应不同信噪比的情形，有效的去除背景噪声，降低语音信号的失真。本文通过仿真实验验证了该方法的有效性和鲁棒性。相似文献