首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
闫昭宇  王晶 《信号处理》2020,36(6):863-870
语音增强的目的是从带有噪声的语音中分离出纯净语音,实现语音的质量和可懂度的提高。近年来,采用有监督学习的深度神经网络已经成为了语音增强的主流方法。卷积循环网络是一种新型的神经网络结构,包含编码层、中间层、解码层三个主要模块,其已经在语音增强任务中取得了较好的效果。时频注意力机制是一个由数个相连的卷积层通过跳跃连接构成的简单网络模块,在训练过程中可以计算语音幅度谱特征图的非邻域相关性,从而更加有利于网络关注到语音的谐波特性。本文将时频注意力机制引入卷积循环网络的编码层和解码层中,实验结果表明,在不同信噪比条件下,该方法相比基线卷积循环网络能够进一步提高语音质量和可懂度,且增强后的语音信号可以保留更多的语谱谐波信息,实现更低程度的语音失真。   相似文献   

2.
大部分的语音分离系统仅仅增强混合的幅值谱(短时傅里叶变换的系数),但是对于相位谱却不做任何处理。然而,最近的研究表明相位信息对于语音分离的质量起着很重要的作用。为了同时利用幅值和相位信息,本文提出了一种有效的端到端分离方法。这种方法是直接利用原始语音波行点作为特征,是一种基于编解码器的卷积神经网络结构。跟其他的说话人独立的语音分离系统不同,本文提出的方法其神经网络只输出一个说话人的信号,其他的语音可以由混合语音与网络输出信号的差值获得。我们在TIMIT数据集上验证本文提出的方法。实验结果表明,本文提出的方法明显优于句子级别的排列不变性训练(uPIT)基线方法,对于信号失真比(SDR)相对提高了16.06%。   相似文献   

3.
为了将源说话人的语音特征进行转换,使得听起来像是目标说话人的语音,本文提出了一种同语种的说话人转换算法。算法分为两个部分,一是利用高斯混合模型进行谱包络的转换,采用改进的方法对模型进行训练,去除语音数据时间对齐不准确的影响;二是基于高斯混合模型分类器和残差码本对残差信号预测。算法还对转换语音进行了后续处理,增强了语音的自然度。非正式的听觉测试表明,在利用时间不长的语音数据训练后,此算法可以进行说话人的转换,转换语音明显带有目标说话人的特征,且具有较高的可懂度。  相似文献   

4.
精准农业是指信息技术与农业生产全面结合的新型农业。农作物信息和数据是精准农业中最核心的内容,通常使用无人机遥感技术获取农作物信息和数据。文中首先利用无人机采集农田数据,并根据地面参考数据以及相关资料,利用人工标注构建无人机遥感农田样本数据集,利用数据增强的策略扩充样本数据集;其次,提出一种改进的U-Net模型,即自注意力U-Net模型,将其应用于农作物分类。所提模型在传统U-Net的基础上加入自注意力机制,能够提高模型的特征学习能力以及泛化能力。使用所提方法在无人机遥感农田数据集上进行实验得出,与基线模型相比,所提模型能够提升农作物分类性能。  相似文献   

5.
针对传统深度神经网络语音增强算法未区分在不同信噪比环境中去噪的侧重点,同时考虑到预测相位信息对于语音增强的重要性,提出了时频掩码优化的两阶段语音增强算法.第一阶段将带噪语音的幅度谱特征输入深度神经网络进行训练,预测得到干净语音幅度谱和噪声幅度谱;第二阶段通过信噪比信息估计增益系数,以控制残留噪声和语音失真之间的平衡;同...  相似文献   

6.
如何提高对未知噪声类型的泛化能力是有监督语音增强方法中亟待解决的重要问题,通过对大量不同类型噪声进行建模,深度神经网络成为了解决该问题的有效手段.为了进一步提高基于深度神经网络的语音增强方法的泛化能力,本文基于生成式对抗网络(Generative Adversarial Networks,GAN)设计了能够由真实噪声数据生成新的噪声类型的NoiseGAN;通过在训练集中增加生成噪声类型,提高训练集噪声类型的多样性,从而达到提高语音增强模型泛化能力的目的.不同结构的网络下的语音增强实验结果表明,本文提出的NoiseGAN能够生成新的噪声类型,具备提高训练集噪声类型多样性的能力,有效提高了语音增强模型在未知噪声类型下的泛化能力.  相似文献   

7.
自从注意力机制在自然语言处理领域取得了巨大成功,其被引入了语音情感识别任务中,使各种语音情感识别模型的性能获得了提高。为了能在深度循环神经网络中更加高效地利用注意力机制,对传统的注意力机制进行了推广,提出了基于分段的注意力机制,并将其应用于深度循环神经网络中。在CASIA语音情感数据集上的实验结果证明,这一方法能够有效提高模型性能,并大幅提高模型训练速度。  相似文献   

8.
王涛  全海燕 《信号处理》2020,36(6):1013-1019
基于深度神经网络的语音分离方法大都在频域上进行训练,并且在训练过程中往往只关注目标语音特征,不考虑干扰语音特征。为此,提出了一种基于生成对抗网络联合训练的语音分离方法。该方法以时域波形作为网络输入,保留了信号时延导致的相位信息。同时,利用对抗机制,使生成模型和判别模型分别训练目标语音和干扰语音的特征,提高了语音分离的有效性。实验中,采用Aishell数据集进行对比测试。结果表明,本文所提方法在三种信噪比条件下都有良好的分离效果,能更好地恢复出目标语音中的高频频段信息。   相似文献   

9.
夏玉果  杜静赵力 《电子器件》2022,45(6):1434-1440
为了进一步提升语音情感特征的区别性,提出一种基于3D倒谱特征和注意力机制的语音情感识别方法。在提取典型特征MFCC的基础上,融合其一阶和二阶差分形成动态的3D倒谱特征矢量,然后利用卷积神经网络和双向长短期记忆网络搭建双向循环卷积神经网络(CNN-BiLSTM)进行长时建模,并利用注意力机制,进一步增强语音关键性情感特征的权重。实验结果表明,该方法能聚焦特征的有用信息,从而有效提高语音情感识别的准确率,在汉语情感语料库CASIA的准确率达到90.48%。  相似文献   

10.
针对目前说话人确认系统中前端特征的语音信号样点间结构信息缺失问题,提出了跨域注意力特征融合的说话人确认方法。首先,提出了一种基于图信号处理的图频域特征提取方法来有效利用语音信号的结构信息,将语音信号帧的每个样点作为图节点,构建语音图信号,通过图傅里叶变换以及滤波器组提取图频域特征。其次,提出了一种由残差模块与挤压-激励模块构成的注意力特征融合网络,对传统时频域特征与图频域特征进行跨域融合,来提升说话人确认系统的性能。最后,在Vox Celeb、SITW和CN-Celeb数据集上进行实验。实验结果表明,所提方法在等错误率以及最小检测代价函数的评价指标上,优于基线模型ECAPA-TDNN。  相似文献   

11.
成帅  张海剑  孙洪 《信号处理》2019,35(4):601-608
本文提出了一种结合鲁棒时变滤波和时频掩码的语音增强方法。首先在带噪语音的时频域中,结合图像处理方法估计出初始瞬时频率信息。然后基于该瞬时频率信息,利用鲁棒时变滤波算法构建降噪后的语音信号。最后根据重构语音的时频特征预测时频掩码。该掩码在带噪语音的时频域中能够有效地保留语音成分且抑制噪声成分,从而达到语音增强的目的。实验结果表明,在几种常见背景噪声环境下,所提语音增强算法在抑制背景噪声干扰、提升语音整体质量方面表现良好,尤其是在低信噪比环境下具有明显的优势。   相似文献   

12.
为了充分利用含噪语音特征来提高语音增强网络的性能,基于含噪语音在时间和频率两个维度上的相关性,本文结合卷积神经网络的局部特征提取能力和门控循环单元的长期依赖建模能力,设计了一种适用于语音增强的卷积门控循环网络.该网络采用卷积网络结构代替全连接网络结构来改进门控循环单元中的特征计算过程,从而能够更好地保留含噪语音特征中的时频结构信息.实验结果表明,与其它语音增强网络相比,本文网络在语音成分的保留和噪声成分的抑制上具有明显优势,增强后语音具有更好的语音质量和可懂度.  相似文献   

13.
当前基于预训练说话人编码器的语音克隆方法可以为训练过程中见到的说话人合成较高音色相似性的语音,但对于训练中未看到的说话人,语音克隆的语音在音色上仍然与真实说话人音色存在明显差别。针对此问题,本文提出了一种基于音色一致的说话人特征提取方法,该方法使用当前先进的说话人识别模型TitaNet作为说话人编码器的基本架构,并依据说话人音色在语音片段中保持不变的先验知识,引入一种音色一致性约束损失用于说话人编码器训练,以此提取更精确的说话人音色特征,增加说话人表征的鲁棒性和泛化性,最后将提取的特征应用端到端的语音合成模型VITS进行语音克隆。实验结果表明,本文提出的方法在2个公开的语音数据集上取得了相比基线系统更好的性能表现,提高了对未见说话人克隆语音的音色相似度。  相似文献   

14.
马璐 《红外技术》2022,44(4):410-420
成像系统实时采集的低光照环境图像具有照度低、噪声严重、视觉效果差等问题,为了提高低光照环境成像质量,本文提出基于多尺度小波U型网络的低光照图像增强方法.该方法采用多级编解码器构建U型网络,并引入小波变换构建特征分频单元,分离高频和低频信息,增强对低频照度特征和高频纹理信息的感知.设计多尺度感知损失函数,指导网络学习低频...  相似文献   

15.
杨真真  孙雪  邵静  杨永鹏 《信号处理》2022,38(9):1912-1921
为了提高U-Net网络性能的同时尽可能减少额外计算量,本文提出了一种新的多尺度偶数卷积注意力U-Net (Multiscale Even Convolution Attention U-Net, MECAU-Net)网络。该网络在编码端采用2×2偶数卷积代替3×3卷积进行特征提取,并借鉴多尺度思想,采用4×4偶数卷积将得到的信息直接传递给主干部分,以获取更全面的图像信息并减少额外计算开销,同时还采用对称填充解决偶数卷积提取信息过程中产生的偏移问题。此外,在2×2偶数卷积模块后加入卷积注意力模块,结合空间和通道注意力,在提取更丰富的信息的同时几乎不增加额外开销。最后,在两个医学图像数据集上进行仿真实验,实验结果表明提出的MECAU-Net网络相对于U-Net在稍微增加计算成本的情况下,分割性能得到了较大的提升,并比其他对比网络取得更好的分割性能的同时还降低了参数量。   相似文献   

16.
时文华  张雄伟  邹霞  孙蒙 《信号处理》2019,35(4):631-640
针对传统的神经网络未能对时频域的相关性充分利用的问题,提出了一种利用深度全卷积编解码神经网络的单通道语音增强方法。在编码端,通过卷积层的卷积操作对带噪语音的时频表示逐级提取特征,在得到目标语音高级特征表示的同时逐层抑制背景噪声。解码端和编码端在结构上对称,在解码端,对编码端获得的高级特征表示进行反卷积、上采样操作,逐层恢复目标语音。跳跃连接可以很好地解决极深网络中训练时存在的梯度弥散问题,本文在编解码端的对应层之间引入跳跃连接,将编码端特征图信息传递到对应的解码端,有利于更好地恢复目标语音的细节特征。 对特征融合和特征拼接两种跳跃连接方式、基于L1和 L2两种训练损失函数对语音增强性能的影响进行了研究,通过实验验证所提方法的有效性。   相似文献   

17.
为改善旋翼飞机空地语音通信质量,针对旋翼飞机螺旋桨造成的幅度调制(Amplitude Modulation,AM)信号复杂多频干扰以及恶劣机舱背景噪声,提出了一种通信语音时频掩膜智能增强方法,从而实现对机舱噪声与复杂干扰的有效抑制。该方法首先对原始时域语音信号进行分帧与加窗,通过短时傅里叶变换获取幅度谱与相位谱;然后将原始幅度谱作为网络输入,采用深度神经网络分析其语音信号的特征,采用长短期记忆网络挖掘语音信号的时序上下文信息,实现对语音时频掩膜的准确估计,并将其用于增强原始幅度谱以得到网络输出;最后结合原始相位谱,通过逆短时傅里叶变换获得增强后的时域语音信号。仿真与实际测试表明,该方法可有效抑制旋翼飞机环境下的干扰噪声,提高通信语音信号质量。  相似文献   

18.
频域的语音信号盲源分离多采用短时傅里叶变换以及Wigner-Ville分布(WVD)求信号的功率谱,而短时傅里叶变换对于多分量信号的频率分辨率受窗函数影响很大,WVD是一种非线性时频变换,处理多分量信号受交叉项影响很大。局部多项式傅里叶变换(LPFT)不仅提高了频率估计精度而且大大减少了时频分布中交叉项的影响。将语音信号表示为多分量的多项式相位信号,对语音信号作二阶LPFT,求得其局部多项式傅里叶变换谱(LPP),并构造时频矩阵,采用联合近似对角化算法求得能使信号功率谱矩阵近似对角化的一个酉矩阵,通过信号的白化以及酉矩阵来估计源信号,有效地分离出了原始信号。仿真结果表明,在噪声环境下可以将两个不同的语音信号进行分离。  相似文献   

19.
李洪伟  马琳  李海峰 《信号处理》2023,39(4):639-648
语音是人类表达思想和感情交流最重要的工具,是人类文化的重要组成部分。语音情感识别作为情感计算中的重要课题已经成为国际上的研究热点,受到越来越多的关注。已有神经科学研究表明,大脑是产生调节情感的物质基础。因此,在语音情感的研究中,我们不能仅考虑语音信号自身,还应将大脑的活动信号融入语音情感识别中,以实现更高准确率的情感识别。基于上述思想,本文提出了一种基于核典型相关分析(KCCA)的语音特征提取方法。该方法将语音特征与脑电图(EEG)特征映射到高维希尔伯特空间,并计算二者的最大相关系数。KCCA将语音特征在高维希尔伯特空间上向与脑电特征相关性最大的方向投影,最终得到包含脑电信息的语音特征。本文方法将与语音情感相关的脑电信息融入语音情感特征提取中,所提特征能够更准确的表征情感。同时,本方法在理论上具有良好的可迁移性,当所提脑电特征足够准确与具有代表性时,KCCA建模得到的投影向量具有通用性,可直接用于新的语音情感数据集中而无需重新采集和计算相应的脑电信号。在自建语音情感数据库与公开语音情感数据库MSP-IMPROV上的实验结果表明,使用投影语音特征进行语音情感分类的方法优于使用原始音频特征...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号