首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
针对现有文本生成图像模型存在训练效率低下、生成图像分辨率较低以及图像不真实等问题,本文提出一种基于条件增强和注意力机制的深度融合生成对抗网络模型。该模型由文本处理网络和生成对抗网络两部分组成。文本处理网络采用双向长短期记忆网络对文本进行编码,通过条件增强模块增加文本词语对应的特征数据,丰富文本语义特征。在生成对抗网络中,文本特征与视觉特征进行融合,通过使用注意力机制从通道和空间两个维度对输出特征进行调整,使生成网络关注文本描述的重要特征并抑制不必要特征,最终得到生成图像。通过判别器对生成图像与真实图像进行判别,并设计对抗损失函数对网络模型进行优化。在MSCOCO和CUB birds 200两个数据集上进行训练与测试,实验结果表明,与其他模型相比该模型具有明显优势。  相似文献   

2.
电影经历了百余年的历史,一些记录老电影音频的感光胶片由于受到时间侵蚀和人为损坏,产生了霉斑、划痕等痕迹,导致还音时出现了背景噪声,影响听感.目前国内外针对老电影的音频修复主要依靠人工,工作量大、修复周期长.深度学习的发展使机器在音频修复方面代替人工成为可能.本文将基于生成对抗网络的语音增强模型SEGAN应用于老电影音频...  相似文献   

3.
康峥  黄志华  赖惠成 《声学技术》2022,41(6):862-870
随着压缩感知的深入研究,压缩感知在语音增强方面的应用也备受关注。针对传统压缩感知语音增强算法中存在的不足,将压缩感知与深度学习结合构建名为基于深度压缩感知的语音增强模型(Speech Enhancement based on Deep Compressed Sensing, SEDCS)。基于压缩感知原理使用编解码模型代替压缩感知中语音信号稀疏过程,使用卷积神经网络代替测量矩阵实现语音信号观测降维过程,通过联合训练的方式实现语音增强。实验结果表明:该模型能够完成语音增强任务,并且与现有的压缩感知语音增强算法相比,该模型能取得较好的语音增强效果;相比利用深度学习的语音增强算法,该模型虽性能一般,但在模型泛化性能和测试阶段的增强时间效率上有一定提升。  相似文献   

4.
语音信号因背景噪声失真会对语音清晰度和语音质量产生影响.语谱图中语音表现为有规律的图像前景,噪声表现为较为均匀的图像背景.以语谱图为媒介提出了一种基于二次引导图像滤波的语音增强方法,利用跨模态处理技术进行语音增强.其基本原理是利用图像处理技术中的引导图像滤波得到受损语音的语谱图到增强语音的语谱图映射,并直接从受损语音及增强语音的语谱图中计算出增益函数而无需进行噪声估计.为了准确去除语谱图中的噪声,在一次引导图像滤波的基础上引入二次引导图像滤波模型,并利用粒子群算法进行参数优化.实验表明,所提方法可以获得更高的信噪比和更好的语音质量,对降低信号失真和抑制噪声有明显效果.  相似文献   

5.
针对当前对抗训练(AT)中存在的鲁棒过拟合问题,即在对抗训练超过一定轮次后,网络模型对抗防御能力出现不升反降的现象,本文提出了一种基于结构相异性非范数约束增强的对抗训练方法(DSSIM-AT)。该方法将非范数约束引入到对抗训练过程中用于对抗样本生成,根据样本间的结构相异度剔除对抗样本中的无语义特征,使得生成的对抗样本更适合于对抗训练。该方法进一步设计了梯度异步更新机制,优化对抗样本生成与模型参数更新耗时问题。实验结果表明,该方法可有效缓解对抗训练鲁棒过拟合情况,相比于已有对抗训练方法,可以将CIFAR-10数据集上的干净样本识别准确率提高约3%,同时对抗样本识别准确率提高约4%~8%。  相似文献   

6.
基于子空间方法的语音增强算法研究   总被引:1,自引:0,他引:1  
给出了一种基于子空间方法的语音信号增强处理算法,该算法提供了在语音信号失真和残留噪声之间进行控制的机制,克服了以往语音增强算法中对语音信号的噪声特点的限制,可以对混有加性白噪声、有色噪声和音乐噪声的语音信号进行增强处理。  相似文献   

7.
针对基于数据驱动的柴油机故障诊断方法在训练数据匮乏时易过拟合、准确率低的问题,提出一种基于人工数据融合的数据增强方法,实现训练数据的增广。该方法将Wasserstein距离与梯度惩罚法引入辅助分类生成对抗网络(auxiliary classifier generative adversarial network,ACGAN),解决原始ACGAN训练不稳定的问题;将优化前后的ACGAN生成的两种人工数据按比例引入原始训练集中,从强化原有数据和优化诊断网络判定范围两个角度对训练集进行数据增强。经柴油机故障诊断试验验证,采用该方法对训练集进行数据增强后,在不同故障类型下的诊断准确率均有明显提高,且效果优于其他对比方法。  相似文献   

8.
为了抑制谱减法语音增强时引入的“音乐噪声”,采用基于后验信噪比频域迭代算法的语音增强方法。首先,当后验信噪比大于20dB时,对含噪语音采用谱过减法;当后验信噪比小于20dB时,对含噪语音谱线进行衰减处理。为了进一步抑制音乐噪声,对增强语音信号进行多次频域迭代降噪处理。对实验室环境录制的不同输入信噪比条件下的含噪语音信号进行处理,与传统谱减法相比,增强语音信号的信噪比有较大的提高,并且音乐噪声得到很大程度的抑制。  相似文献   

9.
孔德廷 《声学技术》2020,39(2):208-213
提出了一种基于对数谱估计的改进型语音增强算法。相对于传统语音增强算法,在语音信号存在不确定的条件下,利用软判决增益因子修正技术调正带噪语音信号的对数谱幅度,抑制背景噪声。引入的改进型先验信噪比估计和语音信号先验不存在概率估计方法,能够有效地估计得出语音信号的存在概率,进而求得语音信号存在时的谱增益因子函数,联合语音信号不存在时设定的增益因子函数加权求得谱增益函数。计算机仿真表明,即使在低信噪比条件下,输入背景噪声为高斯白噪声和粉红噪声等加性白噪声时,所提算法对噪声的抑制效果非常明显,且有效地克服了传统算法中引入的“音乐噪声”和语音信号畸变。  相似文献   

10.
传统的语音情感识别方式采用的语音特征具有数据量大且无关特征多的特点,因此选择出与情感相关的语音特征具有重要意义。通过提出将注意力机制结合长短时记忆网络(Long Short Term Memory, LSTM),根据注意力权重进行特征选择,在两个数据集上进行了实验。结果发现:(1)基于注意力机制的LSTM相比于单独的LSTM模型,识别率提高了5.4%,可见此算法有效提高了模型的识别效果;(2)注意力机制是一种有效的特征选择方法。采用注意力机制选择出了具有实际物理意义的声学特征子集,此特征集相比于原有公用特征集在降低了维数的情况下,提高了识别准确率;(3)根据选择结果对声学特征进行分析,发现有声片段长度特征、无声片段长度特征、梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)、F0基频等特征与情感识别具有较大相关性。  相似文献   

11.
许铭  王冬霞  周城旭  张伟 《声学技术》2019,38(5):560-567
针对单通道非负矩阵分解语音增强算法忽略相位信息的问题,提出了一种改进的Kullback-Leibler复非负矩阵分解的语音增强算法。该算法考虑到传统非负矩阵分解算法在复频域中增强语音时目标函数的影响,构建了一种适用于复频域的Kullback-Leibler散度下的目标函数,同时采用频谱一致性约束相位谱补偿算法,使其重构出的语音数据相位谱得到进一步的调制。实验结果表明,对于不同的非平稳噪声,所提出的算法在不同信噪比下均取得了较好的语音增强效果,尤其在低信噪比条件下(0 dB以下)语音增强效果较为明显,性能评估指标的增量较高,较好地克服了由传统相位谱补偿算法造成的信源失真率较低的缺点,进一步减少失真,抑制背景噪声,实现语音增强。  相似文献   

12.
驾驶员语音增强质量的评价指标是保证语音增强算法性能的关键,而现有的语音增强质量评价方法不能准确地反映人对声音感知的主观性。针对上述问题,分析了言语可懂度指数对语音增强算法评价的适用性,并在某品牌汽车上进行实验。通过在汽车内建立均匀线性传声器阵列来对驾驶员语音进行信号采集,然后利用波束形成算法对阵列中不同传声器组合的语音信号进行增强,得到汽车在不同行驶速度时不同阵列组合的语音增强结果。使用信噪比和言语可懂度指数分别对实验得到的语音增强结果进行评价,结果表明言语可懂度指数更适合评价汽车内驾驶员的语音增强算法的性能。  相似文献   

13.
语音增强在语音信号处理的前端非常重要,直接影响后端语音识别等效果。目前用神经网络进行单通道语音分离对于解决鸡尾酒会问题取得了很大的进步,但是用于复杂混合语音时分离效果仍不令人满意。针对单通道情形下的不足,使用多通道结构形成4个方向的超指向波束,结合神经网络算法实现对于指定方向的目标语音增强。仿真和实验结果表明,该算法相较于超指向波束形成算法和谱减法在多种评价指标上均有了明显的提升。  相似文献   

14.
基于改进的Kalman滤波的语音增强算法   总被引:1,自引:1,他引:0       下载免费PDF全文
余华  陈国明  赵力  邹采荣 《声学技术》2009,28(6):763-767
传统的kalman滤波方法在推导过程中假定观测噪声为白噪声。通常对于有色噪声需要用白噪声激励的方法予以模拟,并且需要以牺牲运算量作为代价。本文提出了一种改进的基于kalman滤波的语音增强算法,可以处理白噪声和有色噪声情况,不需要增加计算量,仿真结果表明了该算法对有色噪声的语音增强性能要优于基于传统kalman滤波方法。  相似文献   

15.
毛维  曾庆宁  龙超 《声学技术》2018,37(3):253-260
针对复杂噪声环境下识别性能显著降低的问题,提出一种用于说话人识别系统前端的双微阵列语音增强算法。该算法采用的是相干滤波和频域宽带最小方差无畸变响应波束形成器后置结合改进的维纳滤波器。其基本原理是首先求出双微麦克风阵列信号中两个相邻通道间的相干函数,再利用通道间信号的相干性来进行初始噪声抑制。其次,通过一个频域宽带最小方差无畸变响应(Minimum Variance Distortionless Response,MVDR)波束形成器保留目标声源方向的信号并抑制其他方向的信号干扰,再通过改进的维纳滤波器去除噪声残留提升语音质量。最后,使用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)和伽马通滤波器组频率倒谱系数(Gammatone Filter-bank Frequency Cepstral Coefficients,GFCC)对增强后的语音信号做特征参数提取并进行说话人识别。仿真过程采用声学人工头模拟双耳采集数据,实验结果表明,该语音增强算法在复杂噪声环境下能够获得较好的增强效果,能有效提升说话人识别系统的识别率。  相似文献   

16.
叶琪  陶亮  周健  王华彬 《声学技术》2016,35(3):254-259
为提高低信噪比环境下的语音可懂度,提出了一种基于联合失真控制的子空间语音增强算法。由于误差信号中的语音失真和残余噪声分量不能被同时最小化,同时,由语音估计器引起的语音放大失真超过6.02 d B时会严重损害语音可懂度。为此分别对语音失真和残余噪声进行最小化处理,最小化时把语音放大失真控制在6.02 d B以下作为约束条件,通过求解两个约束最优化问题得到两个不同的估计器,再对这两个估计器进行加权求和,得到一种基于联合失真控制的语音估计器。实验结果表明,相比于传统的子空间增强方法,在低信噪比环境下所提出的算法能更有效提高增强后语音的可懂度。  相似文献   

17.
首先设计了适用于骨导语音增强的语料采集方案,采集了1 320句涵盖音节全面的语料,并制定了相应的录音规范;其次介绍了骨导语音库建立的意义,说明了语音库建立的实施方案,建成了由40个说话人录制的包括气导语音和骨导语音各8 000句的语音库;然后在对比骨导语音与气导语音声学特性的基础上,分析了骨气导语音在高频和低频的互信息量,为骨导语音的增强提供了理论依据;最后基于现阶段的研究及文中构建的语音库对今后的研究做出展望。  相似文献   

18.
介绍语音增强的原理和从强噪声背景中提取语音信号的方法,并对基于减谱法的增强算法、基于自适应滤波法的增强算法和基于小波变换的增强算法进行对比研究。鉴于语音增强算法的两个目标即增强语音的清晰度与理解度并不是相关联的,有时甚至相互矛盾,因此任何一个语音增强算法都是根据不同的应用做适当的选择和折衷。基于此,对三种算法进行仿真实验的比较研究,实验结果证明应用小波变换的语音增强算法比其它的方法更有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号