排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
由于环境声音复杂的结构,环境声音识别是一个具有挑战性的问题。本文提出一种将特征融合与改进卷积神经网络算法相结合的环境音识别方法。首先针对原始音频文件,提取从波形中学习到的特征以及传统音频特征,分别为MFCC(梅尔倒谱系数)、GFCC(伽玛通频率倒谱系数)、频谱对比度和CQT(恒定Q变换);然后将提取到的特征分别输入到端到端的神经网络SF-CNN和多尺度卷积神经网络MS-CNN中进行识别;最后根据D-S证据理论决策规则进行决策级融合,输出最终识别结果。通过在公开数据集ESC-50进行的实验结果表明,本文提出的模型能够提高识别准确率,且优于单特征模型,更适用于复杂的声学场景。 相似文献
2.
针对语音去噪问题,提出一种基于循环生成对抗网络(CycleGAN)的方法来对声音场景中的语音进行去噪。该方法把CycleGAN的网络模型与不同领域间的语音转换技术进行结合与优化,通过提取语音频谱包络特征,对语音进行编码与解码的处理,旨在用先进的生成技术实现语音端到端的去噪,从而简化语音去噪过程中带来的高阶差异问题,同时泛化其应用场景。通过对非平行数据集和平行数据集进行训练与测试,主要比较该方法与传统CycleGAN的语音去噪方法下的去噪效果,由实验结果得到PESQ、NR、SSNR这3项指标分别相对提高了8.49%、6.53%、23.30%,有效地解决了实际场景中的非平行语音去噪问题。 相似文献
1