首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进Transformer模型的多声源分离方法
引用本文:曾援,李剑,马明星,庞润嘉,贺斌.基于改进Transformer模型的多声源分离方法[J].计算机技术与发展,2024(5):60-65.
作者姓名:曾援  李剑  马明星  庞润嘉  贺斌
作者单位:1. 中北大学信息与通信工程学院;2. 中北大学省部共建动态测试技术国家重点实验室
基金项目:国家自然基金青年科学基金(61901419);
摘    要:目前主流的语音分离算法模型都是基于复杂的递归网络或Transformer网络,Transformer网络复杂度高导致训练难度大以及音频的高采样率导致在样本级别上使用超长输入从而获取不完全特征,不能直接对长语音特征序列进行直接建模出现特征丢失问题。对此,该文提出了一种基于Transformer的改进网络模型。首先,在原有Transformer网络模型编码器里新添加下采样块,计算不同时间尺度上的高级特征同时降低特征空间复杂度;其次,在Transformer网络模型的解码器里添加上采样层与编码器下采样层特征融合保证特征不丢失,提高模型分离能力;最后,在模型分离层里引入一种改进的滑动窗口注意力机制,滑动窗口使用循环移位技术,新的特征窗口中包含老的特征窗口特征同时融合特征边缘信息完成了特征窗口之间的信息交互,获得特征编码以及特征位置编码同时提高特征信息之间的相关系数。实验表明,使用SI-SNR评价标准达到13.5 dB,使用SDR评价指标达到14.1 dB,分离效果优于之前的方法。

关 键 词:上下采样层  Transformer  特征编码  滑动窗口注意力机制  深度学习
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号