摘 要: | 针对声纹识别任务在含噪背景下鲁棒性欠佳的问题,文章提出了一种基于TDNN改进的含噪声纹识别方法。该算法先提取说话人音频的梅尔频谱,利用自注意力机制(SE)使得网络更加聚焦于重要特征,引入残差连接(Res)修正梅尔频谱与输出层的特征损失信息,一定程度缓解神经网络退化的问题,使用多层特征聚合(MFA)密集连接输出特征,生成关注统计池的特征,最终生成一种强鲁棒性的声纹特征。在AISHELL-ASR0009含噪数据集进行实验表明:与BaseTDNN相比,i-TDNN算法的识别准确率提升16.63%,验证了此算法在含噪背景下的鲁棒性。
|