首页 | 本学科首页   官方微博 | 高级检索  
     

基于图注意力网络和门控网络的轻量级单通道语音分离方法
引用本文:余传旗, 郭海燕, 王婷婷, 等. 基于图注意力网络和门控网络的轻量级单通道语音分离方法[J]. 信号处理, 2025, 41(4): 706-717. DOI: 10.12466/xhcl.2025.04.011.
作者姓名:余传旗  郭海燕  王婷婷  王景润  杨震
作者单位:1.南京邮电大学通信与信息工程学院,江苏 南京 210003;2.南京邮电大学通信与网络技术国家地方联合工程研究中心,江苏 南京 210003
基金项目:国家自然科学基金(62071242)~~;
摘    要:
语音分离旨在从包含多个说话人的混合语音中分离出各个源语音,是多说话人场景下语音处理类任务的重要前端。目前,基于深度学习的语音分离取得了显著进展,但随着模型性能的不断提升的同时,模型的参数量和推理时间也显著增加。针对此问题,本文综合考虑模型效率与分离性能,提出一种基于图注意力网络(Graph Attention Network,GAT)和门控网络(Gated Network, GN)的轻量级语音分离模型(称为GGN-Papez)。该方法基于轻量级、高效的基线模型Papez,引入GAT处理听觉记忆块内存储的全局信息,并使用GN生成掩码,来提升基线模型Papez的性能。具体地,假定所有记忆令牌之间均存在连接,利用GAT计算令牌间的注意力得分,并采用阈值过滤策略裁剪掉得分较低的边,生成新的邻接矩阵。再利用此邻接矩阵聚合记忆令牌所存储的全局信息,以提取出更有效的上下文信息,提高模型对全局特征的理解能力。在此基础上,考虑到Papez使用的掩码生成模块为表达能力有限的双层全连接前馈神经网络,本文提出使用具备更强特征选择能力的GN替代原有模块,以生成更符合源语音特征的掩码。所提模型GGN-Papez在基准数据集WSJ0-2Mix和Libri2Mix上进行了实验,实验结果表明所提方法在增加很少参数量的情况下,显著提升了分离语音的尺度不变信噪比(Scale Invariant Signal-to-Noise Ratio, SI-SNR)。此外,本文还设计了消融实验验证GAT和GN对整体模型性能的影响,并从推理时间和语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)得分等方面综合地对所提模型的性能进行了分析。


关 键 词:‍‍语音分离  轻量级模型  图神经网络  图注意力网络  门控机制
收稿时间:2024-12-23
点击此处可从《信号处理》浏览原始摘要信息
点击此处可从《信号处理》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号