基于图注意力网络和门控网络的轻量级单通道语音分离方法 |
| |
引用本文: | 余传旗, 郭海燕, 王婷婷, 等. 基于图注意力网络和门控网络的轻量级单通道语音分离方法[J]. 信号处理, 2025, 41(4): 706-717. DOI: 10.12466/xhcl.2025.04.011. |
| |
作者姓名: | 余传旗 郭海燕 王婷婷 王景润 杨震 |
| |
作者单位: | 1.南京邮电大学通信与信息工程学院,江苏 南京 210003;2.南京邮电大学通信与网络技术国家地方联合工程研究中心,江苏 南京 210003 |
| |
基金项目: | 国家自然科学基金(62071242)~~; |
| |
摘 要: |  语音分离旨在从包含多个说话人的混合语音中分离出各个源语音,是多说话人场景下语音处理类任务的重要前端。目前,基于深度学习的语音分离取得了显著进展,但随着模型性能的不断提升的同时,模型的参数量和推理时间也显著增加。针对此问题,本文综合考虑模型效率与分离性能,提出一种基于图注意力网络(Graph Attention Network,GAT)和门控网络(Gated Network, GN)的轻量级语音分离模型(称为GGN-Papez)。该方法基于轻量级、高效的基线模型Papez,引入GAT处理听觉记忆块内存储的全局信息,并使用GN生成掩码,来提升基线模型Papez的性能。具体地,假定所有记忆令牌之间均存在连接,利用GAT计算令牌间的注意力得分,并采用阈值过滤策略裁剪掉得分较低的边,生成新的邻接矩阵。再利用此邻接矩阵聚合记忆令牌所存储的全局信息,以提取出更有效的上下文信息,提高模型对全局特征的理解能力。在此基础上,考虑到Papez使用的掩码生成模块为表达能力有限的双层全连接前馈神经网络,本文提出使用具备更强特征选择能力的GN替代原有模块,以生成更符合源语音特征的掩码。所提模型GGN-Papez在基准数据集WSJ0-2Mix和Libri2Mix上进行了实验,实验结果表明所提方法在增加很少参数量的情况下,显著提升了分离语音的尺度不变信噪比(Scale Invariant Signal-to-Noise Ratio, SI-SNR)。此外,本文还设计了消融实验验证GAT和GN对整体模型性能的影响,并从推理时间和语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)得分等方面综合地对所提模型的性能进行了分析。

|
关 键 词: | 语音分离 轻量级模型 图神经网络 图注意力网络 门控机制 |
收稿时间: | 2024-12-23 |
|
| 点击此处可从《信号处理》浏览原始摘要信息 |
|
点击此处可从《信号处理》下载免费的PDF全文 |
|