一种基于LSTM-RNN的喉振传声器语音盲增强算法 |
| |
作者姓名: | 郑昌艳 张雄伟 曹铁勇 杨吉斌 孙蒙 |
| |
作者单位: | 陆军工程大学,南京,210007 |
| |
基金项目: | 国家自然科学基金(61471394,61402519)资助项目。 |
| |
摘 要: | 喉振传声器以其优良的抗噪声特性已在多种强噪声场景中得到应用,但其产生的语音尚存在着中频成份厚重、高频成份缺失等问题,严重影响了语音的清晰度和可懂度。为改善喉振传声器的语音质量,本文提出了一种基于长短时记忆递归神经网络(Long short term memory recurrent neural networks, LSTM-RNN)的喉振传声器语音盲增强算法。与基于低维的谱包络特征估计算法不同,该算法首先利用LSTM-RNN对喉振传声器语音与空气传导语音的高维对数幅度谱之间的转换关系进行建模,能有效捕捉上下文信息实现语音幅度谱的重构,然后采用非负矩阵分解(Non-negative matrix factorization, NMF)对估计出的语音幅度谱进行处理,有效抑制了过平滑问题,进一步提高了语音质量。仿真实验得到的LLR,LSD,PESQ性能指标表明,该算法可有效改善喉振传声器的语音质量。
|
关 键 词: | 喉振传声器 语音盲增强 递归神经网络 长短时记忆 非负矩阵分解 |
收稿时间: | 2018-03-18 |
修稿时间: | 2018-05-07 |
|
| 点击此处可从《数据采集与处理》浏览原始摘要信息 |
|
点击此处可从《数据采集与处理》下载全文 |
|