共查询到10条相似文献,搜索用时 937 毫秒
1.
杨雪霁 《自动化与仪器仪表》2023,(8):286-290
针对传统英语对话系统受环境噪声影响,出现多人混合语音分离现象,造成多人英语语音识别和对话效果降低的问题,提出一种基于深度学习的语音增强和传统阵列信号处理的多人英语语音分离系统。首先,采用基于长短时记忆网络LSTM的多目标语音增强算法捕捉英语语音序列的长时特性;然后建立一个两阶段的单通道多人语音分离框架提取目标说话人语音;最后将提取语音与阵列算法进行融合,并通过空间信息实现目标说话人英语语音精确估计。结果表明,相较于DNN-DM模型和LSTM-IRM模型,提出的LSTM-DM模型的信噪比指标明显更高,此模型的平均PESQ由2.66提升至2.95,增益为0.074%。由此说明,LSTM-DM模型的英语语音去噪和语音增强效果更好。提出的特定说话人前端系统的英语语音对话词错误率为65.3%,对比于Officoal Beamformlt系统和CGMM3Mask Fusion模型下降了14.6%和5.1%。说明此系统可实现多人混合英语语音分离,具备一定的有效性。 相似文献
2.
《电子制作.电脑维护与应用》2020,(15)
针对四元麦克风阵列结构,提出了一种可在嘈杂环境下有效提升语音识别系统性能的频域自适应噪声抵消语音增强方法。该算法对阵型设计和阵列失配有十分好的鲁棒特性,便于在各种设备及使用场景下使用。仿真结果表明,在无需噪声统计特性等先验信息的情况下,算法能显著改善麦克风阵列的噪声抑制效果,有效的提升智能交互设备的唤醒率和识别率。 相似文献
3.
4.
5.
6.
本文构建了基于麦克风阵列的语音盲信号分离DSP实验平台,重点介绍了麦克风阵列的时分多路以及DMA结合McBSP的数据双向传输技术. 相似文献
7.
针对许多基于训练模型的计算机听觉场景分析系统,在解决双说话人混合语音信号分离时需要依赖样本训练的有效性以及说话人的先验知识,提出一种基于聚类的单声道混合语音分离系统。系统先利用多基音跟踪算法对语音信号进行分析并产生同时流,然后通过最大化类内散布矩阵与类间散布矩阵的迹,搜索同时流的最佳分类,最终完成对双说话人的语音分离。该系统不需要训练语音模型,并且有效地改善了在双说话人混合语音信号的分离效果,为双说话人的语音分离提供了新的思路。 相似文献
8.
为了提高多个说话人情况下麦克风阵列的定位性能,提出基于子带可控响应功率的多声源定位算法。该算法将语音信号频域分为7个子带,在每个子带计算相位变换加权的可控响应功率函数,在声源空间搜索其最大值得到声源位置的初始估计。根据语音信号频率的稀疏性,这些初始估计包含多个声源的位置,运用会聚聚类算法得到最终的声源位置估计。仿真和实验表明,在有2个说话人,10 dB信噪比,较强混响的条件下,该算法比传统算法的定位正确率提高了约4%,额外率降低了约7%。 相似文献
9.
在连续语音识别系统中,针对复杂环境(包括说话人及环境噪声的多变性)造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。 相似文献
10.
针对麦克风阵列信号子空间语音增强算法的不足, 结合人耳的听觉掩蔽效应, 提出了改进的信号子空间算法. 提出了通过置信度判断来确定噪声子空间维度的方法, 在噪声子空间上, 通过条件概率的方法估计出噪声功率谱. 在此基础上, 结合人耳的听觉掩蔽效应给出了线性滤波器的一种合理估计. 实验结果表明所提的方法相对于传统算法, 更有效地抑制了噪声, 在多项语音质量评价指标上都有明显的改进. 相似文献