首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 137 毫秒
1.
毛维  曾庆宁  龙超 《声学技术》2018,37(3):253-260
针对复杂噪声环境下识别性能显著降低的问题,提出一种用于说话人识别系统前端的双微阵列语音增强算法。该算法采用的是相干滤波和频域宽带最小方差无畸变响应波束形成器后置结合改进的维纳滤波器。其基本原理是首先求出双微麦克风阵列信号中两个相邻通道间的相干函数,再利用通道间信号的相干性来进行初始噪声抑制。其次,通过一个频域宽带最小方差无畸变响应(Minimum Variance Distortionless Response,MVDR)波束形成器保留目标声源方向的信号并抑制其他方向的信号干扰,再通过改进的维纳滤波器去除噪声残留提升语音质量。最后,使用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)和伽马通滤波器组频率倒谱系数(Gammatone Filter-bank Frequency Cepstral Coefficients,GFCC)对增强后的语音信号做特征参数提取并进行说话人识别。仿真过程采用声学人工头模拟双耳采集数据,实验结果表明,该语音增强算法在复杂噪声环境下能够获得较好的增强效果,能有效提升说话人识别系统的识别率。  相似文献   

2.
后端滤波处理是多通道语音增强系统中一种比较常用的技术,其目的是为了进一步提高语音增强系统的性能,提高波束形成后的输出信噪比。但是,常用的后滤波方法需要相当繁琐的参数调整过程才能实现噪声抑制和语音质量之间的合理权衡。本文提出一种基于最小方差无畸变(MVDR)波束形成和生成对抗深层神经网络相结合的多通道语音增强算法。前端使用波束形成器对信号进行初步增强;后端滤波处理采用生成对抗深层神经网络,避免了繁琐的参数调整过程。实验系统是通过MATLAB和Tensor Flow仿真实现,结果证明了该方法的有效性。  相似文献   

3.
针对噪声环境下语音识别率急剧下降的问题,提出了一种基于语音时频域稀疏性原理的改进最小方差无畸变响应波束形成与改进维纳滤波结合的算法。该算法首先利用麦克风阵列语音信号的空间信息,通过基于时频掩蔽的改进最小方差无畸变响应波束形成器,增强目标声源方向的语音信号,抑制其他方向噪声的干扰,然后再使用改进的维纳滤波器去除残留噪声并提高语音可懂度,对增强后的语音信号提取梅尔频率倒谱系数作为特征参数,使用隐马尔可夫模型搭建语音识别系统。实验结果表明,该方法能够有效提高低信噪比环境下的语音识别率,具有较好的鲁棒性。  相似文献   

4.
基于子空间方法的语音增强算法研究   总被引:1,自引:0,他引:1  
给出了一种基于子空间方法的语音信号增强处理算法,该算法提供了在语音信号失真和残留噪声之间进行控制的机制,克服了以往语音增强算法中对语音信号的噪声特点的限制,可以对混有加性白噪声、有色噪声和音乐噪声的语音信号进行增强处理。  相似文献   

5.
曹文婧  朱敏  武岩波 《声学技术》2017,36(5):473-478
船舶噪声是影响水下语音通信质量的主要因素。为了提高单边带语音信号的信噪比和语音质量,采用多通道自适应增强算法对语音信号进行研究。该算法运用自适应信号增强技术,具有运算量小、易实时实现、消噪效果显著等优点,并且能够有效利用不同换能器接收到的信息。从理论上对该算法进行了分析,并结合海试数据进行验证。结果表明,低信噪比、非平稳噪声环境下,该算法有效抑制了接收信号中的尖锐噪声,并且当系统收敛时,使其趋于白化,明显提高了系统的输出信噪比,显著改善了语音质量,在性能上明显优于传统的信号相干叠加算法。  相似文献   

6.
邱作春  曾庆宁 《声学技术》2008,27(1):119-125
介绍了自适应宽带波束形成和快速独立分量分析的基本理论和算法,分析了固定波束形成的理论局限性及自适应宽带波束形成的优越性。提出了一种基于自适应波束形成和独立分量分析的消噪系统,算法显著地抑制了噪声、增强了语音,又具有稳定快速的性能。同时分析了自适应波束形成单元数或者输入信号数对算法性能的影响,对实际应用具有指导意义。  相似文献   

7.
刘野  戎海龙  陈阳 《声学技术》2023,42(4):547-551
由于水声环境的复杂性,阵列的噪声分布可能是非一致性的。当阵元噪声功率各不相同时,阵列协方差矩阵特征分解得到的特征子空间与真实目标的特征子空间之间存在误差,导致特征子空间波束形成算法的性能衰减。文章提出了一种新的非一致性噪声条件下特征子空间的估计方法,将阵列协方差矩阵对角线置0,进行特征分解估计的特征子空间将不受阵元噪声非一致性的影响。将该方法应用到特征空间波束形成算法,提高了非一致性噪声条件下特征空间波束形成算法的方位分辨能力。仿真和实验结果验证了所提方法的可行性和有效性。  相似文献   

8.
为解决常规时域波束形成技术抗噪声能力弱、对弱目标检测能力差的问题,利用高斯噪声的高阶累积量(三阶及三阶以上)为零、非高斯信号的高阶累积量不为零这一性质,对常规时域波束形成后输出的波束信号进行后置处理。首先,对常规时域波束形成后输出的各预成波束信号,分别求其四阶累积量切片谱值;然后,再对各四阶累积量切片谱值分别进行能量累加,得到空间谱图;最后,通过对空间谱在时间上的累积,得到方位历程图。用仿真和海试数据对算法进行了验证:在低信噪比情况下,常规算法不能有效检测到弱目标时,经后置处理后可以有效检测到弱目标。结果表明,与常规时域波束形成算法相比,波束形成后再进行切片谱后置处理的算法增强了对噪声的抑制能力,提高了对弱目标的检测能力。  相似文献   

9.
给出了一种基于迭代最小二乘并行计算进行广义特征矢量矩阵分解的语音增强算法.这种算法不需要假定噪声类型(白噪声或有色噪声),也无需话音的活动监测,以递推更新的方式实现含噪语音信号和噪声信号的同时对角化,弥补了其它子空间算法在收敛速度和收敛精度上的不足,仿真结果证明了本算法的有效性。  相似文献   

10.
驾驶员语音增强质量的评价指标是保证语音增强算法性能的关键,而现有的语音增强质量评价方法不能准确地反映人对声音感知的主观性。针对上述问题,分析了言语可懂度指数对语音增强算法评价的适用性,并在某品牌汽车上进行实验。通过在汽车内建立均匀线性传声器阵列来对驾驶员语音进行信号采集,然后利用波束形成算法对阵列中不同传声器组合的语音信号进行增强,得到汽车在不同行驶速度时不同阵列组合的语音增强结果。使用信噪比和言语可懂度指数分别对实验得到的语音增强结果进行评价,结果表明言语可懂度指数更适合评价汽车内驾驶员的语音增强算法的性能。  相似文献   

11.
语音增强在语音信号处理的前端非常重要,直接影响后端语音识别等效果。目前用神经网络进行单通道语音分离对于解决鸡尾酒会问题取得了很大的进步,但是用于复杂混合语音时分离效果仍不令人满意。针对单通道情形下的不足,使用多通道结构形成4个方向的超指向波束,结合神经网络算法实现对于指定方向的目标语音增强。仿真和实验结果表明,该算法相较于超指向波束形成算法和谱减法在多种评价指标上均有了明显的提升。  相似文献   

12.
叶琪  陶亮  周健  王华彬 《声学技术》2016,35(3):254-259
为提高低信噪比环境下的语音可懂度,提出了一种基于联合失真控制的子空间语音增强算法。由于误差信号中的语音失真和残余噪声分量不能被同时最小化,同时,由语音估计器引起的语音放大失真超过6.02 d B时会严重损害语音可懂度。为此分别对语音失真和残余噪声进行最小化处理,最小化时把语音放大失真控制在6.02 d B以下作为约束条件,通过求解两个约束最优化问题得到两个不同的估计器,再对这两个估计器进行加权求和,得到一种基于联合失真控制的语音估计器。实验结果表明,相比于传统的子空间增强方法,在低信噪比环境下所提出的算法能更有效提高增强后语音的可懂度。  相似文献   

13.
针对噪声环境下说话人识别率较低的问题,提出一种基于正规化线性预测功率谱的说话人识别特征。首先对语音信号线性预测分析和正规化处理求出语音频谱包络,然后通过伽马通滤波器组得到对数子带能量,最后对特征参数进行离散余弦变换,得到了一种说话人识别特征正规化线性预测伽马通滤波器倒谱系数(Regularized Linear Prediction Gammatone Filter Cepstral Coefficient,RLP-GFCC)。仿真结果表明,在噪声环境说话人辨认试验中,相比传统特征美尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)和伽马通滤波器倒谱系数(Gammatone Filter Cepstral Coefficient,GFCC)的系统识别率得到了明显提高,对噪声环境的鲁棒性得到了增强。  相似文献   

14.
单通道语音信号在信噪比较大的环境下经过增强后再识别,能表现出较高的识别率。但是在低信噪比环境下,增强后语音信号的识别率急剧下降。针对此种情况,提出了一种用在识别系统前端的语音增强算法,该增强算法将采集到的带噪语音信号先使用对数最小均方误差(Logarithmic Minimum Mean Square Error,Log MMSE)提高其信噪比,然后再利用改进的维纳滤波去除噪声残留并提升语音可懂度,最后用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和隐马尔科夫模型(Hidden Markov Model,HMM)对增强后的语音信号做特征提取并识别。实验分析结果表明,该方法能有效地抑制背景噪声并减少噪声残留,显著提升低信噪比环境下语音识别的准确性。  相似文献   

15.
Abstract

This paper presents a method of speaker identification over telephone system based on channel‐effect cancellation. A set of inverse channel spectra is chosen as the basis for generating a channel‐effect‐cancellation filter. The speaker identification scheme is based on vector quantization where the codebooks of each speaker are trained without channel effect. When the speech signal of a speaker goes through the telephone system, a proper channel‐effect‐cancellation filter is generated to minimize the channel effect on the speech signal. The experiments show that the channel effect is mostly contributed by telephone handsets rather than by the transmission lines. By using the proposed method, an identification rate of 93.8% can be achieved for 100 speaker tests.  相似文献   

16.
针对语音情感识别任务中特征提取单一、分类准确率低等问题,提出一种3D和1D多特征融合的情感识别方法,对特征提取算法进行改进。在3D网络,综合考虑空间特征学习和时间依赖性构造,利用双线性卷积神经网络(Bilinear Convolutional Neural Network,BCNN)提取空间特征,长短期记忆网络(Short-Term Memory Network,LSTM)和注意力(attention)机制提取显著的时间依赖特征。为降低说话者差异的影响,计算语音的对数梅尔特征(Log-Mel)和一阶差分、二阶差分特征合成3D Log-Mel特征集。在1D网络,利用一维卷积和LSTM的框架。最后3D和1D多特征融合得到判别性强的情感特征,利用softmax函数进行情感分类。在IEMOCAP和EMO-DB数据库上实验,平均识别率分别为61.22%和85.69%,同时与提取单一特征的3D和1D算法相比,多特征融合算法具有更好的识别性能。  相似文献   

17.
Speaker separation in complex acoustic environment is one of challenging tasks in speech separation. In practice, speakers are very often unmoving or moving slowly in normal communication. In this case, the spatial features among the consecutive speech frames become highly correlated such that it is helpful for speaker separation by providing additional spatial information. To fully exploit this information, we design a separation system on Recurrent Neural Network (RNN) with long short-term memory (LSTM) which effectively learns the temporal dynamics of spatial features. In detail, a LSTM-based speaker separation algorithm is proposed to extract the spatial features in each time-frequency (TF) unit and form the corresponding feature vector. Then, we treat speaker separation as a supervised learning problem, where a modified ideal ratio mask (IRM) is defined as the training function during LSTM learning. Simulations show that the proposed system achieves attractive separation performance in noisy and reverberant environments. Specifically, during the untrained acoustic test with limited priors, e.g., unmatched signal to noise ratio (SNR) and reverberation, the proposed LSTM based algorithm can still outperforms the existing DNN based method in the measures of PESQ and STOI. It indicates our method is more robust in untrained conditions.  相似文献   

18.
在话者自动辨认系统中,话者数量是决定辨认时间的最主要因素。因而在大数量注册话者的辨认中如何减少辨认所需要的运算时间是一个关键问题。针对这一问题,提出了一种新的基于"码袋"的话者模型设计算法,它通过统计"码袋"中每个码字在话者语音中的概率分布来实现话者模型的设计。实验结果表明该算法在保证较高辨认率的同时,有效地降低了话者自动辨认系统的计算复杂度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号