共查询到20条相似文献,搜索用时 109 毫秒
1.
2.
3.
4.
5.
基于压缩感知观测序列倒谱距离的语音端点检测算法 总被引:2,自引:0,他引:2
本文基于语音信号在离散余弦基上的近似稀疏性,采用稀疏随机观测矩阵和线性规划重构算法对语音信号进行压缩感知与重构。研究了语音信号的压缩感知观测序列特性,根据语音帧和非语音帧压缩感知观测序列频谱幅度分布分散且差异较大的特性,提出基于压缩感知观测序列倒谱距离的语音端点检测算法,并对4dB-20dB下的带噪语音进行端点检测仿真实验。仿真结果显示,基于压缩感知观测序列倒谱距离的语音端点检测算法与奈奎斯特采样下语音的倒谱距离端点检测算法一样具有良好的抗噪性能,但由于采用压缩采样,减少了端点检测算法的运算数据量。 相似文献
6.
Teager能量算子是近年来提出的非线性方法,具有跟踪时变信号的特点,该文结合该算子和经验模态分解方法,提出一种新的语音端点检测算法,用于寻找合理的语音起始和终止端点。该算法利用经验模态分解,提出本征模态函数的有效性筛选条件,通过筛选本征模态函数,使得该算法能够处理含噪语音信号,同时分解所得单模态特性正好满足TEO算子对单成份能量跟踪的要求,最后利用Hilbert变换解决了可能存在的模态混叠问题。经过这些处理,算法能够处理语音信号中清音段的端点标识,比直接TEO、双门限法效果好。通过大量实验验证了该算法的有效性。 相似文献
7.
语音信号的长时信息应用于话音激活检测中表现优越.利用三种听觉滤波器组,对语音信号进行非线性的谱分解,本文提出了六种基于听觉滤波器组的长时信息,并提出了基于长时信息的自适应话音激活检测算法.该算法无需训练数据,根据多种长时信息,直接在待测信号中挑选出类别明确的信号,然后利用这些信号训练分类模型,对待测信号按帧进行语音-非语音分类.在TIMIT语音库和NOISEX-92噪声库上的实验表明,该算法在极低信噪比环境下,仍表现出更高的准确性和更强的稳健性.同时,在线实验表明,算法在实时处理中仍能取得优异的性能. 相似文献
8.
9.
语音激活检测在移动通信中具有重要的意义和广泛的应用,对语音处理的效果也有关键性的影响。本文针对移动通信应用场合的特点,研究了一种计算复杂度很低的语音激活检测算法,使用短时能量、平均过零率和平均幅度差三种时域特征门限进行多级检测。该算法在大信噪比下可以获得较好的检测结果,而且实时性较好。本文介绍了算法的信号处理流程、门限计算方法、部分实现细节以及实验结果。 相似文献
10.
提出一种基于非对称代价函数的稀疏卷积非负矩阵分解方法。该方法利用板仓-斋藤距离作为目标代价函数来衡量目标矩阵与重建矩阵的差异,使得较小的矩阵元素具有较小的重建误差,并且该代价函数具有尺度不变性的特点。为了考察其在弱语音成分重建方面的优势,将本文提出的算法应用于耳语音谱分解及重建实验。实验结果表明,与基于欧氏距离和基于Kullback-Leibler(K-L)散度的卷积非负矩阵分解算法相比,本文算法对于弱语音成分具有更好的重构效果,重建后的语音信号具有较大的可懂度。 相似文献
11.
12.
为了有效抑制非平稳背景噪音对语音处理系统的严重干扰,提出了一种基于长短时能量均值的活动语音检测算法。该算法基于两个合理的假设,一个是基于语音隐含成分集的稀疏分解,不但能尽可能地深留含噪语音中的语音信息,还能在一定程度上消除非语音类噪音的干扰;另一个是对上述稀疏分解的语音进行重构,该重构信号中语音段的时域能量高于非语音段的时域能量。在上述两个假设的基础上,采用重构信号的时域能量作为音频特征,以当前帧为中心,并将与其相邻的特定数量帧的短时能量均值作为当前帧的得分值;以当前帧及其之前特定数量帧的长时能量均值怍为判决阈值,进而提出了以当前帧的短时能量均值和长时能量均值大小作为判断条件的活动语音检测算法。买验结果显示,该算法能有效地区分低信噪比(平稳噪音和忙平稳噪音)条件下的语音和非语音片段,并且其性能优于基于单Gaussian分布的似然比算法. 相似文献
13.
针对常规二元麦克风小阵列话音增强算法通常需要话音活动检测技术支持,并且难以有效抑制第一帧含目标信号的噪声。提出了一种基于多任务稀疏表达的二元麦克风小阵列话音增强算法,首先利用字典学习方法分别获得目标信号和噪声信号的过完备字典,然后利用 混合范数对信号在其字典上的表示系数进行正则化稀疏约束,使得2个阵元接收到信号中的噪声信号被抑制,而话音信号尽量保持不变,从而达到话音增强的目标。仿真和实验数据表明,无论开始位置是否含有目标话音信号,所提出的非话音活动检测支持的二元麦克风小阵列话音增强算法均能有效实现话音增强的目标。 相似文献
14.
首先总结了几种常见的语音活动检测(VAD)方法,然后从计算每帧每个频率点的语音存在概率出发.提出了一种新的VAD方法,并就其中的一些参数选择问题进行了讨论。最后给出新方法与传统方法实验结果对比。 相似文献
15.
通过讨论纯净语音分量的概率分布特征以及相邻分量间的统计相关特性,在自适应K-L变换(KLT,Karhunen-Loève Transform)域给出了一种新的语音信号统计模型,然后基于该信号模型,利用最大后验(MAP,Maximum a Posterior)估计理论提出了一种新型的单通道语音增强算法.该算法充分考虑到在KLT域相邻时刻语音分量间存在的相关信息,利用信号的高斯模型假设条件,以联合概率密度函数的形式将这种相关信息融合到MAP中,获得纯净语音分量的估计.算法不仅结构简单利于实现,且有效地避免了传统算法对语音分量估计的不足.仿真结果表明本文算法在客观和主观测试中都具有较好的语音增强效果. 相似文献
16.
Datao You Jiqing Han Guibin Zheng Tieran Zheng Jie Li 《Circuits, Systems, and Signal Processing》2014,33(7):2267-2291
Traditionally, most of voice activity detection (VAD) methods are based on speech features such as spectrum, temporal energy, and periodicity. The robustness of these features plays a critical role on the performance of VAD. However, since these features are always directly generated from observed signal, the robustness of these features would be significantly degraded in non-stationary noise environments, especially at low level signal-to-noise ratio (SNR) condition. This paper proposes a kind of robust feature for VAD based on sparse representation with an optimized learned dictionary. To do so, a speech dictionary and a noise dictionary are first learned from speech corpus and noise corpus, respectively. Then an optimization algorithm is designed to reduce the mutual coherence between the two learned dictionaries. After that the proposed feature is generated from the optimized dictionary-based sparse representation, and a VAD method is derived from the proposed feature. The proposed method is evaluated over seven types of noise and four types of SNR level, experimental results show that the optimized dictionary is important for enhancing the robustness of the proposed method, and the proposed method performs well under non-stationary noise, especially at low level SNR condition. 相似文献
17.
针对现有双通道语音活动检测(Voice Activity Detection, VAD)算法依赖于固定阈值难以在多种噪声环境下准确地检测语音和噪声,应用于手机消噪系统会造成语音失真或噪声消除不好等问题,该文提出一种基于神经网络的VAD算法,该算法以分频带能量差和归一化互通道相关为特征,采用神经网络对语音和噪声进行分类。在此基础上,将神经网络VAD与基于互通道信号功率比值的VAD相结合,提出一种新的适用于手机消噪系统的语音和噪声活动检测算法分别对语音和噪声进行检测,并以此进行噪声抑制处理,减少了消噪系统因VAD误判而造成的性能下降。实验结果表明,该处理方法在抑制背景噪声和减少语音失真等方面优于现有的消噪算法,对于方向性语音干扰也有很好的抑制效果。 相似文献
18.
19.
20.
Shota Morita Masashi Unoki Xugang Lu Masato Akagi 《Journal of Signal Processing Systems》2016,82(2):163-173
Voice activity detection (VAD) is used to detect speech and non-speech periods from observed speech signals. It is an important front-end technique for many speech technology applications. Many VAD methods have been proposed. However most of them have been applied under clean or noisy conditions. Only a few methods have been proposed for reverberant conditions, particularly under noisy reverberant conditions. We therefore need to understand the ill effects of noise and reverberation on speech to design an accurate and robust method of VAD under noisy reverberant conditions. The ill effects of noise and reverberation for speech can be regarded as the modulation transfer function (MTF) under noisy and reverberant conditions. Therefore, our study is based on the MTF concept to reduce the ill effects of noise and reverberation on speech, and propose a robust VAD method that we obtained in this study. Noise reduction and dereverberation were first applied to the temporal power envelope of the speech signal to restore the temporal power envelope with this method. Then, power thresholding as a VAD decision was designed based on the restored temporal power envelope. A method of estimating the signal to noise ratio (SNR) was proposed to accurately estimate the SNR in the noise reduction stage. Experiments under both artificial and realistic noisy reverberant conditions were carried out to evaluate the performance of the proposed method of VAD and it was compared with conventional VAD methods. The results revealed that the proposed method significantly outperformed the conventional methods under artificial and realistic noisy reverberant conditions. 相似文献