期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

薛卫都思丹叶迎宪《计算机工程》2009,35(13):232-233

针对静音检测提出基于小波变分辨率频谱特征的检测算法。算法采用多门限过零率对静音进行初判,并提取多个语音感觉特征与基于小波变分辨率频谱的Mel频率倒谱系数（MFCC）组合成语音特征,通过二分类支持向量机对该特征进行分类实现静音检测。测试结果表明,该算法在不同信噪比下语音识别正确率高于G.729b,MFCC特征静音检测算法,基于该算法的视频会议服务器运算量低于使用G.729b静音检测算法的视频系统。相似文献

2.

听觉系统识别语音信号的模拟

陶传会杨道淳王炜《数据采集与处理》1999,14(2):157-162

为模拟基底膜对语音信号的分析,本文提出了一种类似小波变换的时频分析方法。该方法克服了ＳＦＴ（短时Ｆｏｕｒｉｅｒ变换）分析对高、低频段具有相同的时间分辨率和频率分辨率的缺点,弥补了小波变换只能粗糙地模拟基底膜带通滤波器特性的不足。在识别阶段,本文采用了多模糊状态综合处理的识别模式,该模式有利于对各频段统计特征参数的提取和加强。实验表明,该模型具有良好的鲁棒性,较好地模拟了人的听觉系统对语音的识别过程。相似文献

3.

基于小波变换的雷达信号调制类型识别方法 总被引：1，自引：0，他引：1

下载免费PDF全文

王渝冲宿绍莹陈曾平《计算机工程》2012,38(23):166-168,172

为适应复杂环境下雷达信号脉内分析的需要,提出一种脉内调制类型识别方法。基于Morlet小波变换提取信号小波脊线,根据瞬时频率和最佳尺度的关系得到时频曲线,基于时频曲线的形状识别脉内调制类型。构造时频分辨率调节函数,优化小波脊线提取过程,提出形状识别算法,达到提高识别准确率、降低计算量的目的。仿真结果表明,信噪比为3 dB时,该算法的识别准确率在98%以上,信噪比为1 dB时,识别准确率能达到70%以上。相似文献

4.

基于分形维的语音去噪与音节分割

下载免费PDF全文

潘峰丁娜娜吕鹏申军伟《计算机工程与应用》2011,47(14):131-133

为提高现有小波去噪法的处理效果,准确有效判断出连续语音中各个音节的起止点,提出了基于分形理论的算法。该算法首先利用分形维与小波变换相结合的动态阈值算法进行语音去噪,从而提取出尽可能纯净的语音信号;在此基础上,计算分形维轨线,根据其均值对音节分割点进行判定。实验结果表明,该算法较好地实现了语音去噪和音节分割,鲁棒性较好,使得系统在低信噪比情况下仍保持较高准确率,在语音识别方面有较好应用前景。相似文献

5.

基于小波特征和多类支持向量机的病态语音识别方法

吴石耶夫戈尼耶·伊万诺维奇《计算机应用》2008,28(8):2097-2100

研究一种应用小波特征向量和多类支持向量机进行病态语音识别的方法,该方法基于连续小波变换提取语音特征向量,利用多类支持向量机进行病态语音分类。为了简化二分类支持向量机进行多类分类时所带来的计算复杂性,根据一类支持向量机分类思想提出一种多类分类算法。该算法能够使每一类样本都独立地获得一个决策函数,通过决策函数的最大值来判断样本所属的类。实验表明,在病态语音识别系统中,多类支持向量机与小波特征向量相结合具有良好的识别效果和应用价值。相似文献

6.

基于小波变换和倒谱分析的腭裂高鼻音等级自动识别

赵利博刘奇付方玲何凌《计算机科学》2018,45(4):278-284

为实现对腭裂高鼻音等级的自动识别,通过对语音信号小波处理和特征提取方法的综合研究,提出基于小波分解系数倒谱特征的腭裂高鼻音等级自动识别算法。目前,研究人员对腭裂语音的研究多基于MFCC、Teager能量、香农能量等特征,识别正确率偏低,且计算量过大。文中对4种等级腭裂高鼻音的1789个元音\a\语音数据提取小波分解系数倒谱特征参数,使用KNN分类器对4种不同等级的高鼻音进行自动识别,将识别结果与MFCC、LPCC、基音周期、共振峰和短时能量共5种经典声学特征的识别结果作比较,同时使用SVM分类器对不同等级的腭裂高鼻音进行自动识别,并与KNN分类器进行对比。实验结果表明,基于小波分解系数倒谱特征的识别结果优于经典声学特征,且KNN分类器的识别结果优于SVM分类器。小波分解系数倒谱特征在KNN中的识别率最高达到91.67%,在SVM中达到87.60%,经典声学特征在KNN分类器中的识别率为21.69%~84.54%,在SVM中的识别率为30.61%~78.24%。相似文献

7.

应用小波多分辨率理论提取个性特征的研究

下载免费PDF全文

梁慧曾水平《计算机工程与应用》2013,49(9):120-122

利用小波多分辨率的理论对语音信号进行信号分解,结合其发声特性,分析高低频段对说话人识别的贡献大小,根据识别结果的分析,提取出了可以综合识别时间和识别效率的特征参数。实验结果表明,一层分解后的小波细节系数识别率为94.4%,比原信号MFCC提高7%,而数据个数却比原信号降低了一半,二次分解后的高频段语音依然得到了较高识别率,提取出的较低频信号也可以达到70.8%的识别率。相似文献

8.

一种快速图象识别算法

王晓晖朱光喜《数据采集与处理》1996,11(4):246-248

在离散分形布朗随机场（ＤＦＢＲ）理论的基础上，提出一种多分辨率目标识别算法。该算法克服了一般分形方法在固定尺度上提取图象分形特性的缺点，它以小波分解为主要数学工具，利用随机场的功率谱特性以及相邻两级小波分量之间的能量比关系，完成了由粗到精的目标识别。该算法的最大特点是对目标大小具有自适应性，特别适合于自然场景中的多目标识别，同时也使得计算量大大减少。相似文献

9.

一种基于小波变换的指纹特征提取算法

李峰岳李星野《计算机系统应用》2012,21(1):61-64

提出了一种基于小波变换的指纹纹理特征提取算法。首先以指纹图像的核心点为中心分割出一片有效的矩形区域,然后对分割后的有效区域做二维小波分解,提取小波分解后各通道的能量值作为特征值来进行识别。与传统的基于指纹细节点的识别算法相比该算法一定程度上减少了计算量,对指纹图像的质量要求也不高,并且识别精度也得到了保证。相似文献

10.

基于小波变换的番茄缺素识别研究

吴雪梅毛罕平李天强《计算机应用与软件》2008,25(7)

在利用计算机视觉技术进行番茄缺素识别研究中,提出利用多分辨率小波分析算法提取番茄叶片的G体特征。结果表明：小波变换各分解子图的均值,方差,熵可区分正常与缺氮叶片;随着叶片含氮量的减少,小波分解子图各特征值随之变大。为利用特征值的范围,诊断叶片的缺素程度提供了技术支持。相似文献

11.

Rate Allocation for Noncollaborative Multiuser Speech Communication Systems Based on Bargaining Theory

Borgstrom B. J. van der Schaar M. Alwan A. 《IEEE transactions on audio, speech, and language processing》2007,15(4):1156-1166

We propose a novel rate allocation algorithm for multiuser speech communication systems based on bargaining theory. Specifically, we apply the generalized Kalai-Smorodinsky bargaining solution since it allows varying bargaining powers to match the dynamic nature of speech signals. We propose a novel method to derive bargaining powers based on the short-time energy of the input speech signals, and subsequently allocate rates accordingly to the users. An important merit of the proposed framework is that it is general and can be applicable for resource allocation across a variety of multirate speech coders, and it is robust to a variety of speech quality metrics. The proposed system is also shown to involve a quick and low-complexity training process. We generalize the algorithm to scenarios in which users have unequally weighted priorities. These scenarios might arise in emergency situations, in which certain users are more important than others. The proposed rate allocation system is shown to increase the utility measures for both the Itakura and segmental signal-to-noise ratio (SNR) functions relative to the baseline system that performs uniform rate allocation. Additionally, although the instantaneous bitrate resolution of the speech encoder is not changed, the proposed system is shown to increase the short-time average bitrate resolution, and therefore provides a greater number of operational rate modes for the network 相似文献

12.

语音MFCC特征计算的改进算法 总被引：1，自引：0，他引：1

章熙春曹燕张军韦岗《数据采集与处理》2005,20(2):161-165

提出了一种计算Mel频倒谱参数(Mel frequency cepstral coefficient，MFCC)特征的改进算法，该算法采用了加权滤波器分析(Wrapped discrete Fourier transform，WDFT)技术来提高语音信号低频部分的频谱分辨率，使之更符合人类听觉系统的特性。同时还运用了加权滤波器分析(Weighted filter bank analysis，WFBA)技术，以提高MFCC的鲁棒性。对TIMIT连续语音数据库中DR1集的音素识别结果表明，本文提出的改进算法比传统MFCC算法具有更好的识别率。相似文献

13.

A perceptually motivated stationary wavelet packet filterbank using improved spectral over-subtraction for enhancement of speech in various noise environments

Navneet Upadhyay Abhijit Karmakar 《International Journal of Speech Technology》2014,17(2):117-132

In this paper, we propose a speech enhancement method where the front-end decomposition of the input speech is performed by temporally processing using a filterbank. The proposed method incorporates a perceptually motivated stationary wavelet packet filterbank (PM-SWPFB) and an improved spectral over-subtraction (I-SOS) algorithm for the enhancement of speech in various noise environments. The stationary wavelet packet transform (SWPT) is a shift invariant transform. The PM-SWPFB is obtained by selecting the stationary wavelet packet tree in such a manner that it matches closely the non-linear resolution of the critical band structure of the psychoacoustic model. After the decomposition of the input speech, the I-SOS algorithm is applied in each subband, separately for the estimation of speech. The I-SOS uses a continuous noise estimation approach and estimate noise power from each subband without the need of explicit speech silence detection. The subband noise power is estimated and updated by adaptively smoothing the noisy signal power. The smoothing parameter in each subband is controlled by a function of the estimated signal-to-noise ratio (SNR). The performance of the proposed speech enhancement method is tested on speech signals degraded by various real-world noises. Using objective speech quality measures (SNR, segmental SNR (SegSNR), perceptual evaluation of speech quality (PESQ) score), and spectrograms with informal listening tests, we show that the proposed speech enhancement method outperforms than the spectral subtractive-type algorithms and improves quality and intelligibility of the enhanced speech. 相似文献

14.

Speech and music classification using spectrogram based statistical descriptors and extreme learning machine

Birajdar Gajanan K. Patil Mukesh D. 《Multimedia Tools and Applications》2019,78(11):15141-15168

相似文献

15.

基于码本学习的改进谱减语音增强算法

下载免费PDF全文

隋璐瑛张雄伟黄建军赵改华《计算机工程与应用》2013,49(16):216-220

提出一种可适应非平稳噪声环境的基于码本学习的改进谱减语音增强算法。该算法分为训练阶段和增强阶段。训练阶段,使用自回归模型对语音和噪声的频谱形状进行建模并构造语音和噪声码本;增强阶段,采用对数谱最小化算法估计出语音和噪声的频谱,通过谱相减消除噪声。算法在每个时间帧估计语音和噪声频谱,即使在语音存在时仍能够有效跟踪快速变化的非平稳噪声;采用自回归模型能得到噪声频谱的平滑估计,减少了音乐噪声。实验仿真表明,相比于传统谱减法和多带谱减法,改进的谱减法具有更好的噪声抑制性能并且语音失真更小。相似文献

16.

SMFCC:一种新的语音信号特征提取方法

汪海彬余正涛毛存礼郭剑毅《计算机应用》2016,36(6):1735-1740

针对说话人识别系统中存在的有效语音特征提取以及噪声影响的问题,提出了一种新的语音特征提取方法——基于S变换的美尔倒谱系数(SMFCC)。该方法是在传统美尔倒谱系数(MFCC)的基础上利用S变换的二维时频多分辨率特性,以及奇异值分解(SVD)方法的二维时频矩阵有效去噪性,并结合相关统计分析方法最终获得语音特征。采用TIMIT语音数据库,将所提的特征和现有特征进行对比实验。SMFCC特征的等错误率(EER)和最小检测代价(MinDCF)均小于线性预测倒谱系数(LPCC)、MFCC及其结合方法LMFCC,比MFCC的EER和MinDCF08分别下降了3.6%与17.9%。实验结果表明所提方法能够有效去除语音信号中的噪声,提升局部分辨率。相似文献

17.

工业噪声环境下多麦状态空间模型语音增强算法

吴庆贺吴海锋沈勇曾玉《计算机应用》2020,40(5):1476-1482

在协同作业的工业环境中进行语音通信时,语音往往会淹没于工业噪声中,致使语音通信的有效性受到影响。针对这种工业噪声下的语音环境,提出了一种采用多麦克风的卡尔曼语音增强算法。该算法简化了状态空间模型(SSM)中的差分方程以降低复杂度,每个采样点实时得到去噪信号从而增强了实时性。另外,为了进一步简化复杂度,还利用最小二乘原则来对语音进行增强。实验中采用了公开数据库的语音信号和工厂噪声信号来模拟多麦下的带噪语音,将所提算法与传统算法进行了对比。实验结果表明,所提算法的输出语噪比(增强后的语音与残留噪声之比)优于传统算法约2 dB,而运行时间仅不到传统算法的2%,且延迟时间仅是毫秒级。相似文献

18.

Adaptive maximum windowed likelihood multicomponent AM-FM signal decomposition

Gazor S. Far R.R. 《IEEE transactions on audio, speech, and language processing》2006,14(2):479-491

Considering a real signal as the sum of a number of sinusoidal signals in the presence of additive noise, maximum windowed likelihood (MWL) criterion is introduced and applied to construct an adaptive algorithm in order to estimate the amplitude and frequency of these components. The amplitudes, phases and frequencies are assumed to be slowly time varying. Employing MWL an adaptive algorithm is obtained in two steps. First, assuming some initial values for the frequency of each component, a closed form is derived to estimate the amplitudes. Then, the gradient of MWL is used to adaptively track the frequencies, using the latter values of amplitudes. The proposed algorithm has a parallel structure in which each branch estimates parameters of one of the components. The proposed multicomponent phase locked loop (MPLL) algorithm is implemented employing low complexity blocks. It is adjustable to be used in different conditions. The mean squared error of the algorithm is studied to analyze the effect of the window length and type and the step size. Simulations have been conducted to illustrate the efficiency and the performance of the algorithm in different conditions including: the effect of the initialization, the frequency resolution, for chirp components, for components during frequency crossover and for speech signals. Simulations illustrate that the method efficiently tracks slowly time-varying components of the signals such as voiced speech segments. 相似文献

19.

用于自动语音识别系统的切换语音功率谱估计算法

刘金刚周翊马永保刘宏清《计算机应用》2016,36(12):3369-3373

针对语音识别系统在噪声环境下不能保持很好鲁棒性的问题,提出了一种切换语音功率谱估计算法。该算法假设语音的幅度谱服从Chi分布,提出了一种改进的基于最小均方误差（MMSE）的语音功率谱估计算法。然后,结合语音存在的概率（SPP）,推导出改进的基于语音存在概率的MMSE估计器。接下来,将改进的MSME估计器与传统的维纳滤波器结合。在噪声干扰比较大时,使用改进的MMSE估计器来估计纯净语音的功率谱,当噪声干扰较小时,改用传统的维纳滤波器以减少计算量,最终得到用于识别系统的切换语音功率谱估计算法。实验结果表明,所提算法相比传统的瑞利分布下的MMSE估计器在各种噪声的情况下识别率平均提高在8个百分点左右,在去除噪声干扰、提高识别系统鲁棒性的同时,减小了语音识别系统的功耗。相似文献

20.

基于噪声估计的二值掩蔽语音增强算法

下载免费PDF全文

曹龙涛李如玮鲍长春吴水才《计算机工程与应用》2015,51(17):222-227

针对现有的助听器语音增强算法在非平稳噪声环境下,残留大量背景噪声的同时还引入了“音乐噪声”,致使增强语音可懂度和信噪比不理想等问题。提出了一种基于噪声估计的二值掩蔽语音增强算法,该算法利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理。采用最小值控制递归平均（Minima-Controlled Recursive Averaging,MCRA）算法获得估计噪声和初步增强语音;将估计噪声和初步增强语音分别通过可以模拟人工耳蜗模型的gammatone滤波器组进行滤波处理,得到各自的时频表示形式;利用人耳的听觉掩蔽特性,计算含噪语音在时频域的二值掩蔽;利用二值掩蔽得到增强语音。实验结果表明：该算法很大程度上去除了谱减法引入的“音乐噪声”,与基于MCRA谱减法相比,增强语音的语言可懂度指数（Speech Intelligibility Index,SII）、主观语音质量评估（Perceptual Evaluation of Speech Quality,PESQ）和信噪比（Signal to Noise Ratio,SNR）都得到了提高。相似文献