期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张连海陈斌屈丹李弼程《中文信息学报》2014,28(3):116-122

针对爆发谱特征不稳定的问题,论文提出了一种基于能量变化率的汉语塞音检测方法。该方法首先基于Seneff听觉谱提取了一组描述音段能量变化率特性的参数,然后采用Fisherface方法进行特征变换,变换后的特征采用K近邻(KNN)分类器进行分类,实现了塞音的检测,最后利用留一法对模型性能进行交叉验证。实验结果表明,干净语音塞音检测准确率可以达到96.39%,信噪比10dB的语音塞音检测准确率可达到88.07%,模型具有较好的稳定性和泛化性能。相似文献

2.

基于发音特性的摩擦音和塞擦音分类算法

张连海陈斌屈丹《计算机科学》2012,39(9):211-214

提出了一种基于发音特性的摩擦音和塞擦音分类方法,该方法首先基于Seneff听觉谱提取一组描述音段能量分布特性和谱统计量的特征参数,刻画两者在发音过程上的差异,然后采用支持向量机模型实现摩擦音和塞擦音的分类。实验结果表明,其干净语音分类准确率可以达到90.08%,信噪比为5dB的语音分类准确率可达到80.4%,与传统的基于时频能量分布特征的摩擦音和塞擦音分类方法相比,较大地提高了低信噪比下的性能。相似文献

3.

基于小波变换和倒谱分析的腭裂高鼻音等级自动识别

赵利博刘奇付方玲何凌《计算机科学》2018,45(4):278-284

为实现对腭裂高鼻音等级的自动识别,通过对语音信号小波处理和特征提取方法的综合研究,提出基于小波分解系数倒谱特征的腭裂高鼻音等级自动识别算法。目前,研究人员对腭裂语音的研究多基于MFCC、Teager能量、香农能量等特征,识别正确率偏低,且计算量过大。文中对4种等级腭裂高鼻音的1789个元音\a\语音数据提取小波分解系数倒谱特征参数,使用KNN分类器对4种不同等级的高鼻音进行自动识别,将识别结果与MFCC、LPCC、基音周期、共振峰和短时能量共5种经典声学特征的识别结果作比较,同时使用SVM分类器对不同等级的腭裂高鼻音进行自动识别,并与KNN分类器进行对比。实验结果表明,基于小波分解系数倒谱特征的识别结果优于经典声学特征,且KNN分类器的识别结果优于SVM分类器。小波分解系数倒谱特征在KNN中的识别率最高达到91.67%,在SVM中达到87.60%,经典声学特征在KNN分类器中的识别率为21.69%~84.54%,在SVM中的识别率为30.61%~78.24%。相似文献

4.

基于发声模型的腭裂语音高鼻音自动检测算法

张桠童何凌张婷尹恒李杨《计算机工程与设计》2015,(6)

通过对腭裂语音发声模型进行研究,提出基于激励、声道、辐射模型特征参数的腭裂语音高鼻音等级自动识别算法。通过对基于激励模型的基音频率、基于声道模型的共振峰参数、基于综合发声模型的短时能量和M el倒频谱系数等表征高鼻音特性的参数进行分析和改进,以K‐最近邻算法为模式识别分类器,得出应用4种特征参数的高鼻音等级自动识别结果。实验结果表明, M el倒频谱系数与腭裂语音临床生理特征相关性最大,对不同等级高鼻音识别率最高。相似文献

5.

基于能量谱熵的英语摩擦音检测方法

《模式识别与人工智能》2014,(6)

根据摩擦音发声时的频谱特点,提出一种基于能量谱熵的摩擦音检测方法.该方法首先利用不同音素的语谱能量特点检测出音素边界.然后计算每个语音段的能量谱熵,并将超过阈值的语音段作为候选.最后根据语音段的长度、开始结束时的能量突变等对特征候选语音段后处理,去除错误候选.实验表明,在干净环境中并且容错误差为20 ms时,摩擦音的检测率达到96.9%. 相似文献

6.

基于双稳随机共振的语音增强研究

帅玲红李智《数字社区&智能家居》2014,(4):841-843

针对淹没在强噪声背景中的语音信号,文中提出了一种基于双稳随机共振的语音增强方法,该方法利用调节随机共振系统的结构参数,使系统达到最佳匹配,将噪声的能量向信号转移,从而达到增强语音信号的目的。通过MATLAB仿真分析,输出信号信噪比提高了3.5db,因此该方法在对语音信号的检测增强中可获得一定的检测效果。相似文献

7.

基于双稳随机共振的语音增强研究

帅玲红李智《数字社区&智能家居》2014,(2):841-843

针对淹没在强噪声背景中的语音信号,文中提出了一种基于双稳随机共振的语音增强方法,该方法利用调节随机共振系统的结构参数,使系统达到最佳匹配,将噪声的能量向信号转移,从而达到增强语音信号的目的。通过MATLAB仿真分析,输出信号信噪比提高了3.5db,因此该方法在对语音信号的检测增强中可获得一定的检测效果。相似文献

8.

基于非线性参数的腭裂患者高鼻音自动识别

尹恒何凌张劲李杨《计算机工程与设计》2013,34(10)

为了实现对腭裂患者高鼻音的自动识别,提出了基于语音信号非线性能量算子及K-最近邻分类器的高鼻音自动识别算法.实验对腭裂语音数据库中非高鼻音及高鼻音信号提取基于香农能量和非线性能量算子的语音特征参数,结合模式识别分类器,实现了对高鼻音语音的自动检测.实验结果表明,应用非线性能量算予,能实时跟踪语音信号瞬时能量变化,实现了对高鼻音较高的判别正确率,其分类器正确识别率在90％以上,且优于传统的香农能量算法,具有较高的临床应用价值. 相似文献

9.

结合EMD和加权Mel倒谱的语音共振峰提取算法

赵涛涛杨鸿武《计算机工程与应用》2015,51(9):207-212

提出了一种利用经验模态分解（Empirical Mode Decomposition,EMD）和加权Mel倒谱（Weighted Mel-Cepstrum coefficients,WMCEP）提取语音信号共振峰的算法。对语音信号进行EMD分解,找出含有共振峰的固有模态函数（Intrinsic Mode Function,IMF）,并将其重构得到一个新的重构语音信号。对重构语音信号进行加权Mel倒谱分析,获得包含频谱主要成分的加权Mel倒谱系数;利用离散余弦平滑算法,从加权Mel倒谱系数获得谱包络,并从谱包络的峰值位置获得候选共振峰;根据共振峰的连续性约束条件和频率范围,从候选共振峰筛选得到共振峰的估计值。实验结果表明,该算法比单独使用WMCEP提取的共振峰误差更小,而且在信噪比小于20 dB时仍然能够准确提取出共振峰。相似文献

10.

一种三维度基于改进MFCC特征模型的AI克隆语音源鉴定方法

王学光诸珺文张爱新《计算机科学》2023,(11):177-184

AI克隆语音技术的出现将对现代社会法治秩序造成致命冲击。近年来研究人员仅关注了AI合成语音与样本语音内容相同领域的研究，而对AI合成语音与样本内容不同的检材的鉴定研究却甚少，相关鉴定内容无法识别。为此，提出了一种三维度基于改进MFCC特征模型对AI克隆语音源进行鉴定。首先对先前研究人员人工分析的AI克隆语音特性进行验证，总结出可识别的“共振峰F5异常活跃”与“能量、共振峰、音高曲线异常突变”的特征。其次基于AI克隆语音的特征运用二阶差分修正MFCC系数并采用“逆差逻辑推演法”将能量、共振峰、音高曲线突变特性进一步量化采样，将其定义为语音鉴定的特征向量三元组。然后以特征向量三元组为输入，运用D-S证据合成规则将三组检材与样本比对的结果融合。最后形成三维度基于改进MFCC特征参量的检材评定模型。人群随机采样实验结果表明，该AI克隆语音源鉴定方法对以同一人为克隆源所合成的AI克隆语音鉴定的平均概率为67.324%,标准差为7.32%,鉴定效果很好。相似文献

11.

基于元音检测的汉语连续语音端点检测方法

下载免费PDF全文

张利平冯宏伟王艳《计算机工程与应用》2010,46(27):114-116

在汉语连续语音识别中,准确检测出音节的始点和终点是很重要的一步,传统的端点检测方法在非连续语音中检测准确度很高,但在连续语音中检测准确度会大幅度降低。利用MFCC0参数和汉语元音的共振峰能量设计了一种新的端点检测方法,可以准确检测出汉语连续语音中的音节端点。实验结果表明：这种端点检测方法在低信噪比下也有很高的检测正确率。相似文献

12.

Vowel onset point detection for noisy speech using spectral energy at formant frequencies

Anil Kumar Vuppala K. Sreenivasa Rao 《International Journal of Speech Technology》2013,16(2):229-235

In this paper, we propose a method for robust detection of the vowel onset points (VOPs) from noisy speech. The proposed VOP detection method exploits the spectral energy at formant frequencies of the speech segments present in glottal closure region. In this work, formants are extracted by using group delay function, and glottal closure instants are extracted by using zero frequency filter based method. Performance of the proposed VOP detection method is compared with the existing method, which uses the combination of evidence from excitation source, spectral peaks energy and modulation spectrum. Speech data from TIMIT database and noise samples from NOISEX database are used for analyzing the performance of the VOP detection methods. Significant improvement in the performance of VOP detection is observed by using proposed method compared to existing method. 相似文献

13.

语音信号共振峰频率估计的分段线性预测算法

下载免费PDF全文

陈宁万茂文《计算机工程与应用》2009,45(28):156-159

基于分段线性预测算法估计语音的共振峰频率,运用多通道的滤波器组对语音的频段进行划分,然后选择合适的逆滤波器逼近不同频段的短时频谱,最后依据该逆滤波器估计共振峰频率。实验结果表明,与传统方法相比,该方法提高了语音共振峰频率估计时的分辨率与准确性,受噪声的影响较小。相似文献

14.

Formant and Pitch Detection Using Time-Frequency Distribution

Wanda W. Zhao Tokunbo Ogunfunmi 《International Journal of Speech Technology》1999,3(1):35-49

The Wigner-Ville distribution of a multi-component signalhas a unique structure. Based on this structure, a formant and pitchestimation method for speech signals is introduced. Formants andpitch estimated with this method are more accurate, have betterresolution, and are easier to recognize than those estimated by othermethods. A one pitch-period segment is adequate for formantestimation while a minimal two pitch-period segment is needed forboth pitch and formant detection with one step. Experimental resultsare provided to demonstrate the performance of this method, andcomparisons with other methods are provided. 相似文献

15.

基于能量分离的混叠语音干扰滤除方法研究

王聪蒋存波杜婷婷《电子技术应用》2009,35(8)

背景噪声中的其他语音干扰在时域和频域上与有用语音完全混叠在一起,用普通的频分技术无法将其去除。本文从能量角度入手,利用调频-调幅模型和共振峰特征,滤除混叠在有用语音中的含绝大部分能量的元音干扰。最后对该方法在MATLAB中进行了仿真验证,并给出了仿真结果。相似文献

16.

Robust formant tracking for continuous speech with speaker variability

Mustafa K. Bruce I.C. 《IEEE transactions on audio, speech, and language processing》2006,14(2):435-444

Several algorithms have been developed for tracking formant frequency trajectories of speech signals, however most of these algorithms are either not robust in real-life noise environments or are not suitable for real-time implementation. The algorithm presented in this paper obtains formant frequency estimates from voiced segments of continuous speech by using a time-varying adaptive filterbank to track individual formant frequencies. The formant tracker incorporates an adaptive voicing detector and a gender detector for formant extraction from continuous speech, for both male and female speakers. The algorithm has a low signal delay and provides smooth and accurate estimates for the first four formant frequencies at moderate and high signal-to-noise ratios. Thorough testing of the algorithm has shown that it is robust over a wide range of signal-to-noise ratios for various types of background noises. 相似文献

17.

基于SVM的语音情感识别算法 总被引：1，自引：0，他引：1

朱菊霞吴小培吕钊《计算机系统应用》2011,20(5):87-91

为有效提高语音情感识别系统的识别正确率,提出一种基于SVM的语音情感识别算法.该算法提取语音信号的能量、基音频率及共振峰等参数作为情感特征,采用SVM(Support Vector Machine,支持向量机)方法对情感信号进行建模与识别.在仿真环境下的情感识别实验中,所提算法相比较人工神经网络的ACON(All Cl... 相似文献

18.

High-Pitch Formant Estimation by Exploiting Temporal Change of Pitch

《IEEE transactions on audio, speech, and language processing》2010,18(1):171-186

This paper considers the problem of obtaining an accurate spectral representation of speech formant structure when the voicing source exhibits a high fundamental frequency. Our work is inspired by auditory perception and physiological studies implicating the use of pitch dynamics in speech by humans. We develop and assess signal processing schemes aimed at exploiting temporal change of pitch to address the high-pitch formant frequency estimation problem. Specifically, we propose a 2-D analysis framework using 2-D transformations of the time–frequency space. In one approach, we project changing spectral harmonics over time to a 1-D function of frequency. In a second approach, we draw upon previous work of Quatieri and Ezzat , , with similarities to the auditory modeling efforts of Chi , where localized 2-D Fourier transforms of the time–frequency space provide improved source-filter separation when pitch is changing. Our methods show quantitative improvements for synthesized vowels with stationary formant structure in comparison to traditional and homomorphic linear prediction. We also demonstrate the feasibility of applying our methods on stationary vowel regions of natural speech spoken by high-pitch females of the TIMIT corpus. Finally, we show improvements afforded by the proposed analysis framework in formant tracking on examples of stationary and time-varying formant structure. 相似文献

19.

基于临界频带及能量熵的语音端点检测 总被引：1，自引：0，他引：1

张婷何凌黄华刘肖珩《计算机应用》2013,33(1):175-178

语音端点检测的准确性直接关系着语音识别、合成、增强等语音领域的准确性,为了提高语音端点检测的有效性,提出了一种基于临界频带及能量熵的语音端点检测算法。算法充分利用人耳听觉特性的频率分布,将含噪语音信号进行临界频带划分,并结合各频带内信号的能量熵值在语音段和噪声段的不同分布,实现不同背景噪声下语音端点检测。实验结果表明,提出的语音端点检测算法与传统的短时能量法相比,检测正确率平均高1.6个百分点。所提方法在不同噪声的低信噪比(SNR)环境下均能实现语音端点检测。相似文献

20.

数字助听器中新的非线性响度补偿方法的研究

贾伟张玲华《计算机工程与应用》2016,52(8):256-260

数字助听器中的多通道响度补偿算法,通常是在划分出的多个频段内分别进行补偿,这在一定程度上会导致共振峰结构的破坏,造成语义信息的曲解或丢失。一种新的非线性的响度补偿方法的提出,无需进行频段的划分,并且根据听损患者在不同频率上对声音强弱的实时感知特性对语音信号进行补偿。该方法不仅使补偿后语音的响度完全映射到听者的听觉范围内,还使得补偿后的响度曲线在轮廓上与原始语音基本保持一致。实验中,小波去噪和移频技术的运用保证了处理效果更加优良。结果表明,该方法能有效提高语音响度和改善听损患者的言语识别率,具有一定的应用价值。相似文献