共查询到18条相似文献,搜索用时 140 毫秒
1.
端点检测是语音识别系统的一个重要组成,尤其是在噪声环境中,其准确性对语音识别系统性能有直接影响。提出了一种基于小波子带倒谱系数(SBC)的语音信号端点检测方法,利用小波变换对频带进行尺度划分,采用小波子带倒谱能量检测语音端点。通过与MFCC的仿真对比以及大量实验分析,小波子带倒谱特征在语音端点检测中具有更好的识别性能。 相似文献
2.
文丽萍 《自动化与仪器仪表》2023,(5):153-157
针对普通话测试中噪音干扰问题,提出了一种基于小波变换的普通话智能测试系统,对噪音环境下的语音信号进行准确辨别。为了确保本文系统语音识别的准确率,通过隐马尔可夫统计模型叠加神经网络,采用模式匹配的方式搭建了整体语音辨别系统。为了降低噪音对语音信号的影响,在系统中引入小波分析对信号进行去噪处理,同时引入了梅尔频率倒谱系数提取信号特征。实验证明,相较于未改进的传统系统,基于小波变换改进的普通话智能测试系统,在有噪声环境下,四次仿真的平均识别准确率要高7.2%,平均识别时间缩短了1.1 s,识别效果大幅提高;相较于基于DNN的普通话识别系统和基于CTC准则的普通话识别系统,基于小波变换改进的普通话智能系统,在4种不同噪音环境下,语音识别准确率更高,尤其面对频谱更集中的噪音,系统的识别准确率高达90.7%,分别较另外两种系统高出7.5%和6.6%,具有更好的实用性。 相似文献
3.
基于小波变换的鲁棒性语音特征提取新方法 总被引:1,自引:0,他引:1
提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题。语音识别系统往往由于训练环境下的数据和识别环境下的数据不匹配造成系统的识别性能下降。为了能得到无噪音的语音识别特性,让语音识别系统在含噪的环境下获得令人满意的工作性能,根据人听觉特性提出了一种鲁棒语音特征提取方法。将小波变换和MFCC算法相结合,在MFCC的前端用小波包变换代替FFT和Mel滤波器组,同时在后端用临界小波变换代替DCT,最后得到鲁棒语音特征。通过实验结果分析表明,将方法用于抗噪声分析可以提高系统的抗噪声能力;同时特征的处理方法对不同噪声有很好的适应性。 相似文献
4.
贾晶 《计算机光盘软件与应用》2012,(9):28-29
本文介绍了基于嵌入式操作系统Windows CE和ARM平台的语音识别系统,该系统使用了小波神经网络技术。系统使用S3C2410芯片进行控制和语音识别,使用SPCE061A芯片完成训练算法、语音信号特征提取,具有较好的可移植性,在小波神经网络算法的帮助下,系统有较高的识别率。 相似文献
5.
《计算机应用与软件》2014,(8)
提高语音识别系统识别率是语音识别技术中的一个重要的研究课题。通常由于环境噪声影响导致系统的识别准确率急剧下降。为了提高语音识别系统的识别准确率,并且使其在强噪声的环境下仍能获得令人满意的结果,在W_RAS_MFCC(Mel Frequency Cepstral Coefficients of the Relative Autocorrelation Sequences)参数提取分析和小波包变换研究的基础上,并根据加权带通滤波器分析技术,提出一种基于小波包分析的加权语音特征参数。通过实验结果分析表明,此方法用于抗噪声分析可以提高系统的识别准确率,同时在低信噪比下也有很好的适应性。 相似文献
6.
7.
DirectShow技术在音频格式转换及音视频分离方面的应用 总被引:3,自引:0,他引:3
目前语音识别系统的输入都是线性PCM格式的音频文件,然而在实际应用中,需要识别各种格式音频文件以及视频流中的音频,在开始识别前,需要进行音频格式转换并从视频流中进行音频提取.因此,音频格式的转换和从视频中分离出音频信号已成为语音识别系统一种必需的预处理过程.文中介绍了一种将Microsoft的DirectShow技术应用于Windows平台的多种压缩音频格式转换为Windows PCM WAV格式以及从多媒体视频中分离音频信号的方法,并分析了常见音频压缩编码格式经转换后对语音识别系统性能的影响.这对于语音识别技术在实际中的应用有着重要的意义. 相似文献
8.
为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能. 相似文献
9.
10.
语音识别系统及其特征参数的提取研究 总被引:2,自引:0,他引:2
在语音识别系统中,特征参数的选择对系统的识别性能有关键性的影响,本文主要研究几种重要的语音特征参数,包括线性预测倒谱系数、美尔倒谱系数、基于小波分析的参数等,并对这些参数进行了分析和比较,最后对语音识别的研究未来进行了展望. 相似文献
11.
端点检测是语音识别过程中的一个重要的环节,因此改善端点检测的效果一直是语音识别领域的一个重要课题。为了提高在背景噪声下语音信号端点检测的准确率,提出了一种基于小波包的谱熵端点检测方法。该方法对语音信号进行小波包变换,将每帧信号分解成多个子带,在此基础上计算每帧信号的子带能量,通过子带能量所占比例求出每帧信号的谱熵,最后确定新的门限值。仿真实验表明,该方法比传统方法更有效、更优越,能够比较准确地检测语音信号。 相似文献
12.
13.
解决说话人识别问题具有重要的理论价值和深远的实用意义,本文在研究支持向量机理论的基础上,采用支持向量机的分类算法实现说话人识别系统的训练和测试,并将小波去噪技术应用于说话人识别的预处理过程中,改善进入说话人识别系统的语音质量。实验表明,在说话人识别系统中,支持向量机结合小波去噪可以获得较好的识别率。 相似文献
14.
《Expert systems with applications》2007,32(2):485-498
Speech and speaker recognition is an important topic to be performed by a computer system. In this paper, an expert speaker recognition system based on optimum wavelet packet entropy is proposed for speaker recognition by using real speech/voice signal. This study contains both the combination of the new feature extraction and classification approach by using optimum wavelet packet entropy parameter values. These optimum wavelet packet entropy values are obtained from measured real English language speech/voice signal waveforms using speech experimental set. A genetic-wavelet packet-neural network (GWPNN) model is developed in this study. GWPNN includes three layers which are genetic algorithm, wavelet packet and multi-layer perception. The genetic algorithm layer of GWPNN is used for selecting the feature extraction method and obtaining the optimum wavelet entropy parameter values. In this study, one of the four different feature extraction methods is selected by using genetic algorithm. Alternative feature extraction methods are wavelet packet decomposition, wavelet packet decomposition – short-time Fourier transform, wavelet packet decomposition – Born–Jordan time–frequency representation, wavelet packet decomposition – Choi–Williams time–frequency representation. The wavelet packet layer is used for optimum feature extraction in the time–frequency domain and is composed of wavelet packet decomposition and wavelet packet entropies. The multi-layer perceptron of GWPNN, which is a feed-forward neural network, is used for evaluating the fitness function of the genetic algorithm and for classification speakers. The performance of the developed system has been evaluated by using noisy English speech/voice signals. The test results showed that this system was effective in detecting real speech signals. The correct classification rate was about 85% for speaker classification. 相似文献
15.
语音情感信息具有非线性、信息冗余、高维等复杂特点,数据含有大量噪声,传统识别模型难以消除冗余和噪声信息,导致语音情感识别正确率十分低.为了提高语音情感识别正确率,利用小波分析去噪和神经网络的非线性处理能力,提出一种基于过程神经元网络的语音情感智能识别模型.采用小波分析对语音情感信号进行去噪处理,利用主成分分析消除语音情感特征中的冗余信息,采用过程神经元网络对语音情感进行分类识别.仿真结果表明,基于过程神经元网络的识别模型的识别率比K近邻提高了13%,比支持向量机提高了8.75%,该模型是一种有效的语音情感智能识别工具. 相似文献
16.
17.
基于支持向量机和小波分析的说话人识别 总被引:2,自引:0,他引:2
为解决说话人识别问题,提出了一种基于支持向量机和小波分析的识别方法以及其框架模型,即将小波分析应用于信号预处理,并以此为基础,利用其奇异点检测原理将语音信号和噪声分离,实现语音增强,最终基于样本进行训练和测试,采用SVM实现说话人的分类识别. 相似文献
18.
S. D. Apte 《International Journal of Speech Technology》2007,10(1):57-62
The paper proposes an innovative technique for generation of optimal mother wavelet using LPC trajectory with special reference
to speech recognition. A new wavelet based model is proposed for speech signal processing. Lower order linear predictor coefficients
(LPC) are related to the vocal tract area near lip that is the articulating organ. The trajectory of second LPC is proposed
for the generation of mother wavelet for speech recognition. The observation interval is selected as the pitch period that
represents one complete cycle of speech waveform. LPC of order 10 are evaluated for each pitch synchronous (PS) segment. An
innovative technique is proposed for the generation of mother wavelet. The mother wavelet is separately generated for each
word utterance. This generates a multidimensional space for speech words and increases the recognition accuracy. The wavelet
transform (WT) coefficients are evaluated with respect to the generated mother wavelet for each word utterance and are stored
as template along with the generated mother wavelet for each word utterance. The data base consists of 30 word utterances
recorded locally using the sound recorder facility. In the recognition mode, the external word utterance is scanned and is
divided into PS segments. The trajectory of second LPC is tracked. WT coefficients are evaluated with respect to the mother
wavelet of each word in the vocabulary and are compared with the template for each word. The results indicate 100% recognition
accuracy. 相似文献