首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
线性预测分析在连接词语音识别中的研究   总被引:1,自引:0,他引:1  
特征参数的提取是关系到语音识别系统性能好坏的关键,而线性预测分析是目前普遍采用的特征参数提取方法.针对在连接词和连续语音识别系统中,传统的线性预测系数已不能满足特征提取的要求,研究采用了三种主要的线性预测推演参数,即线性预测反射系数、线谱对系数和线性预测倒谱系数,及其在连接词语音识别系统中的应用,并进行计算机仿真.仿真结果表明,在输入语音库与信噪比一致的情况下,线性预测倒谱系数的识别率最高.从而证明,在包含语义特征信息和说话人特征方面,线性预测倒谱系数性能要优于线谱对系数和线性预测反射系数.  相似文献   

2.
语音识别系统及其特征参数的提取研究   总被引:2,自引:0,他引:2  
魏星  周萍 《计算机与现代化》2009,(9):167-168,172
在语音识别系统中,特征参数的选择对系统的识别性能有关键性的影响,本文主要研究几种重要的语音特征参数,包括线性预测倒谱系数、美尔倒谱系数、基于小波分析的参数等,并对这些参数进行了分析和比较,最后对语音识别的研究未来进行了展望.  相似文献   

3.
一种适用于说话人识别的改进Mel滤波器   总被引:1,自引:0,他引:1  
项要杰  杨俊安  李晋徽  陆俊 《计算机工程》2013,(11):214-217,222
Mel倒谱系数(MFcc)侧重提取语音信号的低频信息,对语音信号的频谱分布特性描述不充分,不能有效区分说话人个性信息。为此,通过分析语音信号各频段所含说话人个性信息的不同,结合Mel滤波器和反Mel滤波器在高低频段的不同特性,提出一种适于说话人识别的改进Mel滤波器。实验结果表明,改进Mel滤波器提取的新特征能够获得比传统Mel倒谱系数以及反Mel倒谱系数(IMFCC)更好的识别效果,并且基本不增加说话人识别系统训练和识别的时间开销。  相似文献   

4.
自适应语音识别算法仿真研究   总被引:2,自引:0,他引:2  
研究语音识别准确性优化问题,针对目前由于不同说话人语音存在差异,实现语音词汇识别难,造成识别率较低等.为了解决上述问题,提出了一种新的自适应的短语音孤立词识别算法并加以实现.算法主要根据提取梅尔倒谱系数和动态时间弯折的模板匹配的优点,首先对输入语音信号进行端点检测,可以较好地对特定人的孤立词进行识别.同时算法给出了MFCC参数提取,对端点检测效果进行性能分析与评价.采用Matlab工具实现了语音识别系统,并设计了良好的人机交互界面,系统能够快速处理输入的语音,比较了不同人声音情况下的识别率.实验结果表明算法具有非常高准确的识别效果.  相似文献   

5.
语音信号窗函数具有减少频谱能量泄露的作用,针对传统的语音加窗函数旁瓣衰减速度慢,信号频谱能量泄露大,不利于说话人识别特征参数提取的缺点,采用一种汉明自卷积窗函数取代汉明窗函数对语音信号预处理.为了进一步提高说话人系统的识别率,文章提出一种基于汉明自卷积窗的的一阶、二阶差分梅尔倒谱系数(MFCC)改进的动态组合特征参数方法.用高斯混合模型进行仿真实验,实验结果证明,用该方法提取的特征参数运用于说话人识别系统,相比于传统的MFCC说话人识别系统,其识别率大大提高.  相似文献   

6.
说话人识别是根据检测到的语音进行说话人身份的认证.是将待识别语音与数据库中的说话人语音进行匹配的过程。设计基于高斯混合模型(GMM)说话人识别系统,提取输入语音的Mel倒谱系数作为观察向量,用GMM算法进行说话人语音模型训练和识别。同时设计基于TMS320DM3730DSP的嵌入式硬件平台,并在该平台上实现所设计的说话人识别系统。为进行性能测试,自行录制相应的语音材料库,录音的人数为38人,其中男19人,女19人。经测试表明,在正常环境下.该设计的说话人系统识别率可达到95%以上。  相似文献   

7.
在噪声环境下能准确有效地提取语音信息是语音识别的重点难点,将其应用于嵌入式系统中,有一定的研究意义.通过比较分析传统的语音特征参数提取的方法:线性预测倒谱系数,Mel频率倒谱系数,提出了一种新的方法,采用Mel频率倒谱系数与一阶差分Mel频率倒谱系数(MFCC+ A MFCC)相结合的方法提取语音特征参数,结合双门限检测法进行端点检测和HMM模型进行模型匹配,并进行了以ARMSX2410为核心硬件与软件的系统设计.该方法较传统方法提高了系统的鲁棒性、识别的准确率和系统效率,适用于噪声环境下的语音识别.  相似文献   

8.
一种基于MFCC和LPCC的文本相关说话人识别方法   总被引:1,自引:0,他引:1  
于明  袁玉倩  董浩  王哲 《计算机应用》2006,26(4):883-885
在说话人识别的建模过程中,为传统矢量量化模型的码字增加了方差分量,形成了一种新的连续码字分布的矢量量化模型。同时采用美尔倒谱系数及其差分和线性预测倒谱系数及其差分相结合作为识别的特征参数,来进行与文本有关的说话人识别。通过与动态时间规整算法和传统的矢量量化方法进行比较表明,在系统响应时间并未明显增加的基础上,该模型识别率有一定提高。  相似文献   

9.
基于FMFCC和HMM的说话人识别   总被引:2,自引:0,他引:2  
张永亮  张先庭  鲁宇明 《计算机仿真》2010,27(5):352-354,358
美尔频率倒谱系数(MFCC)是说话人识别中常用的特征参数,而语音信号是非平稳信号,MFCC并不能很好的反映语音的时频特性。针对这一缺陷,为了提高说话人的识别率,结合新的时频分析工具分数傅立叶变换(FRFT)。将MFCC推广到分数形式,得到分数美尔频率倒谱系数(FMFCC),用以表征语音信号的特征;并利用可分性测度验证了特征参数的有效性;通过建立20个不同说话人的FMFCC特征库,采用隐马尔可夫模型(HMM)对说话人进行仿真识别。仿真结果表明,在合适的变换阶次下,说话人的平均识别率可达93%以上。  相似文献   

10.
针对语音识别中梅尔倒谱系数(MFCC)对中高频信号的识别精度不高,并且没有考虑各维特征参数对识别结果影响的问题,提出基于MFCC、逆梅尔倒谱系数(IMFCC)和中频梅尔倒谱系数(MidMFCC),并结合Fisher准则的特征提取方法。首先对语音信号提取MFCC、IMFCC和MidMFCC三种特征参数,分别计算三种特征参数中各维分量的Fisher比,通过Fisher比对三种特征参数进行选择,组成一种混合特征参数,提高语音中高频信息的识别精度。实验结果表明,在相同环境下,新的特征与MFCC参数相比,识别率有一定程度的提高。  相似文献   

11.
鸟声识别研究中声音特征选取对识别分类的准确度有很大影响. 为了提高鸟声识别正确率, 针对传统的梅尔倒谱系数(MFCC)对鸟声高频信息表征不足. 提出了基于Fisher准则MFCC和翻转梅尔倒谱系数(IMFCC)的特征融合, 得到新的特征参数MFCC-IMFCC应用于鸟声识别, 提高对鸟声高频信息表征. 同时通过遗传算法(GA)对支持向量机(SVM)中的惩罚因子C和核参数g进行优化, 训练出GA-SVM分类模型. 实验表明, 在同一条件下, MFCC-IMFCC与MFCC相比, 识别率有一定的提高.  相似文献   

12.
俸云  景新幸 《计算机仿真》2009,26(10):327-329,343
美尔频率倒谱参数(Mel frequency cepstral coefficient,MFCC)仿真了人耳的听觉特性,在语音识别实际应用中取得了比较高的识别率。为了更进一步完善系统以提高系统的识别率,提出一种将MFCC和残差相位相结合的方法进行语音识别。将传统的基于MFCC的语音识别效果,与基于MFCC和残差相位相结合的语音识别效果进行比较。通过在MATLAB环境下进行仿真实验得出理想结论。利用MFCC和残差相位相结合的识别率高于MFCC的系统的识别率。所提出的改进算法更好的完善了识别系统,获得了更高的语音识别率。  相似文献   

13.
MFCC特征改进算法在语音识别中的应用   总被引:2,自引:0,他引:2  
本文的目的是阐明一种Mel频率倒谱参数特征的改进算法。该算法是通过线性预测的方法从语音信号中提取出残差相位,同时将残差相位与传统的MFCC相结合,并应用到语音识别系统中。该改进算法比传统的MFCC算法具有更好的识别率。  相似文献   

14.
特征提取是说话人识别系统中最关键的一个步骤.特征提取通俗的来说是提取代表说话人个性的语音特征.直接关乎识别系统的准确率.通常人们能从说话人声音的品质,频率的高低,音量的大小等信息中感知说话人的个性特点.文章采用Mel频率倒谱域参数,是因为Mel频率尺度更加贴近入耳的听觉特性.Mel频率倒谱域参数不仅具有低频段高谱分辨率的优势,而且对噪声鲁棒能力很强.文章以声道模型和听觉模型为例,对比了LPC参数和MFCC参数分布.得出了MFCC不受全极点模型限制,对环境的适应性更强,且可降低不同人说话引起的差异度的影响.其参数性能优于LPC参数.  相似文献   

15.
采用主成分分析的特征映射   总被引:1,自引:0,他引:1  
在与文本无关的说话人识别研究中, 特征映射的方法可以有效减少信道的影响. 本文首先通过主成分分析的方法在模型域中估计出信道因子所在的空间, 然后通过映射的方法在特征参数域中减去信道因子的影响. 采用这种方法需要有信道信息标记的数据, 但是在特征映射时不需要对信道进行判决. 在NIST 2006年SRE 1conv4w-1conv4w数据库上, 采用本文推荐方法的系统相对基线系统在等错误率上降低了19\%.  相似文献   

16.
杨曜  郭斌  於志文 《软件学报》2013,24(S2):24-31
随着社会需求的不断扩大及技术的不断发展,人与人之间的社会交互也越来越多.理解社会交互特征并能感知用户所处的社会情境语义(如在开会、在上课),对于促进和辅助用户社会活动具有重要意义.从背景声音的角度对社会交互进行理解,目的是通过对背景声音差异性特征的提取,识别用户所处的社会情境.提出了一种基于背景声音识别的社会情境感知方法,该方法采用Mel frequency cepstral coefficients (MFCCs,即Mel 频率倒谱系数)分析声音信号,将路径搜索限制和搜索过滤的改进Dynamic Time Warping(DTW)算法作为识别器.通过对11 种社会情境背景声音的采集和识别,表明该算法能够有效地识别用户所处的社会情境,且其运算效率与识别率比传统DTW 算法有所提高.  相似文献   

17.
语音MFCC特征计算的改进算法   总被引:1,自引:0,他引:1  
提出了一种计算Mel频倒谱参数(Mel frequency cepstral coefficient,MFCC)特征的改进算法,该算法采用了加权滤波器分析(Wrapped discrete Fourier transform,WDFT)技术来提高语音信号低频部分的频谱分辨率,使之更符合人类听觉系统的特性。同时还运用了加权滤波器分析(Weighted filter bank analysis,WFBA)技术,以提高MFCC的鲁棒性。对TIMIT连续语音数据库中DR1集的音素识别结果表明,本文提出的改进算法比传统MFCC算法具有更好的识别率。  相似文献   

18.
高效率地使用工程车辆是工程项目管理中节约成本的有效方法,无人监管环境下工程车辆的工况识别,是实现工程车辆高效率使用的有效手段。目前以GPS等技术为核心的车辆智能管理系统未对工程车辆进行工况识别,提出一种基于GRU循环神经网络的工程车辆工况识别方法,通过对工程车辆在不同工况下产生的音频信号进行分析,从中提取Mel倒谱系数作为主要特征,构建GRU循环神经网络模型进行训练和识别。实验结果表明,该方法可以实现对工程车辆工况的有效识别。  相似文献   

19.
将Mel倒谱距离和多带能量-熵特征相结合,提出了一种改进的孤立词端点检测方法。该方法具有不需要估计背景噪声调整门限阈值的优点。仿真实验表明,所提方法在实验室噪声环境下可检测到准确的孤立词端点,特别是当起止处含有弱的摩擦音或爆破音时,不会造成虚检和漏检,鲁棒性较好。由于计算简单,适合实时应用。  相似文献   

20.
Classification of speech signals is a vital part of speech signal processing systems. With the advent of speech coding and synthesis, the classification of the speech signal is made accurate and faster. Conventional methods are considered inaccurate due to the uncertainty and diversity of speech signals in the case of real speech signal classification. In this paper, we use efficient speech signal classification using a series of neural network classifiers with reinforcement learning operations. Prior classification of speech signals, the study extracts the essential features from the speech signal using Cepstral Analysis. The features are extracted by converting the speech waveform to a parametric representation to obtain a relatively minimized data rate. Hence to improve the precision of classification, Generative Adversarial Networks are used and it tends to classify the speech signal after the extraction of features from the speech signal using the cepstral coefficient. The classifiers are trained with these features initially and the best classifier is chosen to perform the task of classification on new datasets. The validation of testing sets is evaluated using RL that provides feedback to Classifiers. Finally, at the user interface, the signals are played by decoding the signal after being retrieved from the classifier back based on the input query. The results are evaluated in the form of accuracy, recall, precision, f-measure, and error rate, where generative adversarial network attains an increased accuracy rate than other methods: Multi-Layer Perceptron, Recurrent Neural Networks, Deep belief Networks, and Convolutional Neural Networks.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号