首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 72 毫秒
1.
数字语音识别系统   总被引:1,自引:0,他引:1  
为了较好地实现数字语音的识别,运用隐马尔可夫理论研究数字语音识别系统,通过软件编程研究其在语音识别系统中的应用,在Matlab环境下该系统实现了汉语数字语音的识别.实验结果表明,其达到了较高的识别率.  相似文献   

2.
为了研究语音识别技术的实用化问题.采用离散隐马尔可夫模型方法,基于单片微控制器加数字信号处理器(MCU DSP)构架,实现了一个非特定人语音指令识别系统.该系统适应性强,每个指令识别时间在1s内,准确率达到96%.  相似文献   

3.
本文针对线性模型在语音识别中的不足,进行了隐马尔可夫模型(HMM)在语音单字识别中的研究,主要对观察输出概率求解、最佳状态序列寻找、参数估计和模型参数的选择进行了探讨。  相似文献   

4.
最大互信息用于语音识别   总被引:3,自引:0,他引:3  
将最大互信息理论用于语音识别,最大互信息估计作为目标函数。在隐马尔可夫模型参数调整过程中运用了泛化概率下降方法,保证了统计意义上实现目标函数的优化。最大互信息估计用于连接数字语音识别,识别率得到了提高。  相似文献   

5.
在虚拟仪器开发软件LABVIEW平台上,利用LABVIEW和MATLAB混合编程,通过声卡获得原始语音信号,经过小波消噪处理、预加重处理和端点检测处理得到干净的语音信号,提取语音信号的美尔频率倒谱系数及其一阶、二阶差分系数作为语音识别的特征参数,通过矢量量化(VQ)与隐马尔可夫模型(HMM)实现非特定人连续语音的训练与识别,构建了基于LabVIEW平台的连续语音识别系统.实验表明,系统的识别速度较快,识别率达到90%左右,而且成本比较低廉,具有一定的应用价值.  相似文献   

6.
基于DSP的语音识别系统的设计与实现   总被引:2,自引:0,他引:2  
一种基于定点数字信号处理器TMS320VC5402的实时语音识别系统。能够实现非特定人、小词汇表、孤立词的语音识别。系统以线性预测倒谱参数为特征参数,采用动态时间归整识别模型,在小词汇量特定人条件下,该系统的正识率可达到98%以上,在非特定人情况下正识率在93%以上。  相似文献   

7.
为满足在嵌入式系统上实现非特定人的语音识别需求,介绍一种采用离散隐马尔科夫模型(DHMM)的嵌入式语音识别系统的实现方法.设计出一种在嵌入式系统上完成语音识别功能、在PC系统上完成模板训练功能的软件架构.针对TMS320VC5509A处理器的特点,对识别软件进行实现和优化.根据语音信号不可逆的特点,提出一种优化的viterbi算法.实验结果表明,在保证识别率的条件下系统取得了200ms以内的实时响应速度,具有很高的实用性.  相似文献   

8.
基于DSP的嵌入式语音识别系统的研究与实现   总被引:3,自引:0,他引:3  
设计并实现了一个特定人、孤立词和小词汇量的嵌入式语音识别系统.系统硬件的核心芯片采用普遍使用的16位定点DSP芯片TMS320VC5416,软件上主要采用动态时间规整算法来实现语音识别.给出了系统整体的软硬件框架,并比较和分析了分别将线性预测倒谱参数和美尔频标倒谱参数作为语音特征参数时系统的性能,为语音识别的嵌入式应用提供了参考依据.  相似文献   

9.
为提高语音识别系统的实用性与实时性,该文采用缺失特征分量的方法研究了美尔频率倒谱系数静态特征及其一阶差分各分量对识别率的影响.在不同信噪比情况下,分别对含白噪声、粉红噪声、车载噪声和工厂噪声这四种典型噪声的语音进行了实验研究,结果表明:在保证系统有较高识别率的情况下,在低信噪比时,含白噪声的语音信号缺失美尔频率倒谱系数...  相似文献   

10.
研制的计算机软件,以普通的声霸卡为使用背景,实现了用隐马尔可夫模型对孤立短语信号的自动建模过程。讨论了该软件的实现方法和需要解决的问题,实验结果令人满意。  相似文献   

11.
普通话语音情感识别的特征选择技术   总被引:3,自引:0,他引:3  
谢波,陈岭,陈根才,陈纯针对情感声学特征在语音情感识别中的重要性问题,运用优先选择、序列前向、序列后向和逐步判别分析进行了特征选择.对说话人和文本均无关、说话人相关2组普通话情感语音进行特征选择,然后利用线性判别分析和支持向量机进行实际识别效果的分析比较.特征选择结果表明,基频、对数能量、语速和第一共振峰均值对普通话情感语音具有较强的判别能力,但情感声学特征的判别力随着说话人的不同而有所差异.特征选择方法比较实验表明,逐步判别分析比其他3种方法具有更高的平均准确率,当特征个数为9~12时分类器的平均准确率最高.效用分析表明,特征选择在小样本时更加有效.  相似文献   

12.
递归神经网络(Recurrent Neural Network,RNN)是一种具有时延反馈能力的神经网络,它可以充分利用上下文的信息来提高分类的程度,因而很适合汉语拼音的识别,但在实践中受网络规模的限制,能利用的上下文有限,所以对汉语拼音的分类效果并不理想,为此提出一种改进的RNN-时间标签递归神经网络(TTRNN)来对汉语拼音的整音节进行直接建模识别的方法;初步的实验结果不仅证明了TTRNN方法对汉语拼音这样的时序模式有很好的分类能力,而且在拼音识别方面有很强的顽健性。  相似文献   

13.
针对基于语音识别的语音检索方法对语言模型的强依赖问题,通过改进声学模型学习框架提出了一种新的朝鲜语语音检索方法.该方法首先修改KoSpeech框架的网络模型,通过训练得到了朝鲜语的声学模型; 其次通过语音文档分割方法构建了语音文档索引库; 最后利用编辑距离匹配的方法实现了语音检索.实验结果表明,改进的朝鲜语声学模型学习框架降低了语音检索方法对语言模型的依赖和大规模数据集的要求.当k取9时, top -k评价方法的检索均值平均精度达到86.74%, 召回率达到95.25%, 该结果表明本文提出的方法是有效的,具有一定的实际应用价值.  相似文献   

14.
针对孤立词语音识别系统设计一个改进的系统。该系统通过维纳滤波滤除噪声得到估计语音,对该语音进行双门限端点检测和特征提取得到端点范围内的特征向量,采用改进动态时间规划算法计算该特征向量与模板特征向量之间的欧式距离得到识别结果。仿真对比实验结果表明,改进系统在识别效果和识别效率方面有提高。  相似文献   

15.
为了解决连续的语音识别对端点的依赖性问题,提出了一种基于高维空间点覆盖动态搜索理论的非特定人问候语连续语音识别的新算法,该算法无需对待识别连续语音进行端点检测和分割,通过直接对特征提取后的连续语音进行动态搜索,得到待识别连续语音到各类训练网络的距离随时间变化的曲线,通过动态搜索距离曲线上谷值的大小来判断识别结果.通过对小词汇量、不同语速条件下的连续语音的测试,得到了良好的识别结果,验证了此方法的有效性.  相似文献   

16.
仿生模式识别基本原理应用到非特定人连续语音识别中,在构建语音模型时,将高维空间点覆盖的理论应用到非特定人的连续语音识别的学习过程中,在识别时,采用高维空间覆盖动态搜索的方法,对连续语音进行动态搜索,这样就可以避免因分割错误而带来的错误识别.通过实验得到了较为满意的识别结果。  相似文献   

17.
This paper focuses on acoustic features that effectively improve the recognition of emotion in human speech. The novel features in this paper are based on spectral-based entropy parameters such as fast Fourier transform (FFT) spectral entropy, delta FFT spectral entropy, Mel-frequency filter bank (MFB) spectral entropy, and Delta MFB spectral entropy. Spectral-based entropy features are simple. They reflect frequency characteristic and changing characteristic in frequency of speech. We implement an emotion rejection module using the probability distribution of recognized-scores and rejected-scores. This reduces the false recognition rate to improve overall performance. Recognized-scores and rejected-scores refer to probabilities of recognized and rejected emotion recognition results, respectively. These scores are first obtained from a pattern recognition procedure. The pattern recognition phase uses the Gaussian mixture model (GMM). We classify the four emotional states as anger, sadness, happiness and neutrality. The proposed method is evaluated using 45 sentences in each emotion for 30 subjects, 15 males and 15 females. Experimental results show that the proposed method is superior to the existing emotion recognition methods based on GMM using energy, Zero Crossing Rate (ZCR), linear prediction coefficient (LPC), and pitch parameters. We demonstrate the effectiveness of the proposed approach. One of the proposed features, combined MFB and delta MFB spectral entropy improves performance approximately 10% compared to the existing feature parameters for speech emotion recognition methods. We demonstrate a 4% performance improvement in the applied emotion rejection with low confidence score. Supported by MIC, Korea under ITRC IITA-2009-(C1090-0902-0046) and the Korea Science and Engineering Foundation (KOSEF) funded by the Korea government (MEST) (Grant No. 20090058909)  相似文献   

18.
分析汉语普通话发音的29个基本音素,对m,n,l等3个音素的发音进行改造,形成了由16个定口型音和13个动口型音组成的音素体系,有助于减轻非母语系者学习中文及智障人士语音识别的学习负担.  相似文献   

19.
针对目前数字字符识别的研究现状,提出了方向小波变换和BP神经网络相结合的数字字符识别方法.小波变换具有良好的方向特性,根据这个特点能很好的提取数字字符的特征,以此特征作为输入向量,用BP网络进行数字识别.实验结果表明,该方法大大减少了运算数据量,缩短了识别时间,具有较高的识别率,对一些如笔画断裂等典型噪声有很好的识别效果,是一种有效的识别方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号