首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 281 毫秒
1.
提出了一种基于平均路径长度的语音识别算法.采用的识别方法属于小词汇量孤立词语音识别,主要包括端点检测、特征提取和模式识别.首先,在对语音信号预处理的基础上,采用梅尔频率倒谱系数(MFCC)为特征参数提取算法,动态时间规整(DTW)作为识别算法;然后,结合基于平均路径长度的模板训练方法,即采用少量样本,通过计算平均路径长...  相似文献   

2.
本文介绍一个根据汉语特点进行汉语连读数字音识别的新方法。它首先应用模式识别原理将待识别数字串分割为单个数字,再用一种联合式方法识别每个数字。实验研究表明:本文提出的分段和识别方法对汉语连续语音识别也是可行的。  相似文献   

3.
针对语音识别过程中环境噪声干扰大的问题,提出一种基于经验模态分解(EMD)与动态时间规整 (DTW)相结合的孤立词识别算法。该方法利用EMD 算法,首先将提取的性能不好的语音信号分解成若干个基本模函数(IMF),去掉原始信号中的干扰和噪声。然后,基于DTW 算法,采用短时过零率和短时能量对语音信号进行端点检测,提取语音特征参数后与参考模板进行匹配。将参考模板与待测模板之间的最短路径作为识别结果。仿真结果表明,该算法能够提高语音的识别效率和识别的正确率。  相似文献   

4.
针对基于语音识别的语音检索方法对语言模型的强依赖问题,通过改进声学模型学习框架提出了一种新的朝鲜语语音检索方法.该方法首先修改KoSpeech框架的网络模型,通过训练得到了朝鲜语的声学模型; 其次通过语音文档分割方法构建了语音文档索引库; 最后利用编辑距离匹配的方法实现了语音检索.实验结果表明,改进的朝鲜语声学模型学习框架降低了语音检索方法对语言模型的依赖和大规模数据集的要求.当k取9时, top -k评价方法的检索均值平均精度达到86.74%, 召回率达到95.25%, 该结果表明本文提出的方法是有效的,具有一定的实际应用价值.  相似文献   

5.
为了识别一组非特定人、不连续的数字语音信号,本文提出了一种基于支持向量机理论的语音信号识别算法.具体过程主要包括训练过程和识别过程.其中训练过程为:先使用预先建立起来的语音库对选定的支持向量机进行训练,得到一组与该语音信号相关的支持向量;在识别过程中,首先获取被测语音信号,并根据MFFC理论提取特征向量,然后使用训练后的支持向量机进行识别.此外,还提出使用短时区域能量谱的方法对语音信号进行端点检测.结果表明,与目前流行的隐马尔可夫算法比较,本文算法具有识别速度快、准确率高等优点.  相似文献   

6.
本文提出一种新的矢量量化方法压缩语音特征用于孤立字语音识别.新方法借鉴了隐马尔柯夫模型(HMM)中状态的概念来规划模板;用动态规划(Dyna-mic Progamming)的技术优化矢量量化产生的初始码字.新方法使得识别所需的模板库的尺寸明显减小,识别响应时问缩短,而且由于模板的优化,使得系统的正确识别率显著提高.  相似文献   

7.
系统以16位数字信号处理器TMS320VC5502为核心,采用音频Codec芯片TLV320AIC23对语音信号进行采集和编码转换,通过端点检测、特征参数提取、DTW算法等关键技术实现特定人、小词汇量、孤立词的语音识别,最终根据LED闪灯次数检测数字0~9的识别结果。  相似文献   

8.
目的研究用自然语言向智能家居系统进行信息输入和对相关设备的控制及语音识别控制器设计.方法通过对语音信号特点和识别技术的分析,对语音识别系统的语音特征提取、声学模型与模式匹配、语言模型与语言的处理,阐述了HMM算法和DP匹配的语音识别算法,指出孤立词识别系统结构的特点.结果利用TSG110芯片,给出语音识别控制器的识别技术和系统硬件结构、软件设计及组成方法.结论语音识别技术运用于智能家居系统的语音识别控制器,使其具有语音分析、识别和系统控制等功能,实现信息输入与控制.  相似文献   

9.
基于神经网络的汉语孤立词语音识别   总被引:3,自引:0,他引:3  
研究了基于神经网络的中文孤立词语音识别技术;将时间规整算法与神经网络相结合,组成一个混合级联神经网络语音识别系统. 在这个模型中,第一级是时间规整神经网络. 其作用是完成时间规整功能,从输入不等长的语音信号特征矢量序列中提取固定长度的特征矢量;然后将这组特征矢量馈入后一级BP网络完成语音识别. 利用该方法对小词表汉语孤立词进行语音识别实验,获得了98.25%的正确识别率. 实验结果表明,该系统不仅利用神经网络解决了语音识别中的时间规整难题,而且识别性能明显得到改善,识别率和训练速度均优于采用线性时间规整的神经网络语音识别方法.  相似文献   

10.
针对目前语音语料人工标注效率低的问题,提出了一种朝鲜语连续语音语料的音节自动切分方法.该方法首先采用Seneff听觉模型提取音频的包络检测响应和广义同步检测响应等特征参数,其次结合朝鲜语发音特点确定音节的候选边界位置,最后通过静音段和摩擦音检测消除虚假边界,以提高边界检测的准确率.实验结果表明,该朝鲜语语音语料音节自动切分方法的准确率(93.56%)比传统的基于Seneff听觉模型的分割算法提高了14.59%,召回率(86.43%)比传统的基于Seneff听觉模型的分割算法降低了1.69%; 因此,本文算法总体优于传统的基于Seneff听觉模型的分割算法.  相似文献   

11.
Mel谱失真测度是一种弯折频率谱失真测度,用Mel频率尺度可较充分地反映人耳对频率及幅度的非线性感知特性,以及人耳在听到复杂声音时所表现的频率分析和谱合成特性。本文针对孤立词语音识别,对常规LPC倒谱特征提取方法进行改进,即将LPC倒谱按符合人耳听觉特性的Mel尺度进行非线性变化,得到LPC Mel倒谱系数(LPCMCC)作为特征参数。识别网络使用RBF神经网络,进行了孤立词语音识别。实验结果表明此种方法抗噪性能好,识别效果高。  相似文献   

12.
Based on an auditory model, the zero-crossings with maximal Teager energy operator (ZCMT) feature extraction approach was described, and then applied to speech and emotion recognition. Three kinds of experiments were carried out. The first kind consists of isolated word recognition experiments in neutral (non-emotional) speech. The results show that the ZCMT approach effectively improves the recognition accuracy by 3.47% in average compared with the Teager energy operator (TEO). Thus, ZCMT feature can be considered as a noise-robust feature for speech recognition. The second kind consists of mono-lingual emotion recognition experiments by using the Taiyuan University of Technology (TYUT) and the Berlin databases. As the average recognition rate of ZCMT approach is 82.19%, the results indicate that the ZCMT features can characterize speech emotions in an effective way. The third kind consists of cross-lingual experiments with three languages. As the accuracy of ZCMT approach only reduced by 1.45%, the results indicate that the ZCMT features can characterize emotions in a language independent way.  相似文献   

13.
通过对数字识别算法的研究和印刷体数字特征进行分析,提出一种通过统计预处理后的已知类别样本的特征点分布概率为模板,并通过计算待识别样本与模板距离来确定待识别样本所属类别的方法。该方法运行速度快,识别精度高,但只局限于对印刷体数字的识别。实验结果显示,该方法对印刷体数字的识别率可达99%左右,优于一般结构特征识别方法。  相似文献   

14.
为了从声学语音学角度比对朝鲜语与蒙古语的相似性,提出了一种利用相似单元音在连续语音段中出现的概率分布来对比分析语音相似程度的方法.首先,采用双门限静音段检测方法将连续语音自动划分为一系列的语音段,然后采用模式识别方法检测和统计5对相似单元音在语音段首、段中和段尾的概率分布,最后通过对比分析概率分布比较了朝鲜语和蒙古语的语音相似性.对比分析结果表明,朝鲜语与蒙古语语音之间存在差异性,这两种语音的声学特征不具有相似性.本文研究方法和结果可为进一步研究朝鲜语与蒙古语的语音对比提供参考.  相似文献   

15.
为提高噪声环境下的语音识别准确率,提出一种改进的语音特征提取算法。该算法采用模拟人耳听觉特性的非线性幂函数提取一种新的耳蜗滤波倒谱系数,并在特征提取前端引入谱减法对信号进行增强,将提取到的新的特征及其一阶差分组成一种混合特征参数;再联合主成分分析对该混合特征进行降维,将最终得到的特征用于一个非特定人、孤立词、小词汇量的语音识别系统。实验结果表明:采用非线性幂函数提取的耳蜗滤波倒谱系数特征与传统的耳蜗滤波倒谱系数特征相比,明显提高了语音识别准确率;混合特征参数相比单一特征能达到更佳的语音识别性能;结合主成分分析后的特征集在信噪比为0dB时的识别正确率可达到88.10%。  相似文献   

16.
不定人语音识别系统   总被引:1,自引:0,他引:1  
采用了说话人自适应和大数量人的训练数据两种方法解决不定人语音识别问题,在离散隐马尔可夫模型DHMM孤立字语音识别系统中,采用了3种说话人自适应方法,方法1,方法2为码本自适应,方法3为新人数据自适应,并将新建的1000人的语音库用于不定人语音识别。实验结果表明,说话人自适应方法均有一定的自适应效果,特别是多码本自适应后,识别率可提高16%,达到93%以上;在数据库的采用,使得不定人的数字识别率达到  相似文献   

17.

提示方法是利用预训练语言模型的一种有效技术,只需要少量的示例就可以使用语言模型进行一个新的自然语言任务。文章提出了一种新的基于提示方法和知识蒸馏方法的语音识别模型(SpokenPrompt-KD模型)。该模型利用Wav2Vec模型将语音转化为预训练语言模型可识别的文本嵌入形式,从而将语言模型的小样本学习能力拓展到语音识别领域,同时通过知识蒸馏方法将教师语言模型中的知识传递给学生语音模型,以提高模型在语音理解任务上的准确性。实验结果表明,在100 h的数据集上进行预训练后,模型在分类任务上的准确率可以达到88.4%,证明了这种小样本学习能力的模型在语音识别领域是可行的、有效的。

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号