首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
本文对神经网络语音识别中的语音特征提取、网络结构以及学习算法进行了初步的研究,提出了一种用于时特征矢量量化的简化和改进的自组织神经网络模型VQNN。VQNN中引入了动态规划法估计语音样本矢量的码本类中心初值并确定网络的初始权矩阵,可构造出256个量化等级的码本矢量。该方法具有较强的鲁棒性且矢量量化过程简单迅速。对28个地名的语音量化识别实验结果表明了这种量化方法对时识别的有性。  相似文献   

2.
针对智能机器人系统对语音交互功能的实际需求, 在DM-B200开放式机器人平台上,设计并实现了基于语音信息的说话人身份识别功能和语音指令识别功能. 为了准确识别特定说话人的身份, 采用了矢量量化的识别方法, 而为了提高机器人语音控制的实时性, 语音指令识别采用了动态时间规整的方法. 应用结果表明, 所设计的语音识别系统达到96%以上的综合识别率, 具有实际应用价值.  相似文献   

3.
语音识别中DTW改进算法的研究   总被引:1,自引:0,他引:1  
动态时间规整DTW是语音识别中的一种经典算法。对此算法提出了一种改进的端点检测算法,特征提取采用了Mel频率倒谱系数MFCC,并采用计算量相对较小的改进的动态时间规整算法实现语音参数模板匹配,能够实现孤立词、特定人、小词汇量的语音识别,并用Matlab进行了算法仿真。试验结果表明,改进后的算法能够有效地提高系统对语音的识别率。  相似文献   

4.
动态时间规整(Dynamic Time Warping)是语音识别中的一种经典算法,该算法简单有效,在实现孤立词识别系统中得到了广泛的应用.为了提高机器人语音识别系统的识别率和识别速度,文中采用了一种改进的DTW语音识别算法.在MATLAB 7.0环境下,对改进的语音端点检测和改进的DTW算法进行仿真实验,实验证明改进的算法提高了识别率,并且减少了识别所用的时间;将该算法移植到机器人上,在安静的环境下进行试验,结果表明机器人能准确而又快速地识别语音内容.最后,得到了改进的语音识别算法能够有效提高识别率和识别速度的结论.  相似文献   

5.
语音识别的研究与发展   总被引:8,自引:0,他引:8  
综合阐述了语音识别技术的提出与发展历史 ,语音识别系统的分类 ,目前所面临的困难和采用的主要技术 ,以及发展方向和应用前景。  相似文献   

6.
语音识别中基于SFCM模糊聚类的矢量量化方法   总被引:4,自引:1,他引:3  
模糊聚类分析算法用隶属度确定样本所属类别,因其良好的效果而被广泛用于语音识别领域。文中提出了一种模糊聚类分析算法SFCM,并将其用于语音特征的矢量量化,最终形成码本尺寸为128的码本,用SFCM算法得到的码本分布合理,没有空类。采用此码本的误音识别实验表明了这种量化方法对语音识别的有效性。  相似文献   

7.
高文  马继涌 《计算机学报》1998,21(Z1):147-150
本文提出了一个基于统计推断和矢量量化技术的非特定文本的话者识别方法,给出了基于矢量量化技术的话者识别方法的统计依据,分析了测试语音样本量对系统正确识别率的影响,并给出了定量计算特定语音特征向量判别能力的公式.介绍了利用以上方法所实现的TISI系统及其实验结果.实验结果表明,在50人的话者集及测试语音长度大于60s的情况下,该系统的正确识别率达99%  相似文献   

8.
张军  李学斌 《计算机仿真》2009,26(10):348-351,364
针对动态时间规整(DTW)对孤立词端点检测准确性过度依赖的问题,针对上述问题,采用放宽端点和限定动态规整计算范围结合的算法,不仅更准确的放松前后端点降低端点检测的敏感度,而且结合对动态规整计算范围的限定,减少计算量,提高执行效率。分别测试了基于传统DTW算法的识别率和改进后DTW算法的识别率。实验结果表明,改进后的算法,能有效提高孤立词识别率。  相似文献   

9.
基于矢量量化的说话人识别研究   总被引:7,自引:0,他引:7  
说话人识别可以看作语音识别的一种,是当前研究的热点之一。阐明了说话人识别的基本概念、发展状况以及原理和方法,并介绍了一种基于矢量量化的且与文本无关的说话人识别系统。  相似文献   

10.
引入帧跳跃的概念,从而改进了传统的端点检测算法和DTW算法,实现了一个改进的实时语音识别系统,并在计算机上进行了模拟仿真。实验结果表明,改进后的算法能有效提高孤立词的识别速度和识别精度。  相似文献   

11.
介绍了一种降低码书搜索复杂度的方法-直接矢量量化(DVQ)方法,将其应用于LD-CELP语音编码算法中的仿真译码器模块和码书搜索模块,用感觉加权逆滤波器代替仿真译码器模块中的综合滤波器,去除了码书搜索模块中冲激响应hn)的运算。实验结果表明,利用直接矢量量化方法简化了码书搜索算法的复杂度,提高了码书搜索算法的效率,在运算时间方面比原始LD-CELP算法快3 s~5 s,同时保持了原编码算法合成语音的音质。  相似文献   

12.
语音端点检测在语音处理中占有非常重要的地位,传统的检测方法是基于短时能量和过量率的双门限比较法,但是在信噪比较低的情况下,利用短时能量和过量率很难得到准确的检测结果。另外,在双门限比较法中,判别门限的取值对整个端点的检测影响很大,而这个门限值往往是靠经验所得,具有不稳定性。因此,针对传统方法的不足,根据语音帧间相关性,提出了一种改进算法。让语音信号通过双门限比较,完成端点检测的一级粗判,在语音起止点的模糊帧段,取一定范围的信号矢量,让这些矢量经过处理后再通过有限状态矢量量化器(FSVQ),得到量化矢量,再对量化矢量进行二级细判,从而得到准确的语音起止点。将改进算法应用于汉语连续数字语音识别,平均识别时间由原来的0.871s缩短为0.719s,平均识别率由原来的81.47%上升至89.13%,实验结果表明了该算法的有效性。  相似文献   

13.
动态时间规正(Dynamic Time Warping)是语音识别中的一种经典算法,算法简单有效,因此在实现孤立词识别系统中获得了广泛的应用。提出一种DTW的改进算法,采用两次在时间域上的规正,使计算程序简洁规范,计算量减少。经实验验证,改进DTW算法在不降低识别率的前提下,提高了识别速度,提高了系统的实用性。  相似文献   

14.
在对轨迹流矢量进行量化编码的基础上,提出了一种基于深度优先搜索的轨迹分布模式提取算法,生成了能够描述轨迹分布的序列模式图,并给出了与之相应的异常检测和行为预测方法。对不同场景的可见光和红外序列图像的实验表明,本文方法不仅能够学习轨迹中流矢量的分布,而且能够反映它们之间的时序关系,可以应用于室外复杂场景的目标异常行为检测。  相似文献   

15.
矢量量化技术是一种高效和有竞争力的数据压缩方法,但由于其编解码过程中需要较大的计算量影响了其使用。提出了一种改进的基于子矢量特征值的码字快速搜索算法。算法充分利用矢量的3个特征值即和值、子矢量和值以及方差,建立起一种5步码字排除法,使得算法能够快速排除大部分不匹配码字,实现减少计算量的目的。仿真实验结果表明,算法的计算量要小于ZhiBin算法、Pan算法以及Chen算法,证明了改进算法的有效性。  相似文献   

16.
矢量量化的编码过程计算复杂性极高,为了减少编码时大量的矢量间距离计算,许多文献提出利用不等式关系以较少的计算量来估算距离的方法。在Chang等人提出的利用双限制三角不等式的快速搜索算法基础上,通过改进参考矢量的选取方法,有效提高了码字搜索的效率。实验结果表明,改进算法的码字排除率可以提高3.735%9.976%,编码时间可以减少6.03%35.25%。  相似文献   

17.
语音识别中动态时间规整和隐马尔可夫统一模型   总被引:1,自引:0,他引:1  
对于目前在语音识别中广泛使用的两种技术即动态时间规整(DTW)技术和隐马尔可夫模型(HMM)的本质联系,提出了二者的统一模型(DHUM,DTW and HMM Uni-fied Model),并分别给出DTW和HM向DHUM的转换关系。文中还提出了用DHUM解决更接近语音实际情况的高阶HMM作语音识别时所面临的运算量过大的问题。中等词表的识别实验结果表明,建立在DHUM之上的识别器的识别性能不低于  相似文献   

18.
受分形编码思想启发,提出了一种新的基于向量量化的图像超分辨率方法。该方法使用学习算法来获取单幅输入图像中的高频信息和低频信息之间的对应关系,并利用此关系对输入图像的一个倍频程的空间频率内添加图像细节以获得高分辨率图像。该方法克服了传统插值方法中因过度平滑导致图像模糊和纹理保持较差的缺点,能够重现出传统插值方法不能复原出的一些高频图像细节。实验结果显示该算法在客观和主观上都比传统插值方法有更好的评价。  相似文献   

19.
Robustness is one of the most important topics for automatic speech recognition (ASR) in practical applications. Monaural speech separation based on computational auditory scene analysis (CASA) offers a solution to this problem. In this paper, a novel system is presented to separate the monaural speech of two talkers. Gaussian mixture models (GMMs) and vector quantizers (VQs) are used to learn the grouping cues on isolated clean data for each speaker. Given an utterance, speaker identification is firstly performed to identify the two speakers presented in the utterance, then the factorial-max vector quantization model (MAXVQ) is used to infer the mask signals and finally the utterance of the target speaker is resynthesized in the CASA framework. Recognition results on the 2006 speech separation challenge corpus prove that this proposed system can improve the robustness of ASR significantly.  相似文献   

20.
提出了一种基于小波变换的新型语音参数提取算法 ,提高语音识别系统对环境噪声的鲁棒性。由于引入了多分辨率小波分析技术 ,识别既在高频提供高的频率分辨又在低频提供高的时间分辨率。这样 ,提出的改进算法在语音词汇的识别更准确的同时 ,还大大简化了计算。将该算法和传统提取 MFCC系数的算法进行了比较,实验结果表明 ,利用小波计算语音特征具有更优的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号