首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
本文对神经网络语音识别中的语音特征提取、网络结构以及学习算法进行了初步的研究,提出了一种用于时特征矢量量化的简化和改进的自组织神经网络模型VQNN。VQNN中引入了动态规划法估计语音样本矢量的码本类中心初值并确定网络的初始权矩阵,可构造出256个量化等级的码本矢量。该方法具有较强的鲁棒性且矢量量化过程简单迅速。对28个地名的语音量化识别实验结果表明了这种量化方法对时识别的有性。  相似文献   

2.
针对当前关键词识别少资源或零资源场景下的要求, 提出一种基于音频自动分割技术和深度神经网络的关键词识别算法. 首先采用一种基于度量距离的改进型语音分割算法, 将连续语音流分割成孤立音节, 再将音节细分成和音素状态联系的短时音频片段, 分割后的音频片段具有段间特征差异大, 段内特征方差小的特点. 接着利用一种改进的矢量量化方法对音频片段的状态特征进行编码, 实现了关键词集内词的高精度量化编码和集外词的低精度量化编码. 最后以音节为识别单位, 采用压缩的状态转移矩阵作为音节的整体特征, 送入深度神经网络进行语音识别. 仿真结果表明, 该算法能从自然语音流中较为准确地识别出多个特定关键词, 算法易于理解、训练简便, 且具有较好的鲁棒性.  相似文献   

3.
为充分利用码本的级间相关性,提出了一种联合码本优化多级矢量量化(JCO-MSVQ)码本设计方法。每次迭代时,先将训练矢量对码字进行聚类,再对各级码本进行联合优化,利用条件期望逐级更新码本。实验数据表明,该算法在设计10维线谱频率(LSF)参数量化码本时,较随机松弛算法(SR)码本有更小的平均量化畸变。23比特/帧LSF参数量化器平均对数谱失真为0.87dB,达到了透明量化要求。  相似文献   

4.
语音识别中基于SFCM模糊聚类的矢量量化方法   总被引:4,自引:1,他引:3  
模糊聚类分析算法用隶属度确定样本所属类别,因其良好的效果而被广泛用于语音识别领域。文中提出了一种模糊聚类分析算法SFCM,并将其用于语音特征的矢量量化,最终形成码本尺寸为128的码本,用SFCM算法得到的码本分布合理,没有空类。采用此码本的误音识别实验表明了这种量化方法对语音识别的有效性。  相似文献   

5.
文章以SVM作为语音识别核心算法,以TMS320C6713DSK作为硬件平台,选择相应的语音识别算法,利用SVM和DSP各自的优势,设计了一款非特定人、小词汇量的连续实时语音识别系统;并在Matlab平台上进行了实验仿真,然后在TMS320C6713DSK开发板上进行论证;实际系统前端采用MFCC特征参数、并用遗传算法与矢量量化混合算法对其进行聚类得到优化码本,所采用种群数为80,码本长度为16,然后将所得码本作为SVM模式训练和识别算法的输入;结果表明,该系统在满足系统实时性的同时也提高了其正识率,具有一定的实用性。  相似文献   

6.
语音端点检测在语音处理中占有非常重要的地位,传统的检测方法是基于短时能量和过量率的双门限比较法,但是在信噪比较低的情况下,利用短时能量和过量率很难得到准确的检测结果。另外,在双门限比较法中,判别门限的取值对整个端点的检测影响很大,而这个门限值往往是靠经验所得,具有不稳定性。因此,针对传统方法的不足,根据语音帧间相关性,提出了一种改进算法。让语音信号通过双门限比较,完成端点检测的一级粗判,在语音起止点的模糊帧段,取一定范围的信号矢量,让这些矢量经过处理后再通过有限状态矢量量化器(FSVQ),得到量化矢量,再对量化矢量进行二级细判,从而得到准确的语音起止点。将改进算法应用于汉语连续数字语音识别,平均识别时间由原来的0.871s缩短为0.719s,平均识别率由原来的81.47%上升至89.13%,实验结果表明了该算法的有效性。  相似文献   

7.
设计了一种文本相关语音锁。提取语音的梅尔频谱倒谱系数(MFCC)及其一阶差分特征,利用矢量量化算法,训练说话者的语音特征模型。通过设计实验,分析了在不同的码本数量、语音样本信噪比水平、语音特征类别组合的情况下,系统的识别效果。实验结果表明:在一定的信噪比下,码本数量N=48时,识别准确率达到95%以上。移植到嵌入式平台后可正常运行,说明算法能够满足工程实用性要求。  相似文献   

8.
为了克服低速率声码器因清浊音硬判决、粗判决而导致解码语音有帧过渡等不自然感的缺陷,在分析比较目前主流声码器编码算法中激励参数提取和量化算法的基础上,将模糊数学中的隶属度概念引入语音子带清浊音描述中,提出了5维的浊音隶属度矢量概念,用于精细描述语音丰富的激励信息;介绍了浊音隶属度矢量的提取算法;提出了矢量量化码本的模糊聚类与LBG级联训练算法(F-LBG);用提取算法提取、建立了浊音隶属度码本的训练样本集,用F-LBG训练了浊音隶属度码本;将提取算法和F-LBG法训练得到的浊音隶属度码本分别应用于正弦激励声码器、混合激励声码器和同态声码器进行语音编、解码仿真;结果表明,用浊音隶属度矢量描述和合成语音激励信号的算法,具有较高的准确性和较强的噪声鲁棒性。  相似文献   

9.
为解决采用矢量量化的方法进行说话人识别时出现的失真问题,根据汉语语音的发音特性,提出了将矢量量化与语音特征的聚类技术相结合的方法,在进行矢量量化码书训练之前,先对特征矢量进行聚类筛选。实验结果表明,当测试语音片段长度为4 s时,在保持95%左右识别率下,采用普通矢量量化方法需64码本数,而采用该文方法只需8码本数,降低了8倍。结果说明该方法不但在一定程度上解决了因训练样本不足而引起的失真问题,而且通过方法的改进,实现了采用较低码字数产生较好的识别结果,从而提高识别效率。  相似文献   

10.
在矢量量化(VQ)的码本设计过程中,经典的LBG算法收敛速度快,但极易陷入局部最优,且初始码本的生成对最佳码本的设计影响很大。考虑到遗传算法(GA)是一种具有全局优化搜索能力的算法,提出了GA和LBG算法相结合的GA-L算法来优化码本,改善了码本质量,并将其应用于汉语连续数字语音识别中,实验结果表明了GA-L算法的有效性。  相似文献   

11.
华婷婷  肖铁军 《微计算机应用》2007,28(11):1164-1168
提出了一种基于模糊C-means聚类法的矢量量化,并将其用于语音特征的矢量量化。从语音信号中提取12阶MFCC倒谱系数作为待分群样本的矢量数据,有效地降低数据量及计算量,并可以避免杂信的不良影响。且实验得到的码本分布合理,没有空类,表明了该量化方法对语音识别很有效。  相似文献   

12.
Advanced feature extraction for keyblock-based image retrieval   总被引:1,自引:0,他引:1  
Keyblock, which is a new framework we proposed for content-based image retrieval, is a generalization of the text-based information retrieval technology in the image domain. In this framework, keyblocks, which are analogous to keywords in text document retrieval, can be constructed by exploiting the vector quantization method which has been used for image compression. Then an image can be represented as a code matrix in which the elements are the indices of the keyblocks in a codebook. Based on this image representation, information retrieval and database analysis techniques developed in the text domain can be generalized to image retrieval. In this paper, we present new models named n-block models which are the generalization of the n-gram models in language modeling to extract comprehensive image features. The effort to capture context in a text document motivated the n-gram models. Similarly, the attempt to capture the content in an image motivates us to consider the correlations of keyblocks within an image. By comparing the performance of our approach with conventional techniques using color feature and wavelet texture feature, the experimental results demonstrate the effectiveness of these n-block models.  相似文献   

13.
在G.729的语音编码算法中,线谱频率量化是采用预测式矢量量化。当语音传送中出现帧丢失时,采用该方法在译码端会产生误差积累,从而导致语音质量下降。为了降低误差积累的影响,本文提出了一种新型的矢量量化方法。实验结果表明,该方法在防止误差积累方面与G.729相比,性能有明显的提高。  相似文献   

14.
现有的低延迟语音编码算法(LD-CELP)需要16 kb/s比特率,无疑会妨碍它的应用。提出了一种采用两阶段码书搜索的方法可以在提高低延迟语音编码算法性能的同时降低码率。首先构造了两个子码书:一个后向更新的自适应码书和一个具有代数结构的固定码书;然后设计了两阶段码书搜索方法使滤波后的激励矢量和目标矢量之间的均方误差保持最小。这样就得到了一个在8 kHz采样率下具有2.5 ms延迟的10 kb/s两阶段码书搜索的CELP编码器。用平均分段信噪比(SSNR)和感知语音质量评价(PESQ)测试,本算法具有和16 kb/s的G.728相当的编码质量。  相似文献   

15.
自适应矢量量化在语音处理中有广泛的应用,提出了一种基于SFCM算法的自适应矢量量化码本的训练方法,其特点是通过模糊聚类方法,重新调整训练样本与码字之间的隶属度,达到最小编码失真,使码本更适合新说话人,且计算简单,方法的实验结果表明,可以使编码平均失真下降。  相似文献   

16.
一种基于MFCC和LPCC的文本相关说话人识别方法   总被引:1,自引:0,他引:1  
于明  袁玉倩  董浩  王哲 《计算机应用》2006,26(4):883-885
在说话人识别的建模过程中,为传统矢量量化模型的码字增加了方差分量,形成了一种新的连续码字分布的矢量量化模型。同时采用美尔倒谱系数及其差分和线性预测倒谱系数及其差分相结合作为识别的特征参数,来进行与文本有关的说话人识别。通过与动态时间规整算法和传统的矢量量化方法进行比较表明,在系统响应时间并未明显增加的基础上,该模型识别率有一定提高。  相似文献   

17.
An Image Retrieval Method Using DCT Features   总被引:1,自引:0,他引:1       下载免费PDF全文
  相似文献   

18.
为了减小LBG算法对初始码书的依赖性,提高跳出局部最优的能力,提出了一种基于协同进化的矢量量化码书设计方法(Coevolution Based LBG,CLBG)。该算法根据码书在同其他码书竞争中的表现来衡量码书的适应度。实验结果表明:CLBG有效地减小了算法对初始码书的依赖性,所得码书性能超过了其他典型的改进码书设计方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号