首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
随着手持设备的日益小型化以及一些特殊场合的限制,使用语音识别这种自然的人机接口技术愈发显得迫切。基于HMM架构的语音识别技术经过几十年的发展,在实验室环境下已经取得了很高的识别率。当前已经取得的技术要想走向实用化,所面临的最大障碍来自于语音识别前端的鲁棒性问题。本文对语音识别的前端鲁棒性问题做了比较深入细致的分析,并在此基础上比较全面地介绍了解决这些棘手问题所采取的一些措施。文章最后对语音识别前端鲁棒性问题给出了一定的讨论和展望。  相似文献   

2.
该文阐述了语音信号的特点,语音识别过程及技术,重点讨论了例谱技术及其在语音信号特征提取中的应用,并将自组织映射神经网络应用到语音识别中,提出了网络模型。  相似文献   

3.
4.
柏财通  崔翛龙  郑会吉  李爱 《计算机应用》2022,42(10):3217-3223
针对标注神经网络训练数据的成本日益增加与噪声干扰阻碍语音识别系统性能提升的问题,提出一种基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法。首先,在预处理阶段提取原始语音样本的三个人工特征;然后,在训练阶段将特征提取网络生成的高级特征分别通过三个浅层网络来拟合预处理阶段提取的人工特征;同时,把特征提取前端与语音识别后端进行交叉训练,并合并它们的损失函数;最后,通过梯度反向传播令特征提取网络学会提取更有助于去噪语音识别的高级特征,从而实现人工知识迁移与去噪,并高效利用了训练数据。在军事装备控制的应用场景下,基于加噪后的THCHS-30、希尔贝壳数据集AISHELL-1与ST-CMDS这三个开源中文语音识别数据集以及军事装备控制指令的数据集上进行测试,实验结果表明,基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法词错率可以降低到0.12,不仅可以实现对鲁棒性语音识别模型的模型训练,同时通过自监督知识迁移提高了训练样本的利用率,可完成装备控制任务。  相似文献   

5.
基于瞬时频率估计和特征映射的汉语耳语音话者识别   总被引:1,自引:0,他引:1  
耳语音是有别于正常音的一种微弱语音信号,在正常音训练的说话人识别系统中,用耳语音进行识别时会造成系统性能的急速下降。本文在基于语音产生的调幅-调频(AM-FM)模型基础上,采用多带解调分析(Multi-band demodulation analysis,MDA)和能量分离算法(Energy separation algorithm,ESA)计算语音信号的瞬时频率,作为语音的一种特征。随后在基于耳语音和正常音来自不同信道的假设下,对语音的参数做特征映射后再进行训练和识别,以减少信道对系统的影响。实验表明,和传统的MFCC参数相比,加入特征映射后系统的识别率得到提高,且IFE的识别率和稳健性都优于MFCC。  相似文献   

6.
提出一种噪声环境下具有鲁棒性的语音识别系统的设计方法。首先,简单介绍了在高噪声环境下语音识别所遇到的问题,随后,建立了描述噪声环境中语音的加性卷积干扰及非正常发音的飞行员语音仪器畸变模型,采用二次判头尾方法较好解决了噪语音端点检验困难的问题。  相似文献   

7.
毕继武  韩纪庆 《计算机科学》2002,29(12):150-153
1 引言话者在心理紧张和情绪变化时语音会发生变异,如在身体不适(如感冒)时、恐惧、愤怒、环境噪声影响下,以及生理情况受到影响(如加速度变化)时,其语音都会发生改变。发音变异可以引起各语音参数的不同变化,以致常规语音识别系统的识别率大大下降。从八十年代末开始,就有人研究顽健(ro-bust)语音识别问题,针对噪声下的研究工作已经取得了非常显著成效,但针对应力影响下变异语音识别的研究则很有限。应力影响下变异语音识别是一个难度较大的问题,因为应力影响同人的发音过程具有直接的物理关系,其所引起的发音  相似文献   

8.
为了提高语音识别系统的鲁棒性,提出一种基于GBFB(spectro-temporal Gabor filter bank)的声学特征提取方法,并通过分块PCA算法对高维的GBFB特征进行降维处理,最后在多个相同噪音环境对GBFB特征以及常用的GFCC,MFCC,LPCC等特征进行抗噪性能对比,与GFCC相比GBFB特征的识别率提高了5.35%,与MFCC特征相比提升了7.05%,比LPCC特征识别的基线低9个分贝。实验结果表明,在噪音环境下与传统的GFCC、MFCC以及LPCC等特征相比GBFB特征有更优越的鲁棒性。  相似文献   

9.
本文用Kohonen自组织特征映射网对条形码进行识别,充分利用Kohonen网的自组织性、自适应性及对输入信号的高容错能力,使得既使在条码黑色位、白色位的隶属度等子0.5时仍能获得较好的识别结果,使系统的识别率得到了较大的提高,对条码仿真数据的识别表明了这一点,从而为条码的识别提供了新的方法。  相似文献   

10.
语音情绪识别指使用机器从说话人的语音中识别说话人的情绪。语音情绪识别是人机交互的重要环节,但是目前的研究中仍然存在很多问题,例如,缺乏高质量的数据、模型准确性不足、在嘈杂的环境下进行的研究很少等。文中提出了一种基于多头注意力机制的Head Fusion方法,提高了语音情绪识别在相应数据集上的准确性。文中还实现了一个基于注意力的卷积神经网络模型,并在IEMOCAP数据集上进行了实验。语音情绪识别在该数据集上的准确度提高到76.18%(Weighted Accuracy, WA)和76.36%(Unweighted Accuracy, UA)。根据调研,该结果与该数据集上的最新结果(76.4%的WA和70.1%的UA)相比,在保持WA的同时提高了约6%的UA。此外,还使用了混入50种常见噪声的语音数据进行了实验,通过改变噪声强度、对噪声进行时域平移、混合不同的噪声类型,以识别它们对语音情绪识别(Speech Emotion Recognition)准确度的不同影响并验证模型的鲁棒性。文中还将帮助研究人员和工程师通过使用带有适当类型噪声的语音数据来增加其训练数据,从而缓解语音情绪识别研究中高...  相似文献   

11.
刘红  刘蓉  李书玲 《计算机应用》2015,35(1):189-193
针对手势交互中手势信号的相似性及不稳定性,设计并实现了一种基于随机投影(RP)的加速度手势识别方法.识别系统包含训练阶段和测试阶段:训练阶段运用动态时间规整(DTW)和近邻传播(AP)算法对训练集中的每一个手势迹创建样本中心;测试阶段先通过计算未知手势迹与样本中心的距离找出候选姿势迹,然后用RP算法将候选手势迹和未知手势迹投影到低维子空间,把识别问题转换成l1-minimization问题来对未知的手势迹进行识别.在采集的2400个数据样本上进行了基于特定人和非特定人的实验,结果表明所提算法分别取得了98.41%和96.67%的识别率,该方法能够有效识别加速度手势动作.  相似文献   

12.
改进的混合MFCC语音识别算法研究   总被引:3,自引:0,他引:3       下载免费PDF全文
针对MFCC特征参数在语音识别中对中高频信号的识别精度不高的特点,提出采用IMFCC,MIDMFCC,MFCC相结合的改进算法,使用混合滤波器组,提高在语音中高频区域中的识别精度。实验结果表明,改进之后的算法与经典算法比较,在相同环境下对语音信息的识别率都有一定程度的提高。  相似文献   

13.
It is an effective approach to learn the influence of environmental parameters,such as additive noise and channel distortions,from training data for robust speech recognition.Most of the previous methods are based on maximum likelihood estimation criterion.However,these methods do not lead to a minimum error rate result.In this paper,a novel discriinative learning method of environmental parameters,which is based on Minimum Classification Error (MCE) criterion,is proposed.In the method,a simple classifier and the Generalized Probabilistic Descent (GPD)algorithm are adopted to iteratively learn the environmental parameters.Consequently,the clean speech features are estimated from the noisy speech features with the estimated environmental parameters,and then the estimations of clean speech features are utilized in the back-end HMM classifier,Experiments show that the best error rate reudction of 32.1% is obtained,tested on a task of 18 isolated confusion Korean words,relative to a conventional HMM system.  相似文献   

14.
基于发音特征的音/视频双流语音识别模型*   总被引:1,自引:0,他引:1  
构建了一种基于发音特征的音/视频双流动态贝叶斯网络(dynamic Bayesian network, DBN)语音识别模型,定义了各节点的条件概率关系,以及发音特征之间的异步约束关系,最后在音/视频连接数字语音数据库上进行了语音识别实验,并与音频单流、视频单流DBN模型比较了在不同信噪比情况下的识别效果。结果表明,在低信噪比情况下,基于发音特征的音/视频双流语音识别模型表现出最好的识别性能,而且随着噪声的增加,其识别率下降的趋势比较平缓,表明该模型对噪声具有很强的鲁棒性,更适用于低信噪比环境下的语音识别  相似文献   

15.
Histogram equalization (HEQ) is one of the most efficient and effective techniques that have been used to reduce the mismatch between training and test acoustic conditions. However, most of the current HEQ methods are merely performed in a dimension-wise manner and without allowing for the contextual relationships between consecutive speech frames. In this paper, we present several novel HEQ approaches that exploit spatial-temporal feature distribution characteristics for speech feature normalization. The automatic speech recognition (ASR) experiments were carried out on the Aurora-2 standard noise-robust ASR task. The performance of the presented approaches was thoroughly tested and verified by comparisons with the other popular HEQ methods. The experimental results show that for clean-condition training, our approaches yield a significant word error rate reduction over the baseline system, and also give competitive performance relative to the other HEQ methods compared in this paper.  相似文献   

16.
通过对MFCC算法的研究,发现其中的FFT在整个时频空间使用固定的分析窗,这不符合语音信号的特性,而小波变换具有多分辨率特性,更符合人耳的听觉特性。提出了动静态特征参数结合的语音信号识别方法,首先在特征参数提取中引入了小波包变换,借助MFCC参数的提取方法,用小波包变换代替傅里叶变换和Mel滤波器组,提取了新的静态特征参数DWPTMFCC,然后把它与一阶DWPTMFCC差分参数相结合成一个向量,作为一帧语音信号的参数。仿真实验证明:基于新特征的识别率比原来MFCC的识别率有了很大提高,特别是在低信噪比情况下。  相似文献   

17.
基于发音特征的声效相关鲁棒语音识别算法   总被引:1,自引:0,他引:1  
晁浩  宋成  彭维平 《计算机应用》2015,35(1):257-261
针对声效(VE)相关的语音识别鲁棒性问题,提出了基于多模型框架的语音识别算法.首先,分析了不同声效模式下语音信号的声学特性以及声效变化对语音识别精度的影响;然后,提出了基于高斯混合模型(GMM)的声效模式检测方法;最后,根据声效检测的结果,训练专门的声学模型用于耳语音识别,而将发音特征与传统的谱特征一起用于其余4种声效模式的语音识别.基于孤立词识别的实验结果显示,采用所提方法后语音识别准确率有了明显的提高:与基线系统相比,所提方法5种声效的平均字错误率降低了26.69%;与声学模型混合语料训练方法相比,平均字错误率降低了14.51%;与最大似然线性回归(MLLR)自适应方法相比,平均字错误率降低了15.30%.实验结果表明:与传统谱特征相比发音特征对于声效变化更具鲁棒性,而多模型框架是解决声效相关的语音识别鲁棒性问题的有效方法.  相似文献   

18.
通过分布式语音识别DSR的研究,提出了基于FPGA平台的前端处理系统结构。对其中两个除法器分别采用了LUT查找表和常数除法器的结构。用VerilogHDL语言进行建模仿真,并与Matlab的建模结果进行了对比。结果表明,与之前的方法相比,系统能够在较短的时钟周期内计算出LPCC系数,节省了大量的运算时间和一定的面积。  相似文献   

19.
提出了一种改进脉冲耦合神经网络(IPCNN)实现语音识别的方法。首先利用IPCNN来快速提取语音的语谱图图像特征,然后由概率神经网络(PNN)辅助来识别语音。通过训练语音样本来构成语音识别库并建立综合识别系统。实验结果表明,本方法相对于单独使用PCNN和PNN识别率分别提高了22.7%和39.4%,达到92%的识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号