首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
本文提出了一个基于心理声学理论和实验的听觉感知模型,它模拟了人对声音响度的听觉感知特征。该模型可在数字信号处理器(DSP)或计算机上实现,模型的输出参数已被用于语音识别。实验表明,用该模型参数表示语音信号可在环境有噪声的情况下保持较高的识别率。  相似文献   

2.
一种基于听觉模型的语音特征提取方法   总被引:2,自引:0,他引:2  
提出了一种基于听觉模型的语音特征提取方法,从信号的过零点获得频率信息,从振幅值和非线性压缩获得强度信息,并对这种方法进行了误差分析,证明其噪声的鲁棒性。  相似文献   

3.
根据听觉认知神经信息处理的结构和功能,借鉴图像处理原理实现显著性计算方法,提出了一种基于选择性注意的认知神经机制的听觉显著性计算模型.该模型兼容了自上而下和自下而上两种听觉注意机制,可很好地模拟人类的听觉注意系统.在仿真和自然音频实验中,本模型在选择性注意的显著性提取、背景音抑制等方面都取得了令人满意的结果.  相似文献   

4.
关勇  李鹏  刘文举  徐波 《自动化学报》2009,35(4):410-416
传统抗噪算法无法解决人声背景下语音识别(Automatic speech recognition, ASR)系统的鲁棒性问题. 本文提出了一种基于计算听觉场景分析(Computational auditory scene analysis, CASA)和语者模型信息的混合语音分离系统. 该系统在CASA框架下, 利用语者模型信息和因子最大矢量量化(Factorial-max vector quantization, MAXVQ)方法进行实值掩码估计, 实现了两语者混合语音中有效地分离出目标说话人语音的目标, 从而为ASR系统提供了鲁棒的识别前端. 在语音分离挑战(Speech separation challenge, SSC)数据集上的评估表明, 相比基线系统, 本文所提出的系统的语音识别正确率提高了15.68%. 相关的实验结果也验证了本文提出的多语者识别和实值掩码估计的有效性.  相似文献   

5.
基于听觉模型的子波变换语音处理   总被引:2,自引:0,他引:2  
首先讨论了人类听觉信号处理的原理,进而将基于听觉模型的子波变换(WT)与短时傅里叶变换(STFT)进行了比较,突出了WT信号处理的独特之处。然后,简要讨论了其在语音处理中的应用。最后,给出了应用WT来进行声、韵母划分和音素周期检测的实验,其结果显示了WT在语音处理中的良好性能。  相似文献   

6.
李晶皎  孙杰 《控制与决策》1998,13(6):665-668,699
提出了一种基于听觉与小波变换处理的汉语语音基音的方法,在对听觉系统描述的基础上,给出了人的听觉与小波变换的关系,选取适合汉语事音基频提取的小波函数,给出了基频提取的应用实例和基于FCM模糊聚类分析的汉语四声调值识别结果。  相似文献   

7.
为体现听觉注意神经信息处理计算机制对听觉场景内容的自动分析与理解功能,本文基于人耳对频率变换的感知特性,结合深度信念网络的说话人辨识与听觉显著模型,提出了一种自上而下的听觉显著性注意提取模型.仿真结果表明:该模型具有可行性,同时在利用深度信念网络的说话人辨识技术中能够有效地凸显目标说话人的显著度.  相似文献   

8.
腭裂语音高鼻音等级的自动识别能为临床腭咽功能评估提供有效、客观、无创的辅助依据。对腭裂语音高鼻音等级自动分类系统进行了研究,利用听觉模型提取语音信号的听觉内部表达,并结合同步检测器提取软限制比(Soft Limited Ratio,SLR)谱特征作为特征参数,利用一对一支持向量机(1-v-1 Support Vector Machine,1-v-1SVM)实现腭裂语音高鼻音四类等级(正常、轻度、中度和重度)的自动划分。实验采用56名儿童的共3 086个语音样本,并对比了使用不同基底膜滤波器种类和个数,使用同步检测器和侧抑制网络对识别效果的影响。实验结果表明,使用基于等效矩阵带宽(Equivalent Rectangular Bandwidth,ERB)尺度的Gammatone滤波器的识别效果优于基于Bark尺度的小波包滤波器;54个通道的滤波器能有效权衡算法时间成本和识别正确率;使用同步检测器提取SLR谱特征的识别效果优于侧抑制网络提取的LIN(Lateral Inhibition Network)谱特征。腭裂语音高鼻音四类等级自动识别系统最高分类正确率达91.50%。  相似文献   

9.
人耳听觉系统能够在强噪声的环境下区分出自己感兴趣的语音,基于计算听觉场景分析(CASA)的基本原理,其重点和难点是找到合适的声音分离线索,完成目标语音信号和噪声信号的分离.针对单通道浊语音分离的问题,提出了一种以基音为线索的浊语音信号分离算法.在白噪声、鸡尾酒会噪声等六种噪声干扰条件下,通过仿真实验结果表明,相比于传统的谱减法,语音分离算法的输出信噪比平均提高了7.47 dB,并有效抑制了干扰噪声,改善了分离效果.  相似文献   

10.
吕菲  夏秀渝 《自动化学报》2017,43(4):634-644
经典的听觉注意计算模型主要针对声音强度、频率、时间等初级听觉特征进行研究,这些特征不能较好地模拟听觉注意指向性,必须寻求更高级的听觉特征来区分不同声音.根据听觉感知机制,本文基于声源方位特征和神经网络提出了一种双通路信息处理的自下而上听觉选择性注意计算模型.模型首先对双耳信号进行预处理和频谱分析;然后,将其分别送入where通路和what通路,其中where通路用于提取方位特征参数,并利用神经网络提取声源的局部方位特征,接着通过局部特征聚合和全局优化法得到方位特征显著图;最后,根据方位特征显著图提取主导方位并作用于what通路,采用时频掩蔽法分离出相应的主导音.仿真结果表明:该模型引入方位特征作为聚类线索,利用多级神经网络自动筛选出值得注意的声音对象,实时提取复杂声学环境中的主导音,较好地模拟了人类听觉的方位分类机制、注意选择机制和注意转移机制.  相似文献   

11.
语音情感识别的精度很大程度上取决于不同情感间的特征差异性。从分析语音的时频特性入手,结合人类的听觉选择性注意机制,提出一种基于语谱特征的语音情感识别算法。算法首先模拟人耳的听觉选择性注意机制,对情感语谱信号进行时域和频域上的分割提取,从而形成语音情感显著图。然后,基于显著图,提出采用Hu不变矩特征、纹理特征和部分语谱特征作为情感识别的主要特征。最后,基于支持向量机算法对语音情感进行识别。在语音情感数据库上的识别实验显示,提出的算法具有较高的语音情感识别率和鲁棒性,尤其对于实用的烦躁情感的识别最为明显。此外,不同情感特征间的主向量分析显示,所选情感特征间的差异性大,实用性强。  相似文献   

12.
针对多数语音识别系统在噪音环境下性能急剧下降的问题,提出了一种新的语音识别特征提取方法。该方法是建立在听觉模型的基础上,通过组合语音信号和其差分信号的上升过零率获得频率信息,通过峰值检测和非线性幅度加权来获取强度信息,二者组合在一起,得到输出语音特征,再分别用BP神经网络和HMM进行训练和识别。仿真实现了不同信噪比下不依赖人的50词的语音识别,给出了识别的结果,证明了组合差分信息的过零与峰值幅度特征具有较强的抗噪声性能。  相似文献   

13.
介绍一种基于新型小波听觉滤波器组的语音识别特征提取方法。按照人耳听觉临界频带带宽设计一组新型小波带通滤波器组,并详细计算给出构建新型小波滤波器所需要的尺度参数。采用SDA9000串行信号分析仪进行频谱分析,使用型号为MIC3000 Compact PCI Industrial Computer的LSP设备进行FPGA硬件仿真,使用协同神经网络进行模式识别,建立基于Matlab GUI的仿真界面,与高斯小波滤波器组模型所得仿真结果进行对比,从功率谱图和识别结果上进行分析,证明新型小波滤波器组具有更优的识别率和抗噪性。  相似文献   

14.
稳健语音识别技术研究   总被引:4,自引:0,他引:4  
文章在简单叙述稳健语音识别技术产生的背景后,着重介绍了现阶段国内外有关稳健语音识别的主要技术、研究现状及未来发展方向。首先简述了引起语音质量恶化、影响语音识别系统稳健性的干扰源。然后介绍了抗噪语音特征的提取、声学预处理、麦克风阵列及基于人耳的听觉处理等技术路线及发展现状。最后讨论了稳健语音识别技术未来的发展方向。  相似文献   

15.
基于知识的汉语连续语音识别研究   总被引:1,自引:0,他引:1  
  相似文献   

16.
Robustness is one of the most important topics for automatic speech recognition (ASR) in practical applications. Monaural speech separation based on computational auditory scene analysis (CASA) offers a solution to this problem. In this paper, a novel system is presented to separate the monaural speech of two talkers. Gaussian mixture models (GMMs) and vector quantizers (VQs) are used to learn the grouping cues on isolated clean data for each speaker. Given an utterance, speaker identification is firstly performed to identify the two speakers presented in the utterance, then the factorial-max vector quantization model (MAXVQ) is used to infer the mask signals and finally the utterance of the target speaker is resynthesized in the CASA framework. Recognition results on the 2006 speech separation challenge corpus prove that this proposed system can improve the robustness of ASR significantly.  相似文献   

17.
针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之前所有端到端模型,在数据堂开源的200 h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性。  相似文献   

18.
针对单声道语音分离中浊音分离的问题,提出了一种准确估计基音周期的方法。首先,以语音的短时平稳性和基音周期的连续性等为线索,利用语音信号的倒谱峰值构成基音周期谱图,并自动提取基音周期轨迹。然后,利用谐波频率为基音频率整数倍的性质来拾取各次谐波的频谱。最后,通过傅里叶逆变换对浊音进行重构。实验结果表明,该方法能准确提取基音周期轨迹,有效分离浊音信号。  相似文献   

19.
    
We compared the performance of an automatic speech recognition system using n-gram language models, HMM acoustic models, as well as combinations of the two, with the word recognition performance of human subjects who either had access to only acoustic information, had information only about local linguistic context, or had access to a combination of both. All speech recordings used were taken from Japanese narration and spontaneous speech corpora.Humans have difficulty recognizing isolated words taken out of context, especially when taken from spontaneous speech, partly due to word-boundary coarticulation. Our recognition performance improves dramatically when one or two preceding words are added. Short words in Japanese mainly consist of post-positional particles (i.e. wa, ga, wo, ni, etc.), which are function words located just after content words such as nouns and verbs. So the predictability of short words is very high within the context of the one or two preceding words, and thus recognition of short words is drastically improved. Providing even more context further improves human prediction performance under text-only conditions (without acoustic signals). It also improves speech recognition, but the improvement is relatively small.Recognition experiments using an automatic speech recognizer were conducted under conditions almost identical to the experiments with humans. The performance of the acoustic models without any language model, or with only a unigram language model, were greatly inferior to human recognition performance with no context. In contrast, prediction performance using a trigram language model was superior or comparable to human performance when given a preceding and a succeeding word. These results suggest that we must improve our acoustic models rather than our language models to make automatic speech recognizers comparable to humans in recognition performance under conditions where the recognizer has limited linguistic context.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号