首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
耳语音声调特征的研究   总被引:9,自引:0,他引:9  
介绍了耳语音的声学特性,在没有基频的情况下,通过人耳听觉实验验证了孤立的耳语音节是带有声调信息的,并得出幅值包络和音长都是耳语音声调的重要特征。  相似文献   

2.
潘欣裕  赵鹤鸣 《信号处理》2011,27(10):1525-1530
声带准周期振动的缺失,使得汉语耳语音成为了一种特殊的发音模式,也使得耳语声调无法用基音周期表征。目前用于语音识别和声纹识别的常规语音特征,包含声调信息较少,所以在声调识别实验中很难获得良好的效果。本文提出一种新的特征参数来模拟正常语音的基频声调轨迹,即以人的听觉特性为出发点,研究人的声调敏感Bark频带,发现部分扩散Bark谱能量归一化比例拟合曲线,能够呈现出类似正常语音的基频轨迹,这说明在某些方面该轨迹或多或少包含了耳语音的声调信息。在以该轨迹和语音短时能量曲线为特征,以神经网络为模型的耳语声调识别实验中获得了较高的识别正确率,汉语四声的总体识别正确率高达78%,这也为对耳语音的进一步处理提供了很多有力依据。   相似文献   

3.
本文介绍了基于连续分布型HMM的汉语连续语音声调识别方法,提出了一个适合于汉语连续语音声调识别的特征参数提取和识别方案.通过对汉语连续语音声调特点的分析,选择了8个音节单位的连续分布型HMM作为声调识别用基元模型进行识别试验,识别结果表明,10名话者1070个句子的连续语音声调识别的平均识别率是95.1%.  相似文献   

4.
汉语普通话是一种带声调的语言,声调信息在汉语连续语音识别中具有非常重要的作用。传统的连续语音声调识别算法一般只研究阴平、阳平、上声、去声的声调特征,却很少讨论第零声(即轻声)的声调特征。利用归一化自相关函数法研究了轻声音节基频轨迹的特点,并给出了可用于识别轻声音节的一些基本声调特征。  相似文献   

5.
作为汉语语音识别的重要组成部分,声调识别具有关键的作用.提出了一种新的基于前后文相关的模型识别方法用以提高汉语连续语音中的识别率.首先介绍用于声调识别的基因轨迹的提取和处理,然后提出6种特征来描述基因轨迹的变化趋势并给出具体的计算公式,利用这些特征并考虑连续语音中前后音节的相关性对基因轨迹造成的变化而建立细分的声调模型...  相似文献   

6.
许利群  陈永彬 《通信学报》1989,10(3):56-60,51
基于超音段信息在语音感知中的显著作用。本文提出了一种新颖的汉语双音节词(二字词)识别方案。首先将输入语音调型进行时、频归一化处理,并将其和参考调型匹配;再对由此得到的候选集进行精确的谱匹配。在这步处理中结合了动态能量信息,并采用了修正的动态规划算法。实验结果表明,这种方案对于高混淆性汉语二字词识别十分有效。  相似文献   

7.
语音情感识别中,情感特征信息的提取和选择、情感识别模型的选择是2个重要部分.结合语音信号的声学特征参数和听觉特征参数进行情感识别,针对两类不同情感之间的差别选择最优的特征集,并设计了一个基于神经网络的情感交叉识别,与听觉特征参数结合,经过分类器得到识别情感,达到平均92%识别率.  相似文献   

8.
钱兆鹏  肖克晶  刘蝉  孙悦 《电子学报》2020,48(5):840-845
电子喉语音存在基频单一、发声机械、辐射噪声大等多种缺陷,这严重影响了电子喉语音可懂度和自然度,特别是对汉语普通话之类的声调语言,问题尤其严重.汉语普通话电子喉语音识别存在辅音混淆的问题并且识别结果没有声调,因此本文在识别结果的基础之上设计了拼音拼写修正器和声调标注工具,再结合基于Tacotron-2的TTS实现了电子喉语音向正常语音的转换.客观评价实验结果表明,拼音拼写修正器可以提高拼音准确率,声调标注在有上下文的语义环境中具有较高准确率.主观听力测试结果表明,本文所提方法在不同语言水平上提高了汉语普通话电子喉语音的可懂度和自然度.研究结果表明,本文设计的方法可以将不带声调的电子喉语音转换为正常语音,相比于传统语音转换方法具有更高的性能.  相似文献   

9.
本文根据心理声学的基本理论和实验资料,提出了一个基于听觉感知特征的听觉模型,与基于生理声学的听觉模型相比较,该模型更能反映人对连续自然语音的感知特性,因而适于对连续语音的识别。  相似文献   

10.
一种新的听觉感知模型   总被引:2,自引:0,他引:2  
本文根据心理声学的基本理论和实验资料,提出了一个基于听觉感知特征的听觉模型,与基一生理声学的听觉模型相比较,该模型更能反映人对连续自然语音的感知特性,因而适于对连续语音的识别。  相似文献   

11.
董桂官  沈勇 《电声技术》2011,35(4):51-52,66
通过分析由32人录制的143段汉语耳语语段的耳语频谱,发现同一人的耳语频谱之间的差异远小于不同人的耳语频谱之间的差异.基于此提出了一种通过比较耳语语段的耳语频谱差异,可用于话者识别的方法,并通过实验验证了该方法的可行性.  相似文献   

12.
赵越  林玮 《电声技术》2016,40(11):48-52
耳语音的声学特征是研究其语音识别和说话人识别的重要组成部分.介绍了耳语音的特点并讨论了其声学特征.由于耳语音没有基频,所以共振峰与音长特性可以作为重要的声学参数用于识别.对汉语6个耳语音元音进行了分析研究,证明共振峰频率和音长可以作为耳语音识别的特征参数.  相似文献   

13.
黄程韦  金赟  包永强  余华  赵力 《信号处理》2013,29(1):98-106
本文中我们提出了一种将高斯混合模型同马尔可夫网络结合的时域多尺度语音情感识别框架,并将其应用在耳语音情感识别中。针对连续语音信号的特点,分别在耳语音信号的短句尺度上和长句尺度上进行了基于高斯混合模型的情感识别。根据情绪的维度空间论,耳语音信号中的情感信息具有时间上的连续性,因此利用三阶的马尔可夫网络对多尺度的耳语音情感分析进行了上下文的情感依赖关系的建模。采用了一种弹簧模型来定义二维情感维度空间中的高阶形变,并且利用模糊熵评价将高斯混合模型的似然度转化为马尔可夫网络中的一阶能量。实验结果显示,本文提出的情感识别算法在连续耳语音数据上获得了较好的识别结果,对愤怒的识别率达到了64.3%。实验结果进一步显示,与正常音的研究结论不同,耳语音中的喜悦情感的识别相对困难,而愤怒与悲伤之间的区分度较高,与Cirillo等人进行的人耳听辨研究结果一致。   相似文献   

14.
15.
针对目前研究听觉注意的实验范式采用电极数量较多,且使用P3电位诱发时间比较长等问题,设计了一种基于听觉诱发中潜伏期反应(MLR)的实验范式。首先在注意与非注意两种状态下诱发出相应的MLR,再分别计算MLR的能量、方差、面积、AR模型系数和波形峰值作为特征值。最后,通过模式识别算法进行分类。实验结果表明:8位受试者以人工神经网络(ANN)为分类器的平均正确率可达到77.2%,本范式对于大部分受试者的效果较理想。  相似文献   

16.
A time-domain digital cochlear model   总被引:1,自引:0,他引:1  
The author presents a digital time-domain model of the human cochlea designed to represent normal auditory functioning and to allow for degradation related to auditory impairment. The model consists of the middle ear, the mechanical motion of the cochlea, and the neural transduction of the inner hair cells. The traveling waves on the cochlear partition are represented by a cascade of digital filter sections, and the cochlear micromechanics are represented by a second filter that further sharpens the excitation to the inner hair cells. The neural firing rate is determined by the sum of the outputs of multiple fibers attached to each inner hair cell, with the fiber neurons having firing characteristics representative of low- and high-spontaneous-rate fibers. The signal processing cochlear model incorporates dynamic-range compression by adjusting the Q of each cochlear filter section and second filter in response to the second-filter velocity and the averaged neural firing rate. Examples of the model response to impulse and tone-burst stimuli and to synthetic speech are presented  相似文献   

17.
耳语音识别可应用于国家安全的某些特殊需要。运用双门限法对语音样本进行端点检测,通过实验分别找出短时能量、短时过零率的高低门限4个参数的最佳取值。深入分析研究参数的抗噪问题,在MFCC参数中引入短时能量、一阶差分、二阶差分等参数,增强MFCC的抗噪性。研究表明,在隐马尔可夫模型中,MFCC和LPCC联合运用讨论识别效果要远优于独立参数。  相似文献   

18.
This paper presents the results on whispered speech recognition using gammatone filterbank cepstral coefficients for speaker dependent mode. The isolated words used for this experiment are taken from the Whi-Spe database. Whispered speech recognition is based on dynamic time warping and hidden Markov models methods. The experiments are focused on the following modes: normal speech, whispered speech and their combinations (normal/whispered and whispered/normal). The results demonstrated an important improvement in recognition after application of cepstral mean subtraction, especially in mixed train/test scenarios.  相似文献   

19.
基于EMD拟合特征的耳语音端点检测   总被引:4,自引:0,他引:4  
耳语音作为人类发音的一种特殊形式,与正常语音相比具有信噪比低、元音的周期特征不明显等特性,因而耳语音处理比正常语音更为困难。耳语音处理研究的第1个关键步骤就是语音的端点检测,该文利用希尔伯特-黄变换(Hilbert-Huang Transform, HHT)中的经验模态分解(Empirical Mode Decomposition, EMD),首次提出了一种基于EMD拟合特征的耳语音端点检测新方法。利用EMD得到的内禀模态函数(Intrinsic Mode Function, IMF)能量,以其归一化拟合参数为耳语音端点检测的特征,可以准确地划分出耳语音端点。实验表明,该方法在耳语音端点检测中取得了很好的效果,在1200个信噪比为2~10dB的测试样本中,检测准确率为98.25%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号