首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
荣传振  岳振军  王渊  杨宇 《信号处理》2015,31(10):1301-1306
论文针对传统的统计语言模型所面临的数据稀疏和估计严苛性问题,提出基于模糊表示的n-元语法模型,并将其应用于唇语识别系统中,结合隐马尔科夫模型(Hidden Markov Model),建立了新的唇动识别模型—HFM(HMM and Fuzzy Language Model)。利用教育部语言文字应用研究所计算语言学研究室研制的语料库在线系统,制作了一个小型语料库,进行了句子识别实验。实验结果表明,HFM可使单音识别率最高提高6.5%,句子识别率最高提高22.7%,另外,采用语言模型对文字流进行解析,而不再是盲目文字匹配,单一视觉流的解析精确度达68.7%。   相似文献   

2.
嘴唇是人脸特征的重要组成部分,嘴部的定位和识别在口型识别与跟踪,唇读以及人脸动画合成等方面都起着十分关键的作用.首先在YCbCr空间建立肤色模型,对复杂背景图像中的人脸区域进行检测、定位,并进行去噪处理;然后在标准RGB彩色空间中,利用唇色进行嘴唇区域的提取.实验结果表明该方法可以完成在不同光照、不同背景下的人脸嘴唇区域的快速检测和定位.  相似文献   

3.
语音情感识别对于实现人机交互具有重要的应用价值.语音情感识别中,情感特征的选取与组合对于情感识别的准确率影响巨大.已有研究中,情感特征对识别率的贡献停留在定性分析中,未有定量的描述,不利于情感识别中特征的选择.本文针对中文语音情感识别中的常用特征进行定量分析,通过不同的情感特征进行组合,采用支持向量机进行分类,得到各情感特征对识别的贡献率.实验结果表明,单个特征中,梅尔倒谱系数贡献率最高,达到了78%;特征组合中,特征越多对识别率贡献越大.  相似文献   

4.
唇语识别任务本身具有复杂性和多样性,为了应对这些挑战,提出了一种基于自注意力序列模型的唇语识别方法,并在带有上下文信息的单词级唇语识别任务中取得了很好的结果,模型在LRW数据集上的Top1准确率为84.79%,比主流的方法提高了2.75%的准确率。通过多方面详细的分析和比较,证明了自注意力机制能有效提高唇语识别的性能。  相似文献   

5.
刘亚荣  黄昕哲  谢晓兰  刘鑫 《信号处理》2020,36(6):1020-1028
通过对复杂环境下声音识别技术进行研究,本文提出了美尔谱系数(MFSC)与卷积神经网络(CNN)相组合的环境声音识别方法。对声音事件提取其MFSC特征,将特征参数作为输入送入设计好的CNN模型中对声音事件进行分类。实验数据集采用ESC-10,将构建的卷积神经网络模型与随机森林、支持向量机(SVM)、深度神经网络(DNN)及DCASE比赛中常用的三种识别模型进行对比实验。实验结果表明,在相同数据集下,本文所设计的美尔谱系数与卷积神经网络相组合的环境声音识别方法相较传统的声音识别方法在识别率上分别有13.1%,18.3%,15.7%的提升,相较于DCASE比赛中的三种常用识别模型,本文所设计识别模型识别率及识别效率均有明显的优势。   相似文献   

6.
《现代电子技术》2019,(8):159-163
针对汉语塞音发音易混淆、变化速率快等不易识别的问题,提出在语音和声学特征基础上,加入其他特征参数来提高汉语塞音的识别性能。提取的参数包括嗓音起始时间(VOT)、音轨方程、发音器官运动轨迹位移、速度和加速度的运动学特征,并将提取的声学和运动学特征进行融合,形成不同的特征组合;再分别对特征组合进行主成分分析(PCA)和信息熵计算;最后通过SVM识别网络,测试特征组合的识别性能。测试结果显示,通过PCA后特征组合识别率排名Top-10的组合与熵计算后的特征组合排名一致,表明特征组合识别塞音的稳定性;且与单组特征相比,Top-10特征组合识别率都有提高,PCA后其识别率最高达到97.45%。  相似文献   

7.
语音情感识别是实现智能人机交互的关键技术之一。然而,用于语音情感识别的语音情感特征十分有限。为此,本文提出一种新型的语谱图显著性特征来改善语音情感识别效果。识别算法利用选择性注意模型获取语音信号语谱图像的显著图,并从中提取显著性特征,结合语音信号传统的时频特征构成语音情感识别特征向量。最后,本文利用KNN分类方法进行语音情感识别。实验结果表明,加入显著性特征后识别率有明显提升。  相似文献   

8.
针对混响环境中语音识别率相对安静环境下急剧下降的问题,提出了一种将语音视觉信息与音频特征相结合的方法.通过快速检测和定位包含说话人唇部的感兴趣区域(ROI),获得ROI图像序列.首先对ROI图像进行离散余弦变换,提取反映说话人唇动的视觉特征.音频特征的提取,则采用较为成熟的Mel频率倒谱系数(MF-CC)方法.对所获取的视、音特征采用隐马尔可夫模型作为训练识别算法.测试实验结果证明,采用视、听特征相结合的方法,有效地提高了混响环境中的语音识别率.  相似文献   

9.
谢松云  张娟丽  段绪  刘畅  李亚兵 《电子学报》2017,45(7):1660-1667
针对少导联P300单次提取识别率较低的问题,提出了一种基于矩阵灰建模的参数模型法提取特征的方法,提高了P300单次识别率.首先对脑电信号进行预处理,然后选择导联组合,接着对每个Epoch进行建模,将模型参数作为特征向量输入SVM分类识别.结果表明,单次P300的平均识别率为91.43%,叠加平均3次正确率可高达97.87%.  相似文献   

10.
《现代电子技术》2016,(19):136-139
为了提高过电压识别的准确性,以及加快过电压的识别速度,提出一种自适应遗传算法优化支持向量机的过电压识别方法。首先针对单一特征信息难以获得过电压高识别率的问题,采用时域波形、波头、时频谱的组合特征作为过电压识别特征,然后采用过电压的训练样本对支持向量机进行学习,建立过电压识别的分类器,并引入自适应遗传算法对支持向量机参数进行优化,最后采用具体过电压识别实例进行性能仿真分析。结果表明,该方法的过电压平均识别率达到95%以上,远远超过了实际应用的85%要求,且识别结果要优于其他过电压识别方法。  相似文献   

11.
视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。这种方法免去了繁重的人工标注工作,避免了标注错误。实验表明,将'VisemicLDA视觉特征引入到听视觉语音识别中,可以大大地提高噪声条件下语音识别系统的识别率;将这种视觉特征与多数据流HMM结合之后,在信噪比为10dB的强噪声情况下,识别率仍可以达到80%以上。  相似文献   

12.
Speech Emotion Recognition (SER) represents one of the emerging fields in human-computer interaction. Quality of the human-computer interface that mimics human speech emotions relies heavily on the types of features used and also on the classifier employed for recognition. The main purpose of this paper is to present a wide range of features employed for speech emotion recognition and the acoustic characteristics of those features. Also in this paper, we analyze the performance in terms of some important parameters such as: precision, recall, F-measure and recognition rate of the features using two of the commonly used emotional speech databases namely Berlin emotional database and Danish emotional database. Emotional speech recognition is being applied in modern human-computer interfaces and the overview of 10 interesting applications is also presented in this paper to illustrate the importance of this technique.  相似文献   

13.
This paper describes a method to select a suitable feature for speech recognition using information theoretic measure. Conventional speech recognition systems heuristically choose a portion of frequency components, cepstrum, mel-cepstrum, energy, and their time differences of speech waveforms as their speech features. However, these systems never have good performance if the selected features are not suitable for speech recognition. Since the recognition rate is the only performance measure of speech recognition system, it is hard to judge how suitable the selected feature is. To solve this problem, it is essential to analyze the feature itself, and measure how good the feature itself is. Good speech features should contain all of the class-related information and as small amount of the class-irrelevant variation as possible. In this paper, we suggest a method to measure the class-related information and the amount of the class-irrelevant variation based on the Shannon's information theory. Using this method, we compare the mel-scaled FFT, cepstrum, mel-cepstrum, and wavelet features of the TIMIT speech data. The result shows that, among these features, the mel-scaled FFT is the best feature for speech recognition based on the proposed measure.  相似文献   

14.
This paper deals with the formant features of the speech signals for nasal /n/, /m/ and liquid /l/, /r/ sounds in CV (consonant-vowel) syllables. The experimental material is based on the study of the features of these syllables uttered by four Italian speakers (one female and three male) in continuous speech. The features of CV combinations are presented in the form of generalized patterns of formant frequency evolutions, amplitudes, and tables. The experimental data can be used in designing recognition algorithms which allow the distances in the multidimensional space to be computed, or the rules with respect to a fuzzy grammar to be inferred.  相似文献   

15.
周宇欢  张雄伟  付强  徐鑫  王金明 《信号处理》2011,27(12):1914-1919
语音是一种复杂的非线性信号,这使得基于线性系统理论发展起来的传统说话人识别技术性能难以进一步提高。本文提出了多分形谱簇分析方法,用于分析语音信号的非线性特征,并应用于短语音(2秒)说话人识别。通过对Cantor集的仿真实验,发现不同标度区能反映出系统不同阶段的生长规律,因此可用一组连续变化的多分形谱分层次地表征系统的分形特性,即多分形谱簇分析方法。然后结合语信号的分形特点,提出一种语音的多分形谱簇特征(Multifractal Spectrum Cluster Feature, MSCF)的提取方法。最后将几种非线性特征与短时谱特征结合用于说话人识别,基于TIMIT数据库50人的实验表明,非线性特征与短时谱特征互补性较强,特别是MSCF与MFCC、LPC特征结合,使得系统的误识率下降到0.8%。   相似文献   

16.
赵越  林玮 《电声技术》2016,40(11):48-52
耳语音的声学特征是研究其语音识别和说话人识别的重要组成部分.介绍了耳语音的特点并讨论了其声学特征.由于耳语音没有基频,所以共振峰与音长特性可以作为重要的声学参数用于识别.对汉语6个耳语音元音进行了分析研究,证明共振峰频率和音长可以作为耳语音识别的特征参数.  相似文献   

17.
实用语音情感的特征分析与识别的研究   总被引:2,自引:0,他引:2  
 该文针对语音情感识别在实际中的应用,研究了烦躁等实用语音情感的分析与识别。通过计算机游戏诱发的方式采集了高自然度的语音情感数据,提取了74种情感特征,分析了韵律特征、音质特征与情感维度之间的关系,对烦躁等实用语音情感的声学特征进行了评价与选择,提出了针对实际应用环境的可拒判的实用语音情感识别方法。实验结果表明,文中采用的语音情感特征,能较好识别烦躁等实用语音情感,平均识别率达到75%以上。可拒判的实用语音情感识别方法,对模糊的和未知的情感类别的分类进行了合理的决策,在语音情感的实际应用中具有重要的意义。  相似文献   

18.
提出了一种基于非线性特性来提取声带小结类病理嗓音的特征参数的识别方法.首先通过滤波分割的方法,分两个通道处理语音信号,低频部分采用符合人耳听觉特性的巴克滤波器组进行信号重构并提取语音特征,高频部分采用非线性动力学的最大李雅普诺夫指数来描述,最后整合为语音特征序列并进行语音识别.采用美国MEEI公司的病理嗓音数据库进行识别实验.实验结果表明,这种方法能够有效地提高病理嗓音的识别率,达到99.4%的识别率.  相似文献   

19.
李洪伟  马琳  李海峰 《信号处理》2023,39(4):639-648
语音是人类表达思想和感情交流最重要的工具,是人类文化的重要组成部分。语音情感识别作为情感计算中的重要课题已经成为国际上的研究热点,受到越来越多的关注。已有神经科学研究表明,大脑是产生调节情感的物质基础。因此,在语音情感的研究中,我们不能仅考虑语音信号自身,还应将大脑的活动信号融入语音情感识别中,以实现更高准确率的情感识别。基于上述思想,本文提出了一种基于核典型相关分析(KCCA)的语音特征提取方法。该方法将语音特征与脑电图(EEG)特征映射到高维希尔伯特空间,并计算二者的最大相关系数。KCCA将语音特征在高维希尔伯特空间上向与脑电特征相关性最大的方向投影,最终得到包含脑电信息的语音特征。本文方法将与语音情感相关的脑电信息融入语音情感特征提取中,所提特征能够更准确的表征情感。同时,本方法在理论上具有良好的可迁移性,当所提脑电特征足够准确与具有代表性时,KCCA建模得到的投影向量具有通用性,可直接用于新的语音情感数据集中而无需重新采集和计算相应的脑电信号。在自建语音情感数据库与公开语音情感数据库MSP-IMPROV上的实验结果表明,使用投影语音特征进行语音情感分类的方法优于使用原始音频特征...  相似文献   

20.
周慧  魏霖静 《电子设计工程》2012,20(16):188-190
提出了一种基于LS-SVM的情感语音识别方法。即先提取实验中语音信号的基频,能量,语速等参数为情感特征,然后采用LS-SVM方法对相应的情感语音信号建立模型,进行识别。实验结果表明,利用LS-SVM进行基本情感识别时,识别率较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号