首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
从人类语音产生的机理出发,介绍了语音信号的特征和语音信号的语谱图,引出了语音信号的产生模型.同时讨论了在语音信号产生的模型应用中,线性预测编码方法及语音产生模型在语音合成和语音识别中的应用原理,体现了语音产生模型在语音处理技术方面的重要地位.  相似文献   

2.
噪声鲁棒语音识别研究综述*   总被引:3,自引:1,他引:2  
针对噪声环境下的语音识别问题,对现有的噪声鲁棒语音识别技术进行讨论,阐述了噪声鲁棒语音识别研究的主要问题,并根据语音识别系统的构成将噪声鲁棒语音识别技术按照信号空间、特征空间和模型空间进行分类总结,分析了各种鲁棒语音识别技术的特点、实现,以及在语音识别中的应用。最后展望了进一步的研究方向。  相似文献   

3.
本系统采用RSC-164单片机作为语音识别芯片.结合时间规整(DTW)技术和结合模块匹配法.对语音频谱信号建立隐含马可夫模型,能识别操作者预先录制的语音命令.命令识别后输出特征信号.通过89C51单片机对输出信号的检测.用位操作的形式实现对音频、视频系统进行语音控制。本系统可以扩展到对其他系统或机器上应用控制。  相似文献   

4.
语音信号是一种时变、非平稳的随机信号。现有语音识别系统的适应性比较差,尤其在高噪声环境下的语音识别非常困难,若将语音识别系统商品化,还有识别速度、拒识问题以及关键词/句检测技术等细节问题需要解决。如何把语言学、生理学、心理学方面的研究成果量化、建模并用于语音识别,还需深入研究。本文介绍了语音识别中小波分析的研究现状及几种常见的技术方法,并且分析探讨了语音识别中小波分析的应用和发展前景。  相似文献   

5.
作为语音处理领域的支撑技术之一,语音识别以识别语音信号并将其转变成文字为目标,在智能人机交互、对话系统、多媒体内容分析等领域有着广阔的应用前景.经过数十年的发展,目前的语音识别技术在理想状况下能取得较高的识别率.然而,在采集和传输过程中,语音信号不可避免地会受到各种信道和加性噪声的干扰,引起训练环境和识别环境不一致、即环境失配,进而导致识别系统的性能急剧下降.这种失配严重阻碍了语音识别技术走向现实应用,已成为语音识别领域中迫切需要解决的问题之一.首先阐述了环境失配的问题,然后按照加性噪声、信道畸变和联合补偿的脉络,系统地综述了各个问题的补偿方法.  相似文献   

6.
三、语音识别设计与实现 做为我们机器人的核心部分,语音识别系统是我们研究开发的重中之重,为此我们收集了大量已有的语音识别系统的信息,并对用于语音识别技术的信号处理、模式识别、语音特征提取、声学模型与模式匹配(识别算法)进行了深入的学习和研究。我们语音识别系统的实现过程见图12。  相似文献   

7.
分析语音情感识别技术的发展现状和关键技术,将基于隐马尔可夫模型的语音情感识别方法应用在机器人中,目的在于使机器人能够识别人的语音信号中的情感信息,并做出相应的情感表达.这在我们研制出的服务机器人中得到了较好的应用,该机器人能够识别人的语音情感并能与人进行一定的交互.  相似文献   

8.
在语音技术的发展过程中使用了大量的语音信号特征参数,好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数、语音信号特征参数的选择进行了介绍,并介绍了语音信号的短时能量、短时平均幅度的提取。  相似文献   

9.
语音信号特征参数研究   总被引:1,自引:0,他引:1  
在语音技术的发展过程中使用了大量的语音信号特征参数,好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数、语音信号特征参数的选择进行了介绍,并介绍了语音信号的短时能量、短时平均幅度的提取。  相似文献   

10.
语音识别技术近些年来发展非常迅速,并且在许多方面已经有了很好的应用。以语音识别技术在对话娃娃中的应用为例,阐述如何利用语音识别技术来设计智能控制系统,并详细介绍了系统的结构和原理。该系统具有很好的扩展性,稍微做些改动,就可以设计出各种各样的语音控制系统。  相似文献   

11.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

12.
Automatic emotion recognition from speech signals is one of the important research areas, which adds value to machine intelligence. Pitch, duration, energy and Mel-frequency cepstral coefficients (MFCC) are the widely used features in the field of speech emotion recognition. A single classifier or a combination of classifiers is used to recognize emotions from the input features. The present work investigates the performance of the features of Autoregressive (AR) parameters, which include gain and reflection coefficients, in addition to the traditional linear prediction coefficients (LPC), to recognize emotions from speech signals. The classification performance of the features of AR parameters is studied using discriminant, k-nearest neighbor (KNN), Gaussian mixture model (GMM), back propagation artificial neural network (ANN) and support vector machine (SVM) classifiers and we find that the features of reflection coefficients recognize emotions better than the LPC. To improve the emotion recognition accuracy, we propose a class-specific multiple classifiers scheme, which is designed by multiple parallel classifiers, each of which is optimized to a class. Each classifier for an emotional class is built by a feature identified from a pool of features and a classifier identified from a pool of classifiers that optimize the recognition of the particular emotion. The outputs of the classifiers are combined by a decision level fusion technique. The experimental results show that the proposed scheme improves the emotion recognition accuracy. Further improvement in recognition accuracy is obtained when the scheme is built by including MFCC features in the pool of features.  相似文献   

13.
张爱英 《计算机科学》2018,45(9):308-313
利用多语言信息可以提高资源稀缺语言识别系统的性能。但是,在利用多语言信息提高资源稀缺目标语言识别系统的性能时,并不是所有语言的语音数据对资源稀缺目标语言语音识别系统的性能提高都有帮助。文中提出利用长短时记忆递归神经网络语言辨识方法 选择 多语言数据以提高资源稀缺目标语言识别系统的性能;选出更加有效的多语言数据用于训练多语言深度神经网络和深度Bottleneck神经网络。通过跨语言迁移学习获得的深度神经网络和通过深度Bottleneck神经网络获得的Bottleneck特征都对 提高 资源稀缺目标语言语音识别系统的性能有很大的帮助。与基线系统相比,在插值的Web语言模型解码条件下,所提系统的错误率分别有10.5%和11.4%的绝对减少。  相似文献   

14.
为增强不同情感特征的融合程度和语音情感识别模型的鲁棒性,提出一种神经网络结构DBM-LSTM用于语音情感识别。利用深度受限玻尔兹曼机的特征重构原理将不同的情感特征进行融合;利用长短时记忆单元对短时特征进行长时建模,增强语音情感识别模型的鲁棒性;在柏林情感语音数据库上进行分类实验。研究结果表明,与传统识别模型相比,DBM-LSTM网络结构更适用于多特征语音情感识别任务,最优识别结果提升11%。  相似文献   

15.
为了提高语音端点检测效果,将小波分析和神经网络相融合,提出一种基于小波神经网络的语音端点检测算法(WA-PCA-RBF)。利用小波分析提取语音信号的特征向量,采用主成分分析法选择语音信号特征,消除冗余特征,将选择特征向量作为RBF神经网络输入,通过遗传算法优化RBF神经网络参数建立语音端检测模型。结果表明,相对于传统语音端点检测算法,WA-PCA-RBF提高了语音端点检测正确率,具有更好的适应性和鲁棒性,可满足实际系统需求。  相似文献   

16.
针对现有语音情绪识别中存在无关特征多和准确率较差的问题,提出一种基于混合分布注意力机制与混合神经网络的语音情绪识别方法。该方法在2个通道内,分别使用卷积神经网络和双向长短时记忆网络进行语音的空间特征和时序特征提取,然后将2个网络的输出同时作为多头注意力机制的输入矩阵。同时,考虑到现有多头注意力机制存在的低秩分布问题,在注意力机制计算方式上进行改进,将低秩分布与2个神经网络的输出特征的相似性做混合分布叠加,再经过归一化操作后将所有子空间结果进行拼接,最后经过全连接层进行分类输出。实验结果表明,基于混合分布注意力机制与混合神经网络的语音情绪识别方法比现有其他方法的准确率更高,验证了所提方法的有效性。  相似文献   

17.
针对多数语音识别系统在噪音环境下性能急剧下降的问题,提出了一种新的语音识别特征提取方法。该方法是建立在听觉模型的基础上,通过组合语音信号和其差分信号的上升过零率获得频率信息,通过峰值检测和非线性幅度加权来获取强度信息,二者组合在一起,得到输出语音特征,再分别用BP神经网络和HMM进行训练和识别。仿真实现了不同信噪比下不依赖人的50词的语音识别,给出了识别的结果,证明了组合差分信息的过零与峰值幅度特征具有较强的抗噪声性能。  相似文献   

18.
为克服由传统语音情感识别模型的缺陷导致的识别正确率不高的问题,将过程神经元网络引入到语音情感识别中来。通过提取基频、振幅、音质特征参数作为语音情感特征参数,利用小波分析去噪,主成分分析(PCA)消除冗余,用过程神经元网络对生气、高兴、悲伤和惊奇四种情感进行识别。实验结果表明,与传统的识别模型相比,使用过程神经元网络具有较好的识别效果。  相似文献   

19.
为了提高语音端点检测率,提出一种改进动量粒子群优化神经网络的语音端点检测算法(WA-IMPSO-BP)。利用小波分析提取语音信号的特征量,将特征向量作为BP神经网络输入进行学习,并采用粒子群算法优化BP神经网络参数,建立语音端检测模型,在Matlab环境下进行仿真实验。仿真结果表明,WA-IMPSO-BP提高了语音端点检测率,有效降低了虚检率和漏检率,表示WA-IMPSO-BP是一种检测率高,抗噪性能强的语音检测算法。  相似文献   

20.
在特定人语音识别系统中,噪声严重影响语音特征提取,并导致语音识别率明显下降。针对在噪声环境下语音识别率偏低的问题,通过谱减法去除语音信号噪声,并根据语音信号语谱图可视化的特点,运用脉冲耦合神经网络从语音信号的语谱图中提取熵序列作为特征参数进行语音识别。实验结果表明,该方法能较好地去除语音信号中的噪声,并能使在噪声环境下的特定人语音识别系统具有较好的识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号