共查询到20条相似文献,搜索用时 15 毫秒
1.
神经网络语音识别的研究及进展 总被引:3,自引:0,他引:3
论述了在语音识别中听觉神经网络模型,BP网络,时延神经网络,自组织影射,学习矢量量化和神经预测网络的优缺点及神经网络语音识别的发展动态。 相似文献
2.
本文根据加权倒变距离测度,提出了一种用于非特定人语音识别的函数链神经网络。此网络与多层感知器相比,不仅具有较高的识别别率,而且大大缩短了网络的学习时间。我们采用6人(3男,3女)的语音数据对汉语十个数字进行了实验,正确识别率为93.7%。 相似文献
3.
4.
为提高智能语音情感识别系统的准确性,提出了一种基于卷积神经网络CNN(Convolution Neural Network)特征表征的语音情感识别模型,该卷积模型以 Lenet-5模型为基础,增加了一层卷积层和池化层,并将二维卷积核改为一维卷积核,将一维特征预处理后,输送进该模型中,对特征变换表征。最后利用SoftMax分类器实现情感分类,CASIA与 EMO-DB开数据库上的识别结果显示:与Lenet-5网络相比,所设计网络模型的准确率分别提升了1.3%与2%,与SoftMax分类器相比,准确率分别提升了3.8%与6.1%,仿真结果验证了网络模型的有效性。 相似文献
5.
随着机器学习的快速发展,许多研究者使用神经网络来解决语音识别领域中的各类问题。然而由于训练数据有限等原因,常规的神经网络分类器普遍存在泛化误差等问题。为了解决此问题,迁移学习中的多任务学习被引入到研究中。本文提出了一种采用多任务学习和循环神经网络的语音情感识别算法(MTL-RNN),将说话人情感识别作为主任务,性别识别和身份识别作为辅助任务,三个任务在神经网络中并行训练。算法模型通过RNN共享层共享网络参数、学习共享特征,通过属性依赖层学习独有特征,以提升模型的分类性能。实验结果表明,本文所提出的MTL-RNN算法在汉语和阿拉伯语、较少说话人和较多说话人的场景下均有较好的识别性能。 相似文献
6.
声带准周期振动的缺失,使得汉语耳语音成为了一种特殊的发音模式,也使得耳语声调无法用基音周期表征。目前用于语音识别和声纹识别的常规语音特征,包含声调信息较少,所以在声调识别实验中很难获得良好的效果。本文提出一种新的特征参数来模拟正常语音的基频声调轨迹,即以人的听觉特性为出发点,研究人的声调敏感Bark频带,发现部分扩散Bark谱能量归一化比例拟合曲线,能够呈现出类似正常语音的基频轨迹,这说明在某些方面该轨迹或多或少包含了耳语音的声调信息。在以该轨迹和语音短时能量曲线为特征,以神经网络为模型的耳语声调识别实验中获得了较高的识别正确率,汉语四声的总体识别正确率高达78%,这也为对耳语音的进一步处理提供了很多有力依据。 相似文献
7.
8.
9.
10.
11.
12.
基于模糊神经网络的声母识别 总被引:1,自引:0,他引:1
模板匹配法技术是汉语声母识别中较为成功的算法,但它的缺陷影响了其恢复错误,改善识别性能,神经网络(NN)和模糊系统的结合,保留了双方的优点,充分利用了模糊神经网络好的容错性能,计算性能,分类性能和决策性能,本文重点研究了两种基于模糊神经网的声母识别方案,通过对其结构,识别率和特点的分析,可看出模糊神经网的声母识别性能明显优于模板匹配法,是更适于语音识别的网络。 相似文献
13.
本文论述了基于神经网络模型的非特定人汉语语音识别。我们采用24人(12人用于训练,12人用于测试)的语音数据对汉语十个数字和十个孤立字进行了实验,取得了96.3%(10个数字)和97.2%(十个汉字)的识别率。 相似文献
14.
15.
为了进一步提升语音情感特征的区别性,提出一种基于3D倒谱特征和注意力机制的语音情感识别方法。在提取典型特征MFCC的基础上,融合其一阶和二阶差分形成动态的3D倒谱特征矢量,然后利用卷积神经网络和双向长短期记忆网络搭建双向循环卷积神经网络(CNN-BiLSTM)进行长时建模,并利用注意力机制,进一步增强语音关键性情感特征的权重。实验结果表明,该方法能聚焦特征的有用信息,从而有效提高语音情感识别的准确率,在汉语情感语料库CASIA的准确率达到90.48%。 相似文献
16.
研究了汉语语音识别中语言模型的并行优化问题,在已有汉语语音识别有调拼音模型和多核体系结构的基础上,对其算法进行了并行优化,并优化了查询机制和前后向算法。试验表明,该方法取得了很好的效果,识别速度有了很大改进。 相似文献
17.
藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机(SVM)、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集(TBSEC001)上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。 相似文献
18.
19.
基于听觉模型的汉语耳语音声调检测 总被引:1,自引:1,他引:0
从听觉感知出发,分析了听觉外周模型对于语音激励的主要响应过程,采取听神经平均发放率为声调感知线索,提出了一种汉语耳语音声调的识别方法.其理论基础是听神经发放信息是听觉中枢的唯一信息来源,它是对于语音激励中声强、频谱、共振峰等多种特征的综合反应,因此适合用作耳语音的声调特征.采用BP神经网络对大量汉语元音耳语四声样本进行训练、识别,得到65.1%的平均识别率,达到了改善汉语耳语音声调识别效果的目的. 相似文献
20.
在语种识别过程中,为提取语音信号中的空间特 征以及时序特征,从而达到提高多语 种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型。该模型首先提 取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN) 提取低维度的空间特征;再通过空 间金字塔池化层(spatial pyramid pooling layer,SPP layer) 对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经 网络(recurrenrt neural network,CNN) 来判别语种信息。为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相 比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别 准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3% 和6.1%。 相似文献