共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
3.
4.
5.
基于RBF神经网络的抗噪语音识别 总被引:1,自引:0,他引:1
针对目前在噪音环境下语音识别系统性能较差的问题,利用RBF神经网络具有最佳逼近性能、训练速度快等特性,分别采用聚类和全监督训练算法,实现了基于RBF神经网络的抗噪语音识别系统。聚类算法的隐含层训练采用K-均值聚类算法,输出层的学习采用线性最小二乘法;全监督算法中所有参数的调整基于梯度下降法,它是一种有监督学习算法,能够选出性能优良的参数。实验表明,在不同的信噪比下,全监督算法较之聚类算法有更高的识别率。 相似文献
6.
7.
Recent years have witnessed the great progress for speech emotion recognition using deep convolutional neural networks (DCNNs). In order to improve the performance of speech emotion recognition, a novel feature fusion method is proposed. With going deeper of the convolutional layers, the convolutional feature of traditional DCNNs gradually become more abstract, which may not be the best feature for speech emotion recognition. On the other hand, the shallow feature includes only global information without the detailed information extracted by deeper convolutional layers. According to these observations, we design a deep and shallow feature fusion convolutional network, which combines the feature from different levels of network for speech emotion recognition. The proposed network allows us to fully exploit deep and shallow feature. The popular Berlin data set is used in our experiments, the experimental results show that our proposed network can further improve speech emotion recognition rate which demonstrates the effectiveness of the proposed network. 相似文献
8.
语音情感计算引起了国内外广泛的关注,特别是在语音情感特征提取方面做了大量的研究。利用经验模态分解(EMD)方法对情感语音进行处理,得到情感语音的前4阶固有模态函数(IMF),并将前4阶IMF分别通过Hilbert变换得到其瞬时频率和瞬时振幅。提取它们的统计特征,再结合情感语音的声学特征共同组成情感特征向量,并对特征向量做归一化处理。利用支持向量机(SVM)对四种情感语音即生气、高兴、悲伤和平静进行识别。实验结果表明该方法的识别效果较好。 相似文献
9.
The application of cross‐corpus for speech emotion recognition (SER) via domain adaptation methods have gain high acknowledgment for developing good robust emotion recognition systems using different corpora or datasets. However, the issue of cross‐lingual still remains a challenge in SER and needs more attention to resolve the scenario of applying different language types in both training and testing. In this paper, we propose a triple attentive asymmetric convolutional neural network to address the recognition of emotions for cross‐lingual and cross‐corpus speech in an unsupervised approach. The proposed method adopts the joint supervision of softmax loss and center loss to learn high power discriminative feature representations for target domain via the use of high quality pseudo‐labels. The proposed model uses three attentive convolutional neural networks asymmetrically, where two of the networks are used to artificially label unlabeled target samples as a result of their predictions from training on source labeled samples and the other network is used to obtain salient target discriminative features from the pseudo‐labeled target samples. We evaluate our proposed method on three different language types (i.e., English, German, and Italian) data sets. The experimental results indicate that, our proposed method achieves higher prediction accuracy over other state‐of‐the‐art methods. 相似文献
10.
目前,基于多模态融合的语音情感识别模型普遍存在无法充分利用多模态特征之间的共性和互补性、无法借助样本特征间的拓扑结构特性对样本特征进行有效地优化和聚合,以及模型复杂度过高的问题。为此,引入图神经网络,一方面在特征优化阶段,将经过图神经网络优化后的文本特征作为共享表示重构基于声学特征的邻接矩阵,使得在声学特征的拓扑结构特性中包含文本信息,达到多模态特征的融合效果;另一方面在标签预测阶段,借助图神经网络充分聚合当前节点的邻接节点所包含的相似性信息对当前节点特征进行全局优化,以提升情感识别准确率。同时为防止图神经网络训练过程中可能出现的过平滑问题,在图神经网络训练前先进行图增强处理。在公开数据集IEMOCAP 和RAVDESS上的实验结果表明,所提出的模型取得了比基线模型更高的识别准确率和更低的模型复杂度,并且模型各个组成部分均对模型性能提升有所贡献。 相似文献
11.
为增强不同情感特征的融合程度和语音情感识别模型的鲁棒性,提出一种神经网络结构DBM-LSTM用于语音情感识别。利用深度受限玻尔兹曼机的特征重构原理将不同的情感特征进行融合;利用长短时记忆单元对短时特征进行长时建模,增强语音情感识别模型的鲁棒性;在柏林情感语音数据库上进行分类实验。研究结果表明,与传统识别模型相比,DBM-LSTM网络结构更适用于多特征语音情感识别任务,最优识别结果提升11%。 相似文献
12.
13.
Multimedia Tools and Applications - Multimodal emotion recognition task based on physiological signals is becoming a research hotspot. Traditional methods need to design and extract a series of... 相似文献
14.
针对现有语音情绪识别中存在无关特征多和准确率较差的问题,提出一种基于混合分布注意力机制与混合神经网络的语音情绪识别方法。该方法在2个通道内,分别使用卷积神经网络和双向长短时记忆网络进行语音的空间特征和时序特征提取,然后将2个网络的输出同时作为多头注意力机制的输入矩阵。同时,考虑到现有多头注意力机制存在的低秩分布问题,在注意力机制计算方式上进行改进,将低秩分布与2个神经网络的输出特征的相似性做混合分布叠加,再经过归一化操作后将所有子空间结果进行拼接,最后经过全连接层进行分类输出。实验结果表明,基于混合分布注意力机制与混合神经网络的语音情绪识别方法比现有其他方法的准确率更高,验证了所提方法的有效性。 相似文献
15.
由于人类情感的表达受文化和社会的影响,不同语言语音情感的特征差异较大,导致单一语言语音情感识别模型泛化能力不足。针对该问题,提出了一种基于多任务注意力的多语言语音情感识别方法。通过引入语言种类识别辅助任务,模型在学习不同语言共享情感特征的同时也能学习各语言独有的情感特性,从而提升多语言情感识别模型的多语言情感泛化能力。在两种语言的维度情感语料库上的实验表明,所提方法相比于基准方法在Valence和Arousal任务上的相对UAR均值分别提升了3.66%~5.58%和1.27%~6.51%;在四种语言的离散情感语料库上的实验表明,所提方法的相对UAR均值相比于基准方法提升了13.43%~15.75%。因此,提出的方法可以有效地抽取语言相关的情感特征并提升多语言情感识别的性能。 相似文献
16.
针对语音情感数据集规模小且数据维度高的特点,为解决传统循环神经网络(RNN)长程依赖消失和卷积神经网络(CNN)关注局部信息导致输入序列内部各帧之间潜在关系没有被充分挖掘的问题,提出一个基于多头注意力(MHA)和支持向量机(SVM)的神经网络MHA-SVM用于语音情感识别(SER)。首先将原始音频数据输入MHA网络来训练MHA的参数并得到MHA的分类结果;然后将原始音频数据再次输入到预训练好的MHA中用于提取特征;最后通过全连接层后使用SVM对得到的特征进行分类获得MHA-SVM的分类结果。充分评估MHA模块中头数和层数对实验结果的影响后,发现MHA-SVM在IEMOCAP数据集上的识别准确率最高达到69.6%。实验结果表明同基于RNN和CNN的模型相比,基于MHA机制的端到端模型更适合处理SER任务。 相似文献
17.
语音情感识别技术在人类生活中正扮演着越来越重要的作用。为了更为有效识别语音信号中的情感类型,提出一种改进遗传算法优化BP神经网络的识别算法(IAGA-BP)。该算法一方面改进了自适应遗传算法中的选择算子,另一方面更改了自适应遗传算法中的交叉和变异概率公式。通过对自适应遗传算法的改进,提升了遗传算法的寻优性能,并以此对BP神经网络初始的权阈值进行优化。在与BP、GA-BP和AGA-BP网络比较中,实验结果表明,IAGA-BP网络能够有效提高语音情感识别率,并加快了网路收敛速度。 相似文献
18.
The two- or three-layered neural networks (2LNN, 3LNN) which originated from stereovision neural networks are applied to speech
recognition. To accommodate sequential data flow, we consider a window through which the new acoustic data enter and from
which the final neural activities are output. Inside the window, a recurrent neural network develops neural activity toward
a stable point. The process is called winner-take-all (WTA) with cooperation and competition. The resulting neural activities
clearly showed recognition of continuous speech of a word. The string of phonemes obtained is compared with reference words
by using a dynamic programming method. The resulting recognition rate was 96.7% for 100 words spoken by nine male speakers,
compared with 97.9% by a hidden Markov model (HMM) with three states and a single gaussian distribution. These results, which
are close to those of HMM, seem important because the architecture of the neural network is very simple, and the number of
parameters in the neural net equations is small and fixed.
This work was presented in part at the Fifth International Symposium on Artificial Life and Robotics, Oita, Japan, January
26–28, 2000 相似文献
19.
情绪诱因抽取作为深层次的文本情绪理解已成为情绪分析任务中的新热点,当前研究通常把诱因抽取和情绪识别看作两个独立的任务,容易导致错误在任务间的传播问题。考虑到情绪识别及诱因抽取是相互作用的,以及微博文本中表情符通常表达文本的情绪,提出了一种基于双向长短期记忆条件随机场(Bi-LSTM-CRF)模型的情绪诱因和表情符情绪识别的联合模型。该模型将情绪诱因抽取以及情绪识别形式化为一个统一的序列标注问题,充分利用了情绪诱因与情绪之间的互相作用,将情绪诱因的抽取和情绪识别同时进行。实验结果表明,该模型在诱因抽取任务中的F值为82.70%,在情绪识别任务中的F值为74.74%,相比串行模型的F值分别提高5.82和17.12个百分点,这个结果表明联合模型能够有效降低任务串行进行时的误差传递,同时提高了诱因抽取和情绪识别的F值。 相似文献
20.
为克服由传统语音情感识别模型的缺陷导致的识别正确率不高的问题,将过程神经元网络引入到语音情感识别中来。通过提取基频、振幅、音质特征参数作为语音情感特征参数,利用小波分析去噪,主成分分析(PCA)消除冗余,用过程神经元网络对生气、高兴、悲伤和惊奇四种情感进行识别。实验结果表明,与传统的识别模型相比,使用过程神经元网络具有较好的识别效果。 相似文献