首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
对话情感分析任务旨在通过理解人类在对话中表达情绪的方式,结合对话内容及对话者信息,识别对话中的每一个语句的情感分类。不同于其余文本情感分析任务,对话情感分析需要建模对话中的顺序上下文语境。然而,如何更直观有效地建模对话语境,并且充分考虑对话参与者的情绪变化,以提高对话情感分析任务的准确率等问题仍有待探索。因此,本文提出一种基于对话者语句交互图神经网络的对话情感分析模型。首先,通过微调RoBERTa预训练语言模型提取对话文本的语句特征和对话者信息特征;其次,使用Bi-GRU建模对话文本的序列上下文语境,获得上下文语句特征;最后,融合上下文语句特征和对话者信息特征构建对话者语句交互图神经网络模型。在公开数据集MELD上的实验结果表明,与其他基线模型相比,本文所提模型取得了更好的实验性能。  相似文献   

2.
深度学习网络对文本情感分析具有重要意义,通过神经网络可以深层次挖掘文本信息,捕获文本情感。针对单模型神经网络结构单一、无法充分提取文本特征的问题,首先提出一种融合注意力机制的双通道复合神经网络(Attention-DRNN),在嵌入层利用word2vec方法进行层嵌入,融入注意力机制对输入词向量进行动态加权。其次,采用双通道结构,利用Text-CNN提取文本局部特征、Bi-LSTM提取文本全局特征,并进行特征融合。然后,通过softmax分类器进行分类。最后,在两个标准数据集上进行测试,通过与LSTM、Bi-LSTM、RNN、Text-CNN单模型神经网络进行对比实验。实验表明Attention-DRNN网络在情感分类任务上具有较好的效果。  相似文献   

3.
基于一种改进的监督流形学习算法的语音情感识别   总被引:2,自引:0,他引:2  
为了有效提高语音情感识别的性能,需要对嵌入在高维声学特征空间的非线性流形上的语音特征数据作非线性降维处理。监督局部线性嵌入(SLLE)是一种典型的用于非线性降维的监督流形学习算法。该文针对SLLE存在的缺陷,提出一种能够增强低维嵌入数据的判别力,具备最优泛化能力的改进SLLE算法。利用该算法对包含韵律和音质特征的48维语音情感特征数据进行非线性降维,提取低维嵌入判别特征用于生气、高兴、悲伤和中性4类情感的识别。在自然情感语音数据库的实验结果表明,该算法仅利用较少的9维嵌入特征就取得了90.78%的最高正确识别率,比SLLE提高了15.65%。可见,该算法用于语音情感特征数据的非线性降维,可以较好地改善语音情感识别结果。  相似文献   

4.
针对两个反义词在相似语境下转化成词向量后空间距离相近,容易造成情感信息丢失,循环神经网络等的特征提取方式容易导致网络依赖增强,难以充分提取局部性特征。针对第一个问题,本文提出情感嵌入模块,在词嵌入的过程中加入情感向量与语义信息作为网络的输入层;针对第二个问题,本文提出层次注意力机制,将融合后的词向量切片形成两个子序列,将单词的词向量输入到双向门控循环网络,利用注意力机制对隐藏层进行加权计算,获得子序列文本信息,通过多个网络层获得整个文本序列信息;最后,经过softmax函数输出文本情感极性。在NLPIR微博语料库和NLPCC2014的微博公开数据集进行实验,表明该情感分析模型在准确率上有所提高,证明了模型的有效性。  相似文献   

5.
本文提出了一种改进的混合蛙跳算法,利用混沌运动的遍历性改善初始个体的质量和引入高斯变异,提高了算法的全局搜索能力,同时将改进算法与人工神经网络结合,并把它应用到语音情感识别系统中.依据情感的维度空间模型.分别提取了情感语音的韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化特性.利用本文所提的蛙跳算法(SFLA)训练随机产生的初始数据,优化神经网络的连接权值,能快速地实现网络的收敛.在实验中比较了BP神经网络、RBF神经网络与改进SFLA神经网络分别用于语音情感以别的识别性能,结果表明基于改进SFLA的神经网络的平均识别率高于BP神经网络9.2个百分点,高于RBF神经网络7.9个百分点.因此本文所提的蛙跳神经网络用于语音情感识别能获得明显的识别性能的提升.  相似文献   

6.
余华童馨 《电子器件》2022,45(5):1100-1104
本文提出一种基于粒子群优化算法的支持向量机网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,研究分析情感语音数据的韵律特征与音质特征;利用粒子群优化算法(PSO)训练网络的超参数以优化支持向量机模型,可快速地实现网络的收敛;最后在实验中比较线性核函数SVM、径向基核函数SVM与粒子群优化径向基SVM分别用于语音情感识别的识别率,结果显示粒子群优化径向基核SVM模型用于语音情感识别能获得明显的识别性能的提升。  相似文献   

7.
提取可以表征唤醒维的韵律参数和表征效价维的音质参数综合用于语音情感识别是近年来此领域的一个研究方向.为了提高情感识别率,本文提取了18个韵律参数和59个音质参数用于识别,为避免特征矢量维度过高而造成的计算量过大和信息冗余,采用主分量分析神经网络(PCANN)进行降维,并用二次判别式进行参数有效性验证.针对二次判别式输入参数正态化这一假设,提出一种改进二次判别式用于四种情感的识别,实验结果表明,改进方法可以有效提高识别率.  相似文献   

8.
在收集较大规模情感语音语料库基础上,分析了维吾尔语语音在韵律特征和音质特征方面的19种语境信息和6种情感特征参数,并利用STRAIGHT算法实现了情感特征参数的提取,最后利用分类回归树(CART)算法针对各个情感特征和中性向其它情感的转换特征进行了建模。实验结果表明,所提取情感特征能准确的区分各个情感类型,为实现中性语音转换成各种目标情感语音奠定了基础。  相似文献   

9.
俞佳佳  金赟  马勇  姜芳艽  戴妍妍 《信号处理》2021,37(10):1880-1888
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。   相似文献   

10.
张潇丹  胡峰  赵力 《信号处理》2011,27(5):678-689
支持向量机是一种基于统计学习理论的新型机器学习算法,在高维特征空间中寻找最优分类超平面,具有很好的分类精度和泛化性能。支持向量机的训练需要求解一个带约束的二次规划问题,针对数据规模很大情况下经典训练方法变得很困难的缺点,提出一种基于改进混合蛙跳算法的支持向量机分类器参数优化方法,既提高了混合蛙跳算法的收敛速度和精度,又能借助混合蛙跳算法的全局随机搜索能力,为支持向量机参数的优化选择提供一条有效途径。本文提取情感语句的韵律特征、音质特征和混沌特征参数,提出一种基于改进蛙跳算法的数据融合方法,并利用基于改进蛙跳算法的支持向量机进行实用语音情感的识别研究。在实验中比较了PCA方法、BP神经网络和数据融合方法用于语音情感识别的识别率,研究结果表明本文所提的各项改进机制能有效提升情感识别率,为实用语音情感的识别提供一种新方法和新思路。   相似文献   

11.
赵子平  高天  王欢 《信号处理》2023,39(4):667-677
为提升人机交互时的用户体验以及满足多元化用途的需求,交互设备正逐步引入情感智能技术,其中,实现产业和技术有效融合的前提是可以对人类情感状态进行正确的识别,然而,这仍然是一个具有挑战性的话题。随着多媒体时代的快速发展,越来越多可利用的模态信息便逐步被应用到情感识别系统中。因此,本文提出一种基于特征蒸馏的多模态情感识别模型。考虑到情感表达往往与音频信号的全局信息密切相关,提出了适应性全局卷积(Adaptive Global Convolution, AGC)来提升有效感受野的范围,特征图重要性分析(Feature Map Importance Analysis,FMIA)模块进一步强化情感关键特征。音频亲和度融合(Audio Affinity Fusion, AAF)模块通过音频-文本模态间的内在相关性建模亲和度融合权重,使两种模态的情感信息得到有效融合。此外,为了提升模型泛化能力,有效利用教师模型中概率分布所携带的隐藏知识,帮助学生模型获取更高级别的语义特征,提出了在多模态模型上使用特征蒸馏。最后,在交互式情感二元动作捕捉(Interactive Emotional Dyadic Mot...  相似文献   

12.
Emotion recognition in conversations (ERC) has gained increasing research attention in recent years due to its wide applications in a surge of emerging tasks, such as social media analysis, dialog generation, and recommender systems. Since constituent utterances in a conversation are closely semantic-related, the constituent utterances’ emotional states are also closely related. In our consideration, this correlation could serve as a guide for the emotion recognition of constituent utterances. Accordingly, we propose a novel approach named Semantic-correlation Graph Convolutional Network (SC-GCN) to take advantage of this correlation for the ERC task in multimodal scenario. Specifically, we first introduce a hierarchical fusion module to model the dynamics among the textual, acoustic and visual features and fuse the multimodal information. Afterward, we construct a graph structure based on the speaker and temporal dependency of the dialog. We put forward a novel multi-loop architecture to explore the semantic correlations by the self-attention mechanism and enhance the correlation information via multiple loops. Through the graph convolution process, the proposed SC-GCN finally obtains a refined representation of each utterance, which is used for the final prediction. Extensive experiments are conducted on two benchmark datasets and the experimental results demonstrate the superiority of our SC-GCN.  相似文献   

13.
孙聪珊  马琳  李海峰 《信号处理》2023,39(4):688-697
语音情感识别(Speech Emotion Recognition,SER)是人机交互的重要组成部分,具有广泛的研究和应用价值。针对当前SER中仍然存在着缺乏大规模语音情感数据集和语音情感特征的低鲁棒性而导致的语音情感识别准确率低等问题,提出了一种基于改进的经验模态分解方法(Empirical Mode Decomposition,EMD)和小波散射网络(Wavelet Scattering Network,WSN)的语音情感识别方法。首先,针对用于语音信号时频分析的EMD及其改进算法中存在的模态混叠问题(Mode Mixing)和噪声残余问题,提出了基于常数Q变换(Constant-Q Transform,CQT)和海洋捕食者算法(Marine Predator Algorithm,MPA)的优化掩模经验模态分解方法(Optimized Masking EMD based on CQT and MPA,CM-OMEMD)。采用CM-OMEMD算法对情感语音信号进行分解,得到固有模态函数(Intrinsic Mode Functions,IMFs),并从IMFs中提取了可以表征情感的时频特征作为第一个特征集。然后采用WSN提取了具有平移不变性和形变稳定性的散射系数特征作为第二个特征集。最后将两个特征集进行融合,采用支持向量机(Support Vector Machine,SVM)分类器进行分类。通过在含有七种情感状态的TESS数据集中的对比实验,证明了本文提出的系统的有效性。其中CM-OMEMD减小了模态混叠,提升了对情感语音信号时频分析的准确性,同时提出的SER系统显著提高了情绪识别的性能。   相似文献   

14.
韩文静  李海峰  马琳 《信号处理》2011,27(11):1658-1663
维度语音情感识别(Dim-SER)是情感计算领域的一个新兴分支,它从多维、连续的角度看待情感,将SER问题建模为连续值的预测回归任务。当前的Dim-SER系统在进行情感预测时缺少对语料间情感程度相对顺序的考虑,严重影响了人机交互系统对说话人情感变化趋势的把握。从该需求出发,本文以人类情感认知特性为参照,构建了一个对情感程度相对顺序敏感的Dim-SER系统,并引入Gamma统计对SER系统性能评价标准加以完善。系统构建过程中,本文构造了Top-rank概率分布对语料间的情感顺序进行描述,并使用Kullback-Leibler距离对预测造成的顺序一致性损失进行度量,最后提出顺序敏感的神经网络算法实现系统预测损失的最小化。情感预测实验结果表明,同常用的k近邻算法和支持向量回归算法相比,该系统有效地提高了语料间情感程度相对顺序的正确性。   相似文献   

15.
李永伟  陶建华  李凯 《信号处理》2023,39(4):632-638
语音情感识别是实现自然人机交互不可缺失的部分,是人工智能的重要组成部分。发音器官的调控引起情感语音声学特征的差异,从而被感知到不同的情感。传统的语音情感识别只是针对语音信号中的声学特征或听觉特征进行情感分类,忽略了声门波和声道等发音特征对情感感知的重要作用。在我们前期工作中,理论分析了声门波和声道形状对感知情感的重要影响,但未将声门波与声道特征用于语音情感识别。因此,本文从语音生成的角度重新探讨了声门波与声道特征对语音情感识别的可能性,提出一种基于源-滤波器模型的声门波和声道特征语音情感识别方法。首先,利用Liljencrants-Fant和Auto-Regressive eXogenous(ARX-LF)模型从语音信号中分离出情感语音的声门波和声道特征;然后,将分离出的声门波和声道特征送入双向门控循环单元(BiGRU)进行情感识别分类任务。在公开的情感数据集IEMOCAP上进行了情感识别验证,实验结果证明了声门波和声道特征可以有效的区分情感,且情感识别性能优于一些传统特征。本文从发音相关的声门波与声道研究语音情感识别,为语音情感识别技术提供了一种新思路。  相似文献   

16.
随着计算机技术的发展,人们对和谐人机交互的要求不断提高,这就要求计算机能理解说话人的情感信息,即能进行语音情感识别。本文提出了一种基于支持向量机(SVM)的语音情感识别方法,主要对人类的6种基本情感:高兴、惊奇、愤怒、悲伤、恐惧、平静进行研究。首先对自建语音情感数据库的情感语句提取特征,然后运用序列前向选择(SFS)算...  相似文献   

17.
口语理解是语言处理中的重要组成部分.在语言翻译中,口语理解可以将自然语言用户的话语解析为语义框架.为了提高口语理解的性能,在多回合对话中可以加入上下文信息.但是收集大规模的人工标记的多轮对话语料库是复杂,昂贵的,且不现实的.所以在此提出了一个上下文编码语言转换器(CLT)模型,以便于利用各种上下文信息.实验结果表明,在...  相似文献   

18.
语音情感识别是利用计算机建立语音信息载体与情感度量之间的关系,并赋予计算机识别、理解人类情感的能力,语音情感识别在人机交互中起着重要作用,是人工智能领域重要发展方向。本文从语音情感识别在国内外发展历史以及开展的一系列会议、期刊和竞赛入手,分别从6个方面对语音情感识别的研究现状进行了梳理与归纳:首先,针对情感表达从离散、维度模型进行了阐述;其次,针对现有的情感数据库进行了统计与总结;然后,回顾了近20年部分代表性语音情感识别发展历程,并分别阐述了基于人工设计的语音情感特征的情感识别技术和基于端到端的语音情感识别技术;在此基础之上,总结了近几年的语音情感识别性能,尤其是近两年在语音领域的重要会议和期刊上的语音情感识别相关工作;介绍了语音情感识别在驾驶、智能交互领域、医疗健康,安全等领域的应用;最后,总结与阐述了语音情感识别领域仍面临的挑战与未来发展方向。本文旨在对语音情感识别相关工作进行深入分析与总结,为语音情感识别相关研究者提供有价值的参考。  相似文献   

19.
The premise of image emotion recognition is to determine its representative emotional adjectives and establish the quantifiable emotion space. In this paper, focusing on aroused emotion from film and television (TV) scene images, a method of selecting emotional adjectives and establishing the emotion space based on subjective perception experiment is proposed. Firstly, a special data set about film and TV scene images was established and a set of initial emotional adjectives was collected. Then the subjective perception experiment was designed to let subjects to evaluate the affection of all the initial adjectives during watching these scene images. Then the method of principal basis analysis was used for variable selection. Finally, the factor analysis was applied to accomplish the second dimension reduction to form a 5-dimensional(5D)orthogonal emotion space. The optimized emotion space can explain more than 94% of original emotional adjectives, which greatly reduces the dimension of emotional adjectives and lays a foundation for the further research on image content and emotion recognition.  相似文献   

20.
The research of emotion recognition based on electroencephalogram (EEG) signals often ignores the relatedinformation between the brain electrode channels and the contextual emotional information existing in EEG signals,which may contain important characteristics related to emotional states. Aiming at the above defects, aspatiotemporal emotion recognition method based on a 3-dimensional (3D) time-frequency domain feature matrixwas proposed. Specifically, the extracted time-frequency domain EEG features are first expressed as a 3D matrixformat according to the actual position of the cerebral cortex. Then, the input 3D matrix is processed successivelyby multivariate convolutional neural network (MVCNN) and long short-term memory (LSTM) to classify theemotional state. Spatiotemporal emotion recognition method is evaluated on the DEAP data set, and achievedaccuracy of 87.58% and 88.50% on arousal and valence dimensions respectively in binary classification tasks, aswell as obtained accuracy of 84.58% in four class classification tasks. The experimental results show that 3D matrixrepresentation can represent emotional information more reasonably than two-dimensional (2D). In addition,MVCNN and LSTM can utilize the spatial information of the electrode channels and the temporal context information of the EEG signal respectively.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号