首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
正确识别语音中包含的情感信息可以大幅提高人机交互的效率.目前,语音情感识别系统主要由语音特征抽取和语音特征分类两步组成.为了提高语音情感识别准确率,选用语谱图而非传统声学特征作为模型输入,采用基于attention机制的CGRU网络提取语谱图中包含的频域信息和时域信息.实验结果表明:在模型中引入注意力机制有利于减少冗余信息的干扰,并且相较于基于LSTM网络的模型,采用GRU网络的模型预测精确度更高,且在训练时收敛更快,与基于LSTM的基线模型相比,基于GRU网络的模型训练时长只有前者的60%.  相似文献   

2.
动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息,使用注意力机制分别从时间和频率维度对特征图关键情感区域进行强化表示,同时利用双向长短期记忆网络对谱图进行逐帧学习,提取动态帧级特征及情感的时序依赖关系。在此基础上,利用最大密度散度损失对齐新个体特征与训练集特征分布,降低个体差异性对特征分布产生的影响,提升模型表征能力。实验结果表明,该模型在CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度,相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升1.25~16.00、0.71~2.26及2.16~8.10个百分点,验证了所提模型的有效性。  相似文献   

3.
现有基于内容的语音检索中深度哈希方法对监督信息利用不足,生成的哈希码是次优的,而且检索精度和检索效率不高。针对以上问题,提出一种用于语音检索的三联体深度哈希方法。首先,将语谱图图像特征以三联体方式作为模型的输入来提取语音特征的有效信息;然后,提出注意力机制-残差网络(ARN)模型,即在残差网络(ResNet)的基础上嵌入空间注意力力机制,并通过聚集整个语谱图能量显著区域信息来提高显著区域表示;最后,引入新三联体交叉熵损失,将语谱图图像特征之间的分类信息和相似性映射到所学习的哈希码中,可在模型训练的同时实现最大的类可分性和最大的哈希码可分性。实验结果表明,所提方法生成的高效紧凑的二值哈希码使语音检索的查全率、查准率、F1分数均超过了98.5%。与单标签检索等方法相比,使用Log-Mel谱图作为特征的所提方法的平均运行时间缩短了19.0%~55.5%,能在减小计算量的同时,显著提高检索效率和精度。  相似文献   

4.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

5.
为解决小样本中文语音情感识别准确度低的问题,提出一种基于残差网络改进的中文语音情感识别网络结构AResnet。使用时域增强和频域增强生成更复杂的模拟样本扩充语音情感数据,将注意力机制引入至残差网络(residual networks)中,关注谱图中情感特征分布,提升情感识别率。在CASIA中文语音数据集上训练、测试,其结果显示,对比DCNN+LSTM、Trumpt-6网络结构,识别率分别提升约14.9%、3%,验证了AResnet在中文语音情感识别中的有效性。该方法也在英语语音数据集eNTERFACE’05上进行实验,识别准确率为92%,验证了AResnet有较好的泛化能力。  相似文献   

6.
王忠民  刘戈  宋辉 《计算机工程》2019,45(8):248-254
在语音情感识别中提取梅尔频率倒谱系数(MFCC)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的语音情感识别方法。从音频信号中提取MFCC特征,将信号转换为语谱图,利用卷积神经网络提取图像特征。在此基础上,使用多核学习算法融合音频特征,并将生成的核函数应用于支持向量机进行情感分类。在2种语音情感数据集上的实验结果表明,与单一特征的分类器相比,该方法的语音情感识别准确率高达96%。  相似文献   

7.
面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不足,从而引发细节特征信息丢失问题。提出一种词频-逆文档频率注意力机制TF-IDF SPA,通过该机制调整表情产生关键区域的注意力分布,强化网络对该区域关键细节特征的提取能力。同时,为了应对表情识别任务中普遍存在的类间差异小、类内差异大的问题,设计一种改进型混合加权损失函数,以增强表情类内聚拢性同时增大类间距离。依据数据集中样本的数量分布情况,动态调整损失函数的分类权重值,从而强化模型对小数据量样本的学习能力。在此基础上,将结构简单的TF-IDF SPA模块与卷积层共同堆叠以构建人脸表情识别网络。实验结果表明,该网络具有较好的人脸表情识别性能,在FER2013和CK+数据集上的分类准确率分别达到73.52%和98.27%。  相似文献   

8.
通过不同角度和方位的视频传感器对进入重点区域的人员视频数据进行分析管控,精准、快速定位视频中的目标人员对于保障社会安全具有重大意义.为解决传统方法受复杂环境干扰严重,识别准度低的问题,本文提出一种基于随机擦除和残差注意力网络的行人重识别方法.首先使用随机擦除的方法对原始数据进行数据增强,其次基于原始ResNet网络,提出一种融合注意力机制的残差网络模型,能够提取通道维度的视频序列特征,并且抑制冗余背景干扰,提高模型对重要特征的关注程度和提取能力,最后使用级联的难采样三元组损失函数和交叉熵损失函数对网络模型进行训练,使样本能够在高维特征空间中实现聚类,从而有效提供识别精度.实验结果表明,该算法在CUHK03数据集上的精准度优于其它被比较的方法,证明了该方法能够应用于不同条件下的行人重识别任务.  相似文献   

9.
为了改善RNN的空间信息丢失和CNN忽略时序信息的问题,引入了时间卷积网络TCN,将上述网络与双向门控循环单元Bi-GRU以及注意力机制组合构建了声学模型ATCN-GRU来进一步提高语音情感识别的性能,并通过加入焦点损失改善EMODB和IEMOCAP数据库训练样本不平均导致的识别结果不均衡问题。首先,通过TCN残差块从手工提取的特征中选取最具有代表性和鲁棒性的特征;其次,利用Bi-GRU模型学习语音样本的上下文相关信息,并利用注意力机制学习模型的输入序列与输出序列之间的关联程度,从而给予有效信息更多关注;最后,通过Softmax层对情感进行分类。相较于前人的研究成果,模型ATCN-GRU取得了更好的识别性能:在CASIA、EMODB以及IEMOCAP三个数据库上分别取得了88.17%、85.98%和65.83%的平均准确率;引入焦点损失后,EMODB和IEMOCAP数据库上的平均准确率分别达到了86.26%和66.30%。  相似文献   

10.
董宁  程晓荣  张铭泉 《计算机应用》2022,42(7):2118-2124
随着物联网(IoT)接入设备越来越多,以及网络管理维护人员缺乏对IoT设备的安全意识,针对IoT环境和设备的攻击逐渐泛滥。为了加强IoT环境下的网络安全性,利用基于IoT平台制作的入侵检测数据集,采用卷积神经网络(CNN)+长短期记忆(LSTM)网络为模型架构,利用CNN提取数据的空间特征,LSTM提取数据的时序特征,并将交叉熵损失函数改进为动态权重交叉熵损失函数,制作出一个针对IoT环境的入侵检测系统(IDS)。经实验设计分析,并使用准确率、精确率、召回率和F1-measure作为评估参数。实验结果表明在CNN-LSTM网络架构下采用了动态权重损失函数的模型与采用传统的交叉熵损失函数的模型相比,前者比后者在使用数据集的地址解析协议(ARP)类样本中在F1-Measure上提升了47个百分点,前者比后者针对数据集中的其他少数类样本则提升了2个百分点~10个百分点。实验结果表明,动态权重损失函数能够增强模型对少数类样本的判别能力,且该方法可以提升IDS对少数类攻击样本的判断能力。  相似文献   

11.
由于人类情感的表达受文化和社会的影响,不同语言语音情感的特征差异较大,导致单一语言语音情感识别模型泛化能力不足。针对该问题,提出了一种基于多任务注意力的多语言语音情感识别方法。通过引入语言种类识别辅助任务,模型在学习不同语言共享情感特征的同时也能学习各语言独有的情感特性,从而提升多语言情感识别模型的多语言情感泛化能力。在两种语言的维度情感语料库上的实验表明,所提方法相比于基准方法在Valence和Arousal任务上的相对UAR均值分别提升了3.66%~5.58%和1.27%~6.51%;在四种语言的离散情感语料库上的实验表明,所提方法的相对UAR均值相比于基准方法提升了13.43%~15.75%。因此,提出的方法可以有效地抽取语言相关的情感特征并提升多语言情感识别的性能。  相似文献   

12.
为了更好地表征语音情感状态,将固有时间尺度分解(ITD)用于语音情感特征提取。从语音信号中得到前若干阶合理旋转(PR)分量,并提取PR分量的瞬时参数特征和关联维数,以此作为新的情感特征参数,结合传统特征使用支持向量机(SVM)进行语音情感识别实验。实验结果显示,引入PR特征参数后,与传统特征的方案相比,情感识别率有了明显提高。  相似文献   

13.
吴锐  刘宇  冯凯 《计算机应用》2021,41(2):372-378
针对行人属性识别任务中不同属性对特征粒度和特征依赖性的需求不同的问题,提出了一种基于由空间自注意力机制和通道自注意力机制组成的双域自注意力机制的行人属性识别模型.首先,使用ResNet50作为骨干网络,提取出具有一定语义信息的特征;然后将得到的特征分别输入到双分支网络中,提取具有空间依赖性与语义相关性的自注意力特征以及...  相似文献   

14.
主流神经网络训练的交叉熵准则是对声学数据的每个帧进行分类优化,而连续语音识别是以序列级转录准确性为性能度量。针对这个不同,构建基于序列级转录的端到端语音识别系统。针对低资源语料条件下系统性能不佳的问题,其中模型使用卷积神经网络对输入特征进行处理,选取最佳的网络结构,在时域和频域进行二维卷积,从而改善输入空间中因不同环境和说话人产生的小扰动影响。同时神经网络使用批量归一化技术来减少泛化误差,加速训练。基于大型的语言模型,优化解码过程中的超参数,提高模型建模效果。实验结果表明系统性能提升约24%,优于主流语音识别系统。  相似文献   

15.
The speech signal consists of linguistic information and also paralinguistic one such as emotion. The modern automatic speech recognition systems have achieved high performance in neutral style speech recognition, but they cannot maintain their high recognition rate for spontaneous speech. So, emotion recognition is an important step toward emotional speech recognition. The accuracy of an emotion recognition system is dependent on different factors such as the type and number of emotional states and selected features, and also the type of classifier. In this paper, a modular neural-support vector machine (SVM) classifier is proposed, and its performance in emotion recognition is compared to Gaussian mixture model, multi-layer perceptron neural network, and C5.0-based classifiers. The most efficient features are also selected by using the analysis of variations method. It is noted that the proposed modular scheme is achieved through a comparative study of different features and characteristics of an individual emotional state with the aim of improving the recognition performance. Empirical results show that even by discarding 22% of features, the average emotion recognition accuracy can be improved by 2.2%. Also, the proposed modular neural-SVM classifier improves the recognition accuracy at least by 8% as compared to the simulated monolithic classifiers.  相似文献   

16.
为了更为全面地表征语音情感状态,弥补线性情感特征参数在刻画不同情感类型上的不足,将相空间重构理论引入语音情感识别中来,通过分析不同情感状态下的混沌特征,提取Kolmogorov熵和关联维作为新的情感特征参数,并结合传统语音特征使用支持向量机(SVM)进行语音情感识别。实验结果表明,通过引入混沌参数,与传统物理特征进行识别的方案相比,准确率有了一定的提高,为语音情感的识别提供了一个新的研究途径。  相似文献   

17.
葛磊  强彦  赵涓涓 《软件学报》2016,27(S2):130-136
语音情感识别是人机交互中重要的研究内容,儿童自闭症干预治疗中的语音情感识别系统有助于自闭症儿童的康复,但是由于目前语音信号中的情感特征多而杂,特征提取本身就是一项具有挑战性的工作,这样不利于整个系统的识别性能.针对这一问题,提出了一种语音情感特征提取算法,利用无监督自编码网络自动学习语音信号中的情感特征,通过构建一个3层的自编码网络提取语音情感特征,把多层编码网络学习完的高层特征作为极限学习机分类器的输入进行分类,其识别率为84.14%,比传统的基于提取人为定义特征的识别方法有所提高.  相似文献   

18.
为增强不同情感特征的融合程度和语音情感识别模型的鲁棒性,提出一种神经网络结构DBM-LSTM用于语音情感识别。利用深度受限玻尔兹曼机的特征重构原理将不同的情感特征进行融合;利用长短时记忆单元对短时特征进行长时建模,增强语音情感识别模型的鲁棒性;在柏林情感语音数据库上进行分类实验。研究结果表明,与传统识别模型相比,DBM-LSTM网络结构更适用于多特征语音情感识别任务,最优识别结果提升11%。  相似文献   

19.
为了提高语音和文本融合的情绪识别准确率,提出一种基于Transformer-ESIM(Transformer-enhanced sequential inference model)注意力机制的多模态情绪识别方法.传统循环神经网络在语音和文本序列特征提取时存在长期依赖性,其自身顺序属性无法捕获长距离特征,因此采用Tra...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号