期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张会云黄鹤鸣《计算机工程》2022,48(4):113-118

提取能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别系统的核心。面向语音情感识别构建基于注意力机制的异构并行卷积神经网络模型AHPCL,采用长短时记忆网络提取语音情感的时间序列特征,使用卷积操作提取语音空间谱特征,通过将时间信息和空间信息相结合共同表征语音情感,提高预测结果的准确率。利用注意力机制,根据不同时间序列特征对语音情感的贡献程度分配权重,实现从大量特征信息中选择出更能表征语音情感的时间序列。在CASIA、EMODB、SAVEE等3个语音情感数据库上提取音高、过零率、梅尔频率倒谱系数等低级描述符特征,并计算这些低级描述符特征的高级统计函数共得到219维的特征作为输入进行实验验证。结果表明,AHPCL模型在3个语音情感数据库上分别取得了86.02%、84.03%、64.06%的未加权平均召回率,相比LeNet、DNN-ELM和TSFFCNN基线模型具有更强的鲁棒性和泛化性。相似文献

2.

面向情感语音识别的非线性几何特征提取算法

宋春晓孙颖《计算机工程与应用》2017,53(20):128-133

针对现有时域、频域属性特征在区分情感状态上存在的局限性,提出一种基于相空间重构理论的非线性几何特征提取方法。首先,通过分析情感语音信号的最小延迟时间和嵌入维数来实现相空间重构;其次,在重构相空间下分析并提取基于轨迹描述轮廓的五种非线性几何特征;最后,结合韵律特征、MFCC特征和混沌特征,设计实验方案验证所提特征区分情感状态的能力并通过特征选择获得情感信息完整的最优特征集合。选用德语柏林语音库中的五种情感（高兴、悲伤、中性、愤怒、害怕）作为实验数据来源,支持向量机作为识别网络。实验结果表明：与韵律特征、MFCC特征和混沌特征相比,所提特征不仅可以有效地表征语音信号中的情感差异性,也能够弥补现有特征在刻画情感状态上的不足。相似文献

3.

基于随机森林的语音人格预测方法

《计算机工程》2017,(6):253-258

为提高语音人格的预测精度,结合随机森林模型,提出一种语音人格预测方法。选取用于语音人格预测的候选韵律特征集,通过Bootstrap方式对语音韵律特征集进行抽样,根据基尼系数为每个决策树节点选择最优韵律特征集,最终构造各维人格特征对应的随机森林模型,实现语音人格预测。在公共语音人格预测数据集中的仿真实验结果表明,与其他语音人格预测方法相比,该方法具有更高的预测准确率。相似文献

4.

核典型相关分析算法的多特征融合情感识别

刘付民张治斌沈记全《计算机工程与应用》2014,(9):193-196,253

为了提高情感识别的正确率,针对单模情感特征及传统特征融合方法识别低的缺陷,提出了一种核典型相关分析算法(KCCA)的多特征(multi-features)融合情感识别方法(MF-KCCA)。分别提取语音韵律特征和分数阶傅里叶域表情特征,利用两种特征互补性,采用KCCA将它们进行融合,降低特征向量的维数,利用最近邻分类器进行情感分类和识别。采用加拿大瑞尔森大学数据库进行仿真实验,结果表明,MF-KCCA有效提高了语音情感的识别率。相似文献

5.

维吾尔语情感语音韵律转换研究

杜楠楠赵晖《计算机工程与应用》2016,52(19):154-160

面向维吾尔语情感语音转换,提出一种韵律建模转换方法。该方法结合了维吾尔语韵律特点及语言特点,首次利用离散余弦变换（DCT）分别参数化维吾尔语音节和韵律短语的情感基频。采用高斯混合模型（GMM）训练中性-情感基频联合特征,同时合成中性语速情感语音和情感语速情感语音,主观评测结果显示情感语速更有助于表达情感效果。主客观实验结果显示转换方法可有效进行维吾尔语情感韵律转换,三种情感下,音节和韵律短语的结果均达到75%以上,韵律短语的转换效果要稍优于音节。相似文献

6.

基于依存信息融合特征的汉语韵律预测

《计算机工程》2018,(1)

针对目前基于浅层语法特征和依存句法单特征的汉语韵律层级预测能力较弱的情况,提出一种改进的汉语韵律预测方法。通过从输入文本的依存句法分析结果中自动提取依存句法单特征,并对其中关键特征进行特征融合,得到依存信息融合特征。将依存句法单特征与融合特征进行韵律层级预测实验对比,选取最优的依存特征组合与浅层语法特征相结合,利用决策树C4.5算法实现韵律结构层级的预测。经过大量的语料训练和测试结果表明,依存信息融合特征相比依存句法单特征整体韵律层级的预测准确率均有所提升,相对于浅层语法特征,韵律词和韵律短语的预测准确率分别提高了5.8%和15.4%。相似文献

7.

小规模情感数据和大规模中性数据相结合的情感韵律建模研究

邵艳秋穗志方韩纪庆王志伟《计算机研究与发展》2007,44(9):1624-1631

建立好的情感韵律模型是合成情感语音的重要环节,而在情感语音的研究过程中,一个必须面对的现实问题就是通常情感数据量相比于中性数据量要少得多.将一个含有高兴、生气、悲伤3种情感语音的小规模数据库和一个较大规模的中性语音数据库相结合,进行情感韵律建模研究.对影响情感的韵律参数进行了分析,建立了基于人工神经网络的情感韵律模型.针对情感数据量相对于中性数据量的不足而导致的过拟合现象,提出了3种解决办法,即混合语料法、最小二乘融合法和级联网络法.这些方法都在不同程度上扩大了情感语料的作用,使得情感预测效果都有所提高.尤其是级联网络法,将中性模型的结果作为级联网络的一个输入,相当于扩大了情感模型的特征空间,更加强化了情感模型各输入特征的作用,在3种情感的各韵律参数生成中效果是最好的. 相似文献

8.

基于关联规则的语音情感中韵律特征抽取算法研究

《计算机应用与软件》2015,(9)

近年来,情感计算一直是学术界研究的热点问题。语音情感识别作为情感计算的重要研究且涉及到人工智能、模式识别、机器学习等多个领域。针对语音情感识别中特征挖掘的复杂性,利用关联规则挖掘算法对语音特征中的韵律特征与所包含情感之间的关联关系进行研究。主要进行如下工作:(1)针对语音情感的特点,给出了情感频繁项集的概念;(2)提出基于关联规则的语音情感中韵律特征抽取算法(PFEA_AR);(3)在汉语情感数据集上进行相关实验,取得了85%的识别率,比fisher准则判别法的精度提高了10%。实验结果表明,通过关联规则算法所抽取的特征在降低维度的同时还能够有效提高情感分类精度,从而验证了新算法所抽取特征的有效性。相似文献

9.

基于ASGRU-CNN时空双通道的语音情感识别

高鹏淇黄鹤鸣《计算机仿真》2024,(4):180-186

语音情感识别是实现人机交互的关键,如何提升语音情感识别的准确率以及更有效地提取具有情感代表性的特征是语音情感识别所面临的问题之一。针对以上问题,构建了一种包含空间特征提取模块和时序特征提取模块的双通道时空语音情感识别模型ASGRU-CNN。模型总体框架由两条并行分支组成：第一分支为空间特征提取模块,由三维卷积、二维卷积及池化操作共同构成级联结构;第二分支为时序特征提取模块,由切片循环神经网络内嵌门控循环单元及注意力机制构成。模型以韵律特征及谱特征的融合特征作为输入特征,经过双分支处理后,进入全连接层进行语音情感分类。在CASIA与EMO-DB数据库上进行相关实验,并通过数据扩充增加训练样本,与其它语音情感识别模型实验结果相比,所提出的模型具有较好的鲁棒性和泛化性。相似文献

10.

基于Tacotron模型和韵律修正的情感语音合成方法

张昕胡航烨曹欣怡王蔚《数据采集与处理》2022,37(4):909-916

语音合成技术日趋成熟,为了提高合成情感语音的质量,提出了一种端到端情感语音合成与韵律修正相结合的方法。在Tacotron模型合成的情感语音基础上,进行韵律参数的修改,提高合成系统的情感表达力。首先使用大型中性语料库训练Tacotron模型,再使用小型情感语料库训练,合成出具有情感的语音。然后采用Praat声学分析工具对语料库中的情感语音韵律特征进行分析并总结不同情感状态下的参数规律,最后借助该规律,对Tacotron合成的相应情感语音的基频、时长和能量进行修正,使情感表达更为精确。客观情感识别实验和主观评价的结果表明,该方法能够合成较为自然且表现力更加丰富的情感语音。相似文献

11.

基于PAD三维情绪模型的情感语音韵律转换

鲁小勇杨鸿武郭威彤裴东《计算机工程与应用》2013,(5)

提出了一种基于PAD三维情绪模型的情感语音韵律转换方法。选取了11种典型情感,设计了文本语料,录制了语音语料,利用心理学的方法标注了语音语料的PAD值,利用五度字调模型对情感语音音节的基频曲线建模。在此基础上,利用广义回归神经网络(Generalized Regression Neural Network,GRNN)构建了一个情感语音韵律转换模型,根据情感的PAD值和语句的语境参数预测情感语音的韵律特征,并采用STRAIGHT算法实现了情感语音的转换。主观评测结果表明,提出的方法转换得到的11种情感语音,其平均EMOS(Emotional Mean Opinion Score)得分为3.6,能够表现出相应的情感。相似文献

12.

基于多核学习特征融合的语音情感识别方法

王忠民刘戈宋辉《计算机工程》2019,45(8):248-254

在语音情感识别中提取梅尔频率倒谱系数(MFCC)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的语音情感识别方法。从音频信号中提取MFCC特征,将信号转换为语谱图,利用卷积神经网络提取图像特征。在此基础上,使用多核学习算法融合音频特征,并将生成的核函数应用于支持向量机进行情感分类。在2种语音情感数据集上的实验结果表明,与单一特征的分类器相比,该方法的语音情感识别准确率高达96%。相似文献

13.

基于Attention-CGRU网络的中文语音情感识别

王茂林郝刚《计算机系统应用》2023,32(1):296-301

正确识别语音中包含的情感信息可以大幅提高人机交互的效率.目前,语音情感识别系统主要由语音特征抽取和语音特征分类两步组成.为了提高语音情感识别准确率,选用语谱图而非传统声学特征作为模型输入,采用基于attention机制的CGRU网络提取语谱图中包含的频域信息和时域信息.实验结果表明:在模型中引入注意力机制有利于减少冗余信息的干扰,并且相较于基于LSTM网络的模型,采用GRU网络的模型预测精确度更高,且在训练时收敛更快,与基于LSTM的基线模型相比,基于GRU网络的模型训练时长只有前者的60%. 相似文献

14.

基于混合特征提取与跨模态特征预测融合的情感识别模型

李牧杨宇恒柯熙政《计算机应用》2024,(1):86-93

为从多模态情感分析中有效挖掘单模态表征信息,并实现多模态信息充分融合,提出一种基于混合特征与跨模态预测融合的情感识别模型（H-MGFCT）。首先,利用Mel频率倒谱系数（MFCC）和Gammatone频率倒谱系数（GFCC）及其一阶动态特征融合得到混合特征参数提取算法（H-MGFCC）,解决了语音情感特征丢失的问题;其次,利用基于注意力权重的跨模态预测模型,筛选出与语音特征相关性更高的文本特征;随后,加入对比学习的跨模态注意力机制模型对相关性高的文本特征和语音模态情感特征进行跨模态信息融合;最后,将含有文本-语音的跨模态信息特征与筛选出的相关性低的文本特征相融合,以起到信息补充的作用。实验结果表明,该模型在公开IEMOCAP(Interactive EMotional dyadic MOtion CAPture)、CMU-MOSI (CMU-Multimodal Opinion Emotion Intensity)、CMU-MOSEI(CMU-Multimodal Opinion Sentiment Emotion Intensity)数据集上与加权决策层融合的语音文本情感识别（DLF... 相似文献

15.

情感子句预测与原因子句提取方法

陆丁天张志远《计算机工程与设计》2021,42(8):2381-2386

为减少人工成本,提出在未给定情感标签情况下预测文本情感子句,同时提取原因子句的方法.使用CNN提取局部语义信息,使用带有注意力的Bi-LSTM提取句子上下文语义信息以及情感表达的关键部分信息,将这3类信息结合获取更好的句子特征来进行情感预测;通过注意力将预测的情感标签与句子特征结合,提取原因.实验结果表明,模型在情感子句预测和原因子句提取任务中均取得目前最好结果,在未给定文本情感标签的情况下,原因提取效果仍优于大部分传统模型. 相似文献

16.

基于粒子群优化神经网络的语音情感识别 总被引：1，自引：0，他引：1

余华黄程韦金赟赵力《数据采集与处理》2011,26(1)

提出了一种基于粒子群优化算法的人工神经网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化。利用粒子群优化算法(PSO)训练随机产生的初始数据,优化神经网络的连接权值和阈值,快速地实现网络的收敛。在实验中比较了BP神经网络、RBF神经网络与PSO神经网络分别用于语音情感识别的识别率,PSO神经网络的平均识别率高于BP神经网络6.7%,高于RBF神经网络5.4%。结果显示,粒子群优化神经网络用于语音情感识别提高了识别性能。相似文献

17.

基于韵律特征参数的情感语音合成算法研究 总被引：1，自引：0，他引：1

何凌黄华刘肖珩《计算机工程与设计》2013,34(7)

为了合成更为自然的情感语音,提出了基于语音信号声学韵律参数及时域基音同步叠加算法的情感语音合成系统.实验通过对情感语音数据库中生气、无聊、高兴和悲伤4种情感的韵律参数分析,建立4种情感模板,采用波形拼接语音合成技术,运用时域基音同步叠加算法合成含有目标感情色彩的语音信号.实验结果表明,运用波形拼接算法,调节自然状态下语音信号的韵律特征参数,可合成较理想的情感语音.合成的目标情感语音具有明显的感情色彩,其主观情感类别判别正确率较高. 相似文献

18.

两级特征联合学习的情感说话人识别

下载免费PDF全文

刘金琳李冬冬王喆蔡立志《计算机工程与应用》2023,59(1):149-155

针对说话人识别的性能易受到情感因素影响的问题,提出利用片段级别特征和帧级别特征联合学习的方法。利用长短时记忆网络进行说话人识别任务,提取时序输出作为片段级别的情感说话人特征,保留了语音帧特征原本信息的同时加强了情感信息的表达,再利用全连接网络进一步学习片段级别特征中每一个特征帧的说话人信息来增强帧级别特征的说话人信息表示能力,最后拼接片段级别特征和帧级别特征得到最终的说话人特征以增强特征的表征能力。在普通话情感语音语料库（MASC）上进行实验,验证所提出方法有效性的同时,探究了片段级别特征中包含语音帧数量和不同情感状态对情感说话人识别的影响。相似文献

19.

基于韵律特征辅助的端到端语音识别方法

刘聪万根顺高建清付中华《计算机应用》2023,43(2):380-384

针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型中的概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征;然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明,该方法在1 000 h及10 000 h级别的语音识别任务上分别较端到端语音识别基线方法在准确率上相对提升了5.2%和5.0%,进一步改善了语音识别结果的可懂度。相似文献

20.

融合语音情感词局部特征的语音情感识别方法

宋明虎余正涛高盛祥李铚沈韬《计算机工程与科学》2017,39(1):194-198

为有效利用语音情感词局部特征,提出了一种融合情感词局部特征与语音语句全局特征的语音情感识别方法。该方法依赖于语音情感词典的声学特征库,提取出语音语句中是否包含情感词及情感词密度等局部特征,并与全局声学特征进行融合,再通过机器学习算法建模和识别语音情感。对比实验结果表明,融合语音情感词局部特征与全局特征的语音情感识别方法能取得更好的效果,局部特征的引入能有效提高语音情感识别准确率。相似文献