期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈逸灵程艳芬陈先桥王红霞李超《哈尔滨工业大学学报》2018,50(11):160-166

离散情感描述模型将人类情感标注为离散的形容词标签,该类模型只能表示有限种类的、单一明确的情感类型,而维度情感模型从情感的多个维度量化了复杂情感的隐含状态.另外,常用的语音情感特征梅尔频率倒谱系数(MFCC)存在因分帧处理引起相邻帧谱特征之间相关性被忽略问题,容易丢失很多有用信息.为此本文提出改进方法,从语谱图中提取时间点火序列特征、点火位置信息特征对MFCC进行补充,将这三种特征分别用于语音情感识别,根据识别结果从PAD维度情感模型的三个维度(Pleasure-displeasure愉悦度、Arousal-nonarousal激活度、Dominance-submissiveness优势度)进行相关性分析得到特征的权重系数,加权融合后获得情感语音的最终PAD值,将其映射至PAD三维情感空间中.实验表明,增加的时间点火序列、点火位置信息不但能探测说话人的情感状态,同时考虑了相邻频谱间的互相关信息,与MFCC特征形成互补,在提升基本情感类型离散识别效果的基础上,将识别结果表示为PAD三维情感空间中的坐标点,采用量化的方法揭示情感空间中各种情感的定位与联系,展示出情感语音中糅杂的情感内容,为后续复杂的语音情感分类识别奠定研究基础. 相似文献

2.

基于HMM和PNN的语音情感识别研究

叶斌《青岛大学学报(工程技术版)》2011,26(4):53-56,72

语音情感识别是从语音的角度赋予计算机理解情感特征的能力,最终使计算机能像人一样进行自然、亲切和生动的交互。提出了一种融合隐马尔科夫模型（hidden markov model,HMM）和概率神经网络（probabilistic neural network,PNN）的语音情感识别方法。在所设计情感识别系统中,提取出基本的韵律参数和频谱参数,利用PNN处理声学参数的统计特征,利用HMM处理声学参数的时序特征,运用加法规则和乘法规则融合了统计特征和时序特征的识别结果。实验结果显示,所提出的算法在语音情感识别中具有有效的识别能力。相似文献

3.

基于深度学习可变长度语音片段的情感识别

魏金太高穹《承德石油高等专科学校学报》2021,23(6):51-56

通过将深度神经网络直接应用于频谱图,提出了一种用于可变长度语音段的情感识别方法.频谱图包含对情绪识别有用的对话语言信息.从频谱图中提取这些信息,并通过将卷积神经网络(CNN)与递归神经网络(RNN)相结合来完成情感识别任务.与传统的将句子分割成更小的固定长度段的方法相比,该方法可以解决语音分割过程中引入的准确性降低问题.实验结果表明,该方法在加权精度(WA)和不加权精度(UA)上均优于定长神经网络. 相似文献

4.

融合语音信号和脑电信号的多模态情感识别

马江河孙颖张雪英《西安电子科技大学学报(自然科学版)》2019,46(1):143-150

为构造有效的情感识别系统,通过声音刺激分别诱发出高兴、悲伤、生气以及中性4种情感,并采集相应的语音信号和脑电信号。首先,利用相空间重构技术提取脑电信号和语音信号的非线性几何特征和非线性属性特征,并结合两者的基本特征分别实现情感识别;然后,通过构建基于限制玻尔兹曼机的特征融合算法,从特征层融合的角度实现多模态情感识别;最后,利用二次决策算法从决策融合的角度构建多模态情感识别系统。实验结果显示,从特征融合的角度构建的多模态情感识别系统相比语音信号和脑电信号情感整体识别率,分别提高1.08%和2.75%;从决策融合的角度构建的多模态情感识别系统相比语音信号和脑电信号情感整体识别率,分别提高6.52%和8.19%;决策融合相比特征融合构建的多模态情感识别系统整体识别效果更优。因此,融合语音信号和脑电信号等不同来源的情感数据可以构造出更有效的情感识别系统。相似文献

5.

基于音频的数字媒体内容分析及其可视化

张田李嵩高畅邱荣发李海峰《东北重型机械学院学报》2010,(2):100-105

为了对音视频内容进行更加有效地分析,将信息可视化方法引入数字媒体信息处理领域。设计并实现了集多媒体信号采集、大词表连续语音识别、文本检索和音频检索为一身的多媒体内容可视化分析平台,取得了较理想的效果,充实了信息可视化理论并对其具体应用进行了有益尝试。相似文献

6.

嵌入注意力机制并结合层级上下文的语音情感识别

程艳芬陈垚鑫陈逸灵杨益《哈尔滨工业大学学报》2019,51(11):100-107

由于情感语料问题、情感与声学特征之间关联问题、语音情感识别建模问题等因素,语音情感识别一直充满挑战性.针对传统基于上下文的语音情感识别系统仅局限于特征层造成标签层上下文细节丢失以及两层级差异性被忽略的缺陷,本文提出嵌入注意力机制并结合层级上下文学习的双向长短时记忆(BLSTM)网络模型.模型分3个阶段完成语音情感识别任务,第1阶段提取情感语音特征全集后采用SVM-RFE特征排序算法降维得到最优特征子集,并对其进行注意力加权;第2阶段将加权后的特征子集输入BLSTM网络学习特征层上下文获得最初情感预测结果;第3阶段利用情感标签值对另一独立BLSTM网络训练学习标签层上下文信息并据此在第2阶段输出结果基础上完成最终预测.模型嵌入注意力机制使其自动学习调整对输入特征子集的关注度,引入标签层上下文使其联合特征层上下文实现层级上下文信息融合提高鲁棒性,提升了模型对情感语音的建模能力,在SEMAINE和RECOLA数据集上实验结果表明:与基线模型相比RMSE和CCC均得到较好改善. 相似文献

7.

普通话语音情感识别的特征选择技术 总被引：3，自引：0，他引：3

谢波陈岭陈根才陈纯《浙江大学学报(工学版)》2007,41(11):1816-1822

谢波，陈岭，陈根才，陈纯针对情感声学特征在语音情感识别中的重要性问题，运用优先选择、序列前向、序列后向和逐步判别分析进行了特征选择.对说话人和文本均无关、说话人相关2组普通话情感语音进行特征选择，然后利用线性判别分析和支持向量机进行实际识别效果的分析比较.特征选择结果表明，基频、对数能量、语速和第一共振峰均值对普通话情感语音具有较强的判别能力，但情感声学特征的判别力随着说话人的不同而有所差异.特征选择方法比较实验表明，逐步判别分析比其他3种方法具有更高的平均准确率，当特征个数为9~12时分类器的平均准确率最高.效用分析表明，特征选择在小样本时更加有效. 相似文献

8.

改进星形图和超维树在健康信息系统中的应用

钱亮亮陈谊《北京轻工业学院学报》2009,(4):29-33

信息可视化主要应用于没有几何属性的抽象信息,揭示信息之间的关系和信息中隐藏的特征.介绍了几种典型的多维数据的信息可视化和交互方法,提出了用星形图技术和超维树技术对人体健康多维数据进行可视化的设计方法,给出了可视化结果.研究成果可以应用到环境,医学,体育和游戏等多个领域. 相似文献

9.

机器人语音控制及其实现 总被引：2，自引：0，他引：2

罗志增赵敬斌《杭州电子科技大学学报》2004,24(1):30-34

研究语音识别技术在机器人控制系统中的应用，采用了以LPC倒谱系数为特征矢量的模板匹配法来对有限的词汇量进行识别，将识别结果转换成命令并通过串口发送给机器人以控制其运动，实现了机器人的语音控制。相似文献

10.

基于MFCC和CHMM技术的语音情感分析及其在教育中的应用研究 总被引：1，自引：0，他引：1

张永皋马青玉孙青《南京师范大学学报》2009,9(2):89-92

语音情感识别作为一个新的研究热点,因其能解决教育中情感缺失的问题,而越来越受到研究者的重视.选取符合人类听觉系统感知的M el频率倒谱系数（MFCC）与各态历经型的连续隐马尔可夫模型（CHMM）进行语音情感特征的分析,并对大量的语音信号进行情感识别实验,识别正确率达到86.7%,为教育中的情感补偿提供了切实可行的依据. 相似文献

11.

Novel acoustic features for speech emotion recognition

ROH Yong-Wan KIM Dong-Ju LEE Woo-Seok HONG Kwang-Seok 《中国科学E辑(英文版)》2009,52(7):1838-1848

This paper focuses on acoustic features that effectively improve the recognition of emotion in human speech. The novel features in this paper are based on spectral-based entropy parameters such as fast Fourier transform (FFT) spectral entropy, delta FFT spectral entropy, Mel-frequency filter bank (MFB) spectral entropy, and Delta MFB spectral entropy. Spectral-based entropy features are simple. They reflect frequency characteristic and changing characteristic in frequency of speech. We implement an emotion rejection module using the probability distribution of recognized-scores and rejected-scores. This reduces the false recognition rate to improve overall performance. Recognized-scores and rejected-scores refer to probabilities of recognized and rejected emotion recognition results, respectively. These scores are first obtained from a pattern recognition procedure. The pattern recognition phase uses the Gaussian mixture model (GMM). We classify the four emotional states as anger, sadness, happiness and neutrality. The proposed method is evaluated using 45 sentences in each emotion for 30 subjects, 15 males and 15 females. Experimental results show that the proposed method is superior to the existing emotion recognition methods based on GMM using energy, Zero Crossing Rate (ZCR), linear prediction coefficient (LPC), and pitch parameters. We demonstrate the effectiveness of the proposed approach. One of the proposed features, combined MFB and delta MFB spectral entropy improves performance approximately 10% compared to the existing feature parameters for speech emotion recognition methods. We demonstrate a 4% performance improvement in the applied emotion rejection with low confidence score. Supported by MIC, Korea under ITRC IITA-2009-(C1090-0902-0046) and the Korea Science and Engineering Foundation (KOSEF) funded by the Korea government (MEST) (Grant No. 20090058909) 相似文献

12.

A robust feature extraction approach based on an auditory model for classification of speech and expressiveness

孙颖 V. Werner 张雪英《中南工业大学学报(英文版)》2012,19(2):504-510

Based on an auditory model, the zero-crossings with maximal Teager energy operator (ZCMT) feature extraction approach was described, and then applied to speech and emotion recognition. Three kinds of experiments were carried out. The first kind consists of isolated word recognition experiments in neutral (non-emotional) speech. The results show that the ZCMT approach effectively improves the recognition accuracy by 3.47% in average compared with the Teager energy operator (TEO). Thus, ZCMT feature can be considered as a noise-robust feature for speech recognition. The second kind consists of mono-lingual emotion recognition experiments by using the Taiyuan University of Technology (TYUT) and the Berlin databases. As the average recognition rate of ZCMT approach is 82.19%, the results indicate that the ZCMT features can characterize speech emotions in an effective way. The third kind consists of cross-lingual experiments with three languages. As the accuracy of ZCMT approach only reduced by 1.45%, the results indicate that the ZCMT features can characterize emotions in a language independent way. 相似文献

13.

湖南省主要内生成矿事件的构造格局控矿特征及动力机制

下载免费PDF全文

俞颖黄风华刘永芬《延边大学学报(自然科学版)》2020,(1):49-70

湖南省内生矿产资源丰富,内生成矿事件主要有加里东期(以志留纪为主)、印支晚期(晚三叠世)、燕山中晚期(晚侏罗世—早白垩世)等3期。以区域矿产资料为基础,结合大地构造、成岩成矿年龄、矿床成因机制等研究成果,对上述3期内生成矿事件的构造格局控矿特征和动力机制进行探讨。①受加里东运动自东南向西北扩展以及深部岩石圈结构差异控制,加里东期湖南省自东南往西北分为成矿特征有别的3个构造带。湘中—湘东南构造岩浆带(Ⅰ)发生后碰撞花岗质岩浆活动,于局部产生与岩浆活动相关的W、萤石等成矿作用; 雪峰构造带(Ⅱ)东部的雪峰冲断带(Ⅱ₁)形成了以构造活化成因为主的金矿和锑金矿; 雪峰构造带(Ⅱ)西部的武陵低缓褶皱带(Ⅱ₂)及湘西北构造抬升带(Ⅲ)内形成了与寒武纪同沉积断裂活动、加里东运动后的伸展活动以及相应的热液活动有关的汞铅锌矿。②印支晚期受深部岩石圈结构差异控制,湖南省自东南至西北分为3个构造带:湘中—湘东南构造岩浆带(Ⅰ)因后碰撞减压熔融而发生大规模花岗质岩浆活动,从而于其东南部形成钨锡铅锌多金属矿床,西北部形成锑金钨多金属矿床; 雪峰构造带(Ⅱ)可能无内生热液成矿作用; 湘西北褶皱带(Ⅲ)发育小型脉型铅锌矿。③燕山中晚期,湖南省自东南往西北分为3个构造带:湘中—湘东构造岩浆带(Ⅰ)受岩石圈拆沉、软流圈上隆、陆内碰撞后期增温减压、俯冲板块崩塌等深部构造作用控制而发生大规模花岗质岩浆活动,形成了大量的有色金属矿床和金矿床; 雪峰西部构造带(Ⅱ)成矿作用弱,局部存在Au、Hg成矿作用; 湘西北褶皱带(Ⅲ)发育少量低温热液充填型萤石矿和砷矿。相似文献

14.

基于RBF神经网络的语音情感识别

张海燕唐建芳《四川轻化工学院学报》2011,(5):552-555

介绍了径向基函数神经网络的原理、训练算法,并建立了RBF神经网络的语音情感识别的模型。在实验中比较了BP神经网络与RBF神经网络分别用于语音情感识别识别率,RBF神经网络的平均识别率高于BP神经网络3%。结果表明,基于RBF神经网络的语音情感识别方法的有效性。相似文献

15.

Emotional speech feature extraction and optimization of phase space reconstruction

SUN Ying SONG Chunxiao 《西安电子科技大学学报(自然科学版)》2017,44(6):162-168

相似文献