期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘凯张立民范晓磊《哈尔滨工业大学学报》2016,48(5):155-159

针对卷积深度和信念网络存在计算复杂度高和训练缓慢的问题,提出卷积深度玻尔兹曼机用于图像特征提取.针对卷积受限玻尔兹曼机进行改进,提出最大化图像中间区域概率的训练目标函数,并引入性能较好的交叉熵稀疏惩罚因子和dropout训练方法.设计卷积深度玻尔兹曼机结构,提出均值聚合机制,将聚合层内点的值定义为block中各点激活概率均值,对层间关联进行简化,将聚合层内各面直接叠加以供高层CRBM提取特征.通过在MNIST手写数字识别集上的实验结果证明,采用新模型提取的图像特征分类准确率提高0.5%、训练时间减少50%,且达到了目前MNIST数据集的最佳水平. 相似文献

2.

基于深度学习的语音识别模型及其在智能家居中的应用

《浙江理工大学学报》2019,(2)

为了满足人们对智能家居设备控制便捷化的需求,提出了一种基于降噪自动编码器的深度学习语音识别模型,经过语音识别模型解析出短语控制指令,以实现家居设备控制。该语音识别模型主要包含两个部分:首先进行无监督学习预训练,预训练前随机将一些网络节点置为0,人工模拟噪声数据,然后采用限制玻尔兹曼机权重矩阵依次训练每一个隐含层,通过比较输入数据与输出数据的偏差修改权重,优化参数;然后进行有监督微调,把训练好的参数作为整个网络的初始值,采用误差反向传播算法对整个网络模型调参。实验结果表明:该语音识别模型与深度信念网络对比,在语音识别率和对噪声的鲁棒性都有明显提高。将该语音识别模型和智能家居系统相结合,从普通短语中判断出家居控制指令,实现人机交互非接触式、便捷式控制,从而使系统更加智能化。相似文献

3.

嵌入注意力机制并结合层级上下文的语音情感识别

程艳芬陈垚鑫陈逸灵杨益《哈尔滨工业大学学报》2019,51(11):100-107

由于情感语料问题、情感与声学特征之间关联问题、语音情感识别建模问题等因素,语音情感识别一直充满挑战性.针对传统基于上下文的语音情感识别系统仅局限于特征层造成标签层上下文细节丢失以及两层级差异性被忽略的缺陷,本文提出嵌入注意力机制并结合层级上下文学习的双向长短时记忆(BLSTM)网络模型.模型分3个阶段完成语音情感识别任务,第1阶段提取情感语音特征全集后采用SVM-RFE特征排序算法降维得到最优特征子集,并对其进行注意力加权;第2阶段将加权后的特征子集输入BLSTM网络学习特征层上下文获得最初情感预测结果;第3阶段利用情感标签值对另一独立BLSTM网络训练学习标签层上下文信息并据此在第2阶段输出结果基础上完成最终预测.模型嵌入注意力机制使其自动学习调整对输入特征子集的关注度,引入标签层上下文使其联合特征层上下文实现层级上下文信息融合提高鲁棒性,提升了模型对情感语音的建模能力,在SEMAINE和RECOLA数据集上实验结果表明:与基线模型相比RMSE和CCC均得到较好改善. 相似文献

4.

基于多模态判别性嵌入空间的图像情感分析

吕光瑞蔡国永林煜明《北京邮电大学学报》2019,42(1):61-67

为了解决图像情感分析中存在的情感鸿沟和大的类内方差问题,提出了一种可以同时利用视觉模态和文本模态之间的深度潜在关联、视觉模态的深度线性判别和图像中层语义融合的弱监督方法.利用多模态深度网络结构找到一个视觉模态和文本模态之间最大深度关联且视觉模态具有深度判别性的潜在嵌入空间,并在该潜在空间中将文本的语义映射特征迁移到图像的判别性视觉映射特征中;结合注意力机制,设计涵盖潜在空间中映射特征的注意力网络,用于情感分类.在真实数据集上的实验结果表明,所提出的方法获得了更好的情感分类准确率. 相似文献

5.

一种基于RBM的深层神经网络音素识别方法

下载免费PDF全文

陈琦张文林牛铜李弼程《信息工程大学学报》2013,14(5):569-574

为提高连续语音识别中的音素识别准确率,采用深可信网络提取语音音素后验概率进行音素识别.首先利用受限玻尔兹曼机的学习原理,对深可信网络进行逐层的预训练;然后通过增加一个“软最大化（softmax）”输出层,得到用于音素状态后验概率检测的深层神经网络,并采用后向传播算法进行网络权值的精细调整;最后以后验概率为HMM发射概率,使用Viterbi解码器进行音素识别.针对TIMIT语料库的实验结果表明,该系统的音素识别率优于GMM/HMM,MLP/HMM和TANDEM系统性能. 相似文献

6.

关联理论视角下的情感因素影响的研究

王效梅《吉林化工学院学报》2008,(5):84-86

在关联理论背景下分析情感因素,能从一定的高度、深度、普遍性探讨影响学习者潜力发挥的诸多因素—学习者的个人问题和学习者之间或与教师之间的情感因素等。情感与认知相辅相成;如果缺乏积极因素,其认知能力将大打折扣。本文以学习者为中心,探讨了情感因素在语言习得过程中的重要作用。相似文献

7.

基于GMM的增量式情感映射

韩晶解仑王志良任福继《哈尔滨工业大学学报》2018,50(8):168-173

为有效地获得用户的真实情感状态,促进和谐的人机交互体验.结合AVS情感空间和大五人格理论,提出一种基于高斯混合模型的增量式情感映射模型.首先,在AVS情感空间的3种属性(A,V,S)坐标轴上,利用高斯混合模型对情感类型进行依次建模,计算情感概率值及其空间分布;其次,针对用户的个体差异性,采用层次分析法研究人格五因素与情感属性之间的关联,获得用户的个性化认知参数,实现具有个性化认知的情感映射结果;之后,采用增量式学习方法对情感类型的分布空间进行实时修正,保证情感分类的高准确率.最后,实验结果验证了该方法的情感映射结果与用户的真实情感状态具有高度一致性,并有较好的自适应性. 相似文献

8.

基于半监督学习的脑电信号特征提取及识别

张娜唐贤伦刘庆《四川大学学报(工程科学版)》2017,49(Z2):230-237

针对有监督学习容易造成未标记样本的浪费和手动特征提取容易导致信息丢失的问题,提出一种基于深层堆叠网络（DSN）的半监督特征学习方法,无监督特征学习的过程由多个受限玻尔兹曼机（RBM）的并行训练完成,将训练得到的参数用于DSN的输入权值初始化,再采用批量模式的梯度下降法进行监督微调。将所提方法用于运动想象脑电信号特征提取及识别,实验结果表明本文方法能够充分利用未标记样本中的隐含信息,有效提取脑电信号特征,识别结果优于共同空间模式（CSP）和深度信念网络（DBN）等算法,该方法可用于提高BCI系统中脑电信号的识别准确率。相似文献

9.

面向情感语音识别的情感维度PAD预测

孙颖胡艳香张雪英段淑斐《浙江大学学报(工学版)》2019,53(10):2041-2048

针对现有的情感特征仅从信号的角度对情感进行分析,不能直观反映情感状态的问题,提出将连续情感维度PAD引入情感识别. 实验样本选用TYUT2.0数据库和柏林语音库中的3种情感（悲伤、愤怒和高兴）,提取情感特征（韵律特征、共振峰、MFCC和非线性特征）. 为了获取客观、精确的PAD维度,利用灰色关联分析（GRA）选取影响P、A、D的主要特征,通过主成分分析（PCA）提取主要特征的主成分,将主成分作为最小二乘支持向量机（LSSVM）的输入预测P、A、D. 分别对情感特征、PAD维度及它们的融合,采用支持向量机进行情感识别. 实验结果表明,该预测方法在一定程度上提高了对P、A、D的预测精度,预测值可以有效识别情感,对情感特征在情感识别方面有一定的补充作用. 相似文献

10.

基于深度信念网络的粮食产量预测

徐路路张德贤《河南工程学院学报(自然科学版)》2019,31(1)

为了研究地区粮食产量的预测问题,提出了一种基于深度信念网络的粮食产量预测模型,利用改进K-means算法构建数据集预处理模型,通过多层受限玻尔兹曼机构建深度信念网络的预测模型,并利用对比散度算法训练预测模型。以河南省西华县1996—2016年小麦产量、种植面积与降雨量数据作为应用研究实例,将1996—2013年的小麦产量、种植面积与降雨量数据作为建模样本、2014—2016年的相关数据作为测试样本,进行预测模型的研究。结果表明,基于深度信念网络的粮食产量预测模型的平均预测精度超过97%,说明深度信念网络适用于地区粮食产量的预测,为粮食产量预测提供了一种新方法。相似文献

11.

融合语音信号和脑电信号的多模态情感识别

马江河孙颖张雪英《西安电子科技大学学报(自然科学版)》2019,46(1):143-150

为构造有效的情感识别系统,通过声音刺激分别诱发出高兴、悲伤、生气以及中性4种情感,并采集相应的语音信号和脑电信号。首先,利用相空间重构技术提取脑电信号和语音信号的非线性几何特征和非线性属性特征,并结合两者的基本特征分别实现情感识别;然后,通过构建基于限制玻尔兹曼机的特征融合算法,从特征层融合的角度实现多模态情感识别;最后,利用二次决策算法从决策融合的角度构建多模态情感识别系统。实验结果显示,从特征融合的角度构建的多模态情感识别系统相比语音信号和脑电信号情感整体识别率,分别提高1.08%和2.75%;从决策融合的角度构建的多模态情感识别系统相比语音信号和脑电信号情感整体识别率,分别提高6.52%和8.19%;决策融合相比特征融合构建的多模态情感识别系统整体识别效果更优。因此,融合语音信号和脑电信号等不同来源的情感数据可以构造出更有效的情感识别系统。相似文献

12.

一种耦合深度信念网络的图像识别方法

马苗许西丹武杰《西安电子科技大学学报(自然科学版)》2018,45(5):102-107

针对网络层数增加带来的梯度消失问题,提出了一种耦合深度信念网络的图像识别方法．该方法将“跨层”连接引入到深度信念网络中并应用于图像识别．给出了耦合深度信念网络的结构示意图及其参数更新方法,并在相同数据集和网络层数情况下比较了具有最佳参数的深度信念网络与最佳参数的耦合深度信念网络的识别性能,分析了“跨层”连接中主、次线耦合比例对网络性能的影响,且与几种经典的深度学习方法进行了对比．实验结果显示,耦合深度信念网络在收敛速度与识别精度上均优于深度信念网络．同时,相比于经典的深度网络,文中所提方法获得了良好的识别性能．这说明采用“跨层”耦合方式可有效缓解深度信念网络训练过程中出现的梯度消失问题,提高网络的识别性能．相似文献

13.

PAD三维情感空间中的语音情感识别 总被引：1，自引：0，他引：1

陈逸灵程艳芬陈先桥王红霞李超《哈尔滨工业大学学报》2018,50(11):160-166

离散情感描述模型将人类情感标注为离散的形容词标签,该类模型只能表示有限种类的、单一明确的情感类型,而维度情感模型从情感的多个维度量化了复杂情感的隐含状态.另外,常用的语音情感特征梅尔频率倒谱系数(MFCC)存在因分帧处理引起相邻帧谱特征之间相关性被忽略问题,容易丢失很多有用信息.为此本文提出改进方法,从语谱图中提取时间点火序列特征、点火位置信息特征对MFCC进行补充,将这三种特征分别用于语音情感识别,根据识别结果从PAD维度情感模型的三个维度(Pleasure-displeasure愉悦度、Arousal-nonarousal激活度、Dominance-submissiveness优势度)进行相关性分析得到特征的权重系数,加权融合后获得情感语音的最终PAD值,将其映射至PAD三维情感空间中.实验表明,增加的时间点火序列、点火位置信息不但能探测说话人的情感状态,同时考虑了相邻频谱间的互相关信息,与MFCC特征形成互补,在提升基本情感类型离散识别效果的基础上,将识别结果表示为PAD三维情感空间中的坐标点,采用量化的方法揭示情感空间中各种情感的定位与联系,展示出情感语音中糅杂的情感内容,为后续复杂的语音情感分类识别奠定研究基础. 相似文献

14.

融合谱-空域信息的DBM高光谱图像分类方法

杨建功汪西莉刘侍刚《西安电子科技大学学报(自然科学版)》2019,46(3):109-115

在高光谱图像分类问题中,提取能够有效表达地物特征的信息是分类方法中的关键问题。为了提高高光谱图像分类精度,提出一种基于深度玻尔兹曼机的高光谱图像分类方法。该方法首先对高光谱图像数据进行主成分分析法白化处理,并提取像元的空域信息,与像元光谱信息组成综合的谱-空域信息;然后通过多层深度玻尔兹曼机模型从像元的谱-空域信息中提取深层次类别特征;最后通过逻辑回归模型对所提取特征进行分类。这种深度玻尔兹曼机模型能够利用数据的先验知识对高维数据进行特征提取,并且所提取的特征内在地表示了地物的空间结构和光谱特征。实验结果表明,这种方法能够有效地提高高光谱图像的分类精度。相似文献

15.

一种基于小波包主成分分析的语音情感识别方法

朱宗宝王坤侠肖玲玲刘文静《安徽建筑大学学报》2017,25(5):35-39

在语音情感识别中,由于特征参数的提取直接影响到最终的识别效率,从原始语音信号中提取特征参数是非常重要的。但是本文中提取的特征维数太多,导致特征匹配时过于复杂,消耗系统资源,不得不采用特征降维的方法。本文主要是研究一种在小波包变换的基础上通过特征降维来提高语音情感识别效果的方法,为此本文在德国库EMODB的基础上,通过小波包变换提取出语音的情感特征参数,然后利用主成分分析法对特征参数进行降维,最后利用支持向量机进行训练和测试。通过实验,获得了较好的识别效果。相似文献

16.

一种基于决策层融合的多模态情感识别方法

下载免费PDF全文

韩天翊林荣恒《南京师范大学学报》2022,(2):035-40

设计了一种软硬结合的多模态情感识别系统,使用语音和面部表情两个模态,通过梅尔频率倒谱系数与卷积神经网络对情感进行识别和分类,同时将语音情感识别迁移到神经网络计算棒以降低环境负载. 在模态融合时,采用决策层融合的方式来提高识别准确率. 实验结果表明,系统拥有较高的识别准确率,且能够在性能较差的运行环境中保持运行速度. 相似文献

17.

Research on nonlinear dynamics features of emotional speech

YAO Hui SUN Ying ZHANG Xueying 《西安电子科技大学学报(自然科学版)》2016,43(5):167-172

The application of nonlinear measures based on the chaotic characteristics of emotional speech is proposed. Nonlinear features such as minimum delay time, dimension correlation, Kolmogorov entropy, Lyapunov exponent and Hurst exponent are extracted from the emotional speech signal. The performance of nonlinear features is verified by the comparisons of recognition rates of different features (nonlinear characteristics, prosodic features and MFCC features). First, the Berlin emotional speech database and TYUT2.0 emotional speech database are chosen as the corpus independently, both covering three emotional classifications (anger, happiness and fear). The effectiveness of the nonlinear characteristics is tested on the Support Vector Machine Network. The result shows that the performance of nonlinear features outperforms that of prosodic features on the Berlin emotional speech database and that of prosodic features and MFCC on TYUT2.0 emotional speech database. In addition, nonlinear features have obvious advantage in detecting more natural emotional speech and better robustness. 相似文献

18.

A robust feature extraction approach based on an auditory model for classification of speech and expressiveness

孙颖 V. Werner 张雪英《中南工业大学学报(英文版)》2012,19(2):504-510

Based on an auditory model, the zero-crossings with maximal Teager energy operator (ZCMT) feature extraction approach was described, and then applied to speech and emotion recognition. Three kinds of experiments were carried out. The first kind consists of isolated word recognition experiments in neutral (non-emotional) speech. The results show that the ZCMT approach effectively improves the recognition accuracy by 3.47% in average compared with the Teager energy operator (TEO). Thus, ZCMT feature can be considered as a noise-robust feature for speech recognition. The second kind consists of mono-lingual emotion recognition experiments by using the Taiyuan University of Technology (TYUT) and the Berlin databases. As the average recognition rate of ZCMT approach is 82.19%, the results indicate that the ZCMT features can characterize speech emotions in an effective way. The third kind consists of cross-lingual experiments with three languages. As the accuracy of ZCMT approach only reduced by 1.45%, the results indicate that the ZCMT features can characterize emotions in a language independent way. 相似文献