首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
针对在视频行为检测中卷积神经网络(CNN)对时域信息理解能力不足的问题,提出了一种融合非局部神经网络的行为检测模型.模型采用一种双分支的CNN结构,分别提取视频的空间特征和运动特征.将视频单帧和视频连续帧序列作为网络输入,空间网络对视频当前帧进行2D CNN特征提取,时空网络采用融合非局部模块的3D CNN来捕获视频帧...  相似文献   

2.
采用目前方法对电力用户用电特征进行识别时,存在识别准确率低、F1分数低和识别结果易受用电数据分帧长度影响的问题。为此提出基于电力大数据的电力用户用电特征识别模型,利用电力数据采集系统采集用户用电数据,并调节用电数据负荷曲线、数据标准化和数据降维,再利用K-means聚类算法提取预处理后优化用电数据的特征,将用电特征带入支持向量机中,根据分类结果实现电力用户用电特征的识别。实验结果表明,所提方法识别准确率高、F1分数高、识别结果不受用电数据分帧长度的影响。  相似文献   

3.
针对现有微表情自动识别方法准确率较低及微表情样本数量不足的问题,提出一种融合迁移学习技术与可分离三维卷积神经网络(S3D CNN)的微表情识别方法。通过光流法提取宏表情和微表情视频样本的光流特征帧序列,利用宏表情样本的光流特征帧序列对S3D CNN进行预训练,并采用微表情样本的光流特征帧序列微调模型参数。S3D CNN网络由二维空域卷积层及添加一维时域卷积层的可分离三维卷积层构成,比传统的三维卷积神经网络具有更好的学习能力,且减少了模型所需的训练参数和计算量。在此基础上,采用迁移学习的方式对模型进行训练,以缓解微表情样本数量过少造成的模型过拟合问题,提升模型的学习效率。实验结果表明,所提方法在CASME II微表情数据集上的识别准确率为67.58%,高于MagGA、C3DEvol等前沿的微表情识别算法。  相似文献   

4.
《计算机工程》2017,(8):243-248
传统2D卷积神经网络对于视频连续帧图像的特征提取容易丢失目标时间轴上的运动信息,导致识别准确度较低。为此,提出一种基于多列深度3D卷积神经网络(3D CNN)的手势识别方法。采用3D卷积核对连续帧图像进行卷积操作,提取目标的时间和空间特征捕捉运动信息。为避免因单组3D CNN特征提取不充分而导致的误分类,训练多组具有较强分类能力的3D CNN结构组成多列深度3D CNN,该结构通过对多组3D CNN的输出结果进行权衡,将权重最大的类别判定为最终的输出结果。实验结果表明,将多列深度3D CNN应用于CHGDs数据集上进行手势识别,识别率达到95.09%,与单组3D CNN及传统2D CNN相比分别提高近7%,20%,对连续图像目标识别具有较好的识别能力。  相似文献   

5.
传统声纹识别方法过程复杂,模型识别准确率低,是声纹识别应用发展的关键问题。利用深度学习具有自主特征提取及分类的特点,结合卷积神经网络(CNN)和长短期记忆网络(LSTM),提出一种结合的网络模型学习声纹识别特征及对其进行身份认证。将原始语音转换为固定长度语谱图,顺序进入CNN、LSTM,结合网络进行训练以及声纹特征学习。通过对比CNN、LSTM以及DNN网络,验证CNN-LSTM网络在声纹识别中具有较少迭代次数情况下高准确率的特性。经实验结果可以得出,语音空间特征及时序特征均是声纹识别中重要的影响因素,实验中的CNN-LSTM网络模型准确率达到95.42%,损失低值达到0.097 3。该方法有利于实际声纹识别的应用。  相似文献   

6.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

7.
随着网络音乐产业的快速发展,构筑音乐自动检索和分类系统的需求日益增加。利用计算机对音乐流派进行正确标注是实现音乐类型精准分类和保障音乐推荐系统性能的重要前提。针对卷积运算不具备提取全局表征的能力,深度卷积神经网络对音乐流派数据的全局建模能力较弱的问题,提出了一种基于视觉变换(ViT)神经网络的音乐流派自动分类方法。该方法对待分类的音频进行预处理后,利用短时傅里叶变换(STFT)转化为尺寸统一的语谱图切片,实现音乐频域特征的转换。为了避免训练过拟合,通过增加白噪声对语谱图切片集进行数据增强。然后利用所生成的语谱切片集及其增强后的数据集对所构建的ViT神经网络进行训练,从而实现音乐流派风格的自动分类。仿真结果表明,所构建的ViT网络在音乐流派分类公共数据集GTZAN上的测试识别准确率达到91.01%,比基于AlexNet、AlexNet-enhanced和VGG16等传统卷积神经网络(CNN)的音乐流派分类方法提升了1.00~5.00个百分点。  相似文献   

8.
王忠民  刘戈  宋辉 《计算机工程》2019,45(8):248-254
在语音情感识别中提取梅尔频率倒谱系数(MFCC)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的语音情感识别方法。从音频信号中提取MFCC特征,将信号转换为语谱图,利用卷积神经网络提取图像特征。在此基础上,使用多核学习算法融合音频特征,并将生成的核函数应用于支持向量机进行情感分类。在2种语音情感数据集上的实验结果表明,与单一特征的分类器相比,该方法的语音情感识别准确率高达96%。  相似文献   

9.
针对传统行为识别依赖手工提取特征,智能化程度不高,识别精度低的问题,提出一种基于3D骨骼数据的卷积神经网络(CNN)与双向长短期记忆网络(Bi-LSTM)的混合模型。使用3D骨骼数据作为网络输入,CNN提取每个时间步的3D输入数据间的空间特征,Bi-LSTM更深层地提取3D数据序列的时间特征。该混合模型自动提取特征完成分类,实现骨骼数据到识别结果的端对端学习。在UTKinect-Action3D标准数据集上,模型的识别率达到97.5%,在自制Kinect数据集上的准确率达到98.6%,实验结果表明,该网络有效提高了分类准确率,具备可用性和有效性。  相似文献   

10.
杨磊  赵红东  于快快 《计算机应用》2022,42(6):1869-1875
针对语音情感数据集规模小且数据维度高的特点,为解决传统循环神经网络(RNN)长程依赖消失和卷积神经网络(CNN)关注局部信息导致输入序列内部各帧之间潜在关系没有被充分挖掘的问题,提出一个基于多头注意力(MHA)和支持向量机(SVM)的神经网络MHA-SVM用于语音情感识别(SER)。首先将原始音频数据输入MHA网络来训练MHA的参数并得到MHA的分类结果;然后将原始音频数据再次输入到预训练好的MHA中用于提取特征;最后通过全连接层后使用SVM对得到的特征进行分类获得MHA-SVM的分类结果。充分评估MHA模块中头数和层数对实验结果的影响后,发现MHA-SVM在IEMOCAP数据集上的识别准确率最高达到69.6%。实验结果表明同基于RNN和CNN的模型相比,基于MHA机制的端到端模型更适合处理SER任务。  相似文献   

11.

Recently, with the advent of Convolutional Neural Network (CNN) era, Neural style transfer on images has become a very active research topic and the style of an image can be transferred to another image through a CNN so that the image retains both its own content and another style of image. In this work, we propose an algorithm for audio style transfer that uses the force of CNN to generate a new audio from a style audio. We use Continuous Wavelet Transfer(CWT) to convert the audio into a spectrogram and then use the spectrogram as the representation of the audio image through image style transfer method to obtain a new image, and finally, generate an audio using iterative phase reconstruction with Griffin-Lim. We succeed in transferring audio such as light music but had difficulty in transferring audio that has lyrics and high-level metrics such as emotion or tone. We propose several measures to improve the quality of audio and a lot of experimental results shows that our method is better than other methods in terms of sound quality.

  相似文献   

12.
基于自注意力机制时频谱同源特征融合的鸟鸣声分类   总被引:1,自引:0,他引:1  
目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点,提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先,使用卷积神经网络(CNN)提取鸟鸣声梅尔时频谱特征;然后,使用特定的卷积以及下采样操作,将同一梅尔时频谱特征的时域和频域维度分别压缩至1,得到仅包含鸟鸣声高低特性的频域特征以及连续特性的时域特征。基于上述提取频域以及时域特征的操作,在时域和频域维度上同时对梅尔时频谱特征进行提取,得到具有连续性以及高低特性的时频域特征。然后,将自注意力机制分别用于得到的时域、频域、时频域特征以加强其各自拥有的特性。最后,将这三类同源谱图特征决策融合后的结果用于鸟鸣声分类。所提模型用于Xeno-canto网站的8种鸟类音频分类,并在分类对比实验中取得了平均精确率(MAP)为0.939的较好结果。实验结果表明该模型能应对复杂背景噪声下的鸟鸣声分类效果较差的问题。  相似文献   

13.
针对目前音频隐写检测方法对基于校验网格编码(STC)的音频隐写检测准确较低的问题,考虑到卷积神经网络(CNN)在抽象特征提取上的优势,提出一种融合深度残差网络(DRN)和极限梯度提升(XGBoost)的音频隐写检测模型.首先,利用固定参数的高通滤波器(HPF)预处理输入的音频,并通过三个卷积层提取特征,其中第一个卷积层...  相似文献   

14.
陈郑淏  冯翱  何嘉 《计算机应用》2019,39(7):1936-1941
针对情感分类中传统二维卷积模型对特征语义信息的损耗以及时序特征表达能力匮乏的问题,提出了一种基于一维卷积神经网络(CNN)和循环神经网络(RNN)的混合模型。首先,使用一维卷积替换二维卷积以保留更丰富的局部语义特征;再由池化层降维后进入循环神经网络层,整合特征之间的时序关系;最后,经过softmax层实现情感分类。在多个标准英文数据集上的实验结果表明,所提模型在SST和MR数据集上的分类准确率与传统统计方法和端到端深度学习方法相比有1至3个百分点的提升,而对网络各组成部分的分析验证了一维卷积和循环神经网络的引入有助于提升分类准确率。  相似文献   

15.
入侵检测系统(IDS)在发现网络异常和攻击方面发挥着重要作用,但传统IDS误报率较高,不能准确分析和识别异常流量。目前,深度学习技术被广泛应用于网络流量异常检测,但仅仅采用简单的深度神经网络(DNN)模型难以有效提取流量数据中的重要特征。针对上述问题,提出一种基于堆叠卷积注意力的DNN网络流量异常检测模型。通过堆叠多个以残差模块连接的注意力模块增加网络模型深度,同时在注意力模块中引入卷积神经网络、池化层、批归一化层和激活函数层,防止模型过拟合并提升模型性能,最后在DNN模型中得到输出向量。基于NSL-KDD数据集对模型性能进行评估,将数据集预处理生成二进制特征,采用多分类、二分类方式验证网络流量异常检测效果。实验结果表明,该模型性能优于KNN、SVM等机器学习模型和ANN、AlertNet等深度学习模型,其在多分类任务中识别准确率为0.807 6,较对比模型提高0.034 0~0.097 5,在二分类任务中准确率和F1分数为0.860 0和0.863 8,较对比模型提高0.013 0~0.098 8和0.030 6~0.112 8。  相似文献   

16.
巩凯强  张春梅  曾光华 《计算机应用》2020,40(11):3146-3151
针对卷积神经网络(CNN)拥有巨大的参数量及计算量,限制了其在嵌入式系统等资源受限设备上应用的问题,提出了基于统计量的网络剪枝结合张量分解的神经网络压缩方法,其核心思想是以均值和方差作为评判权值贡献度的依据。首先,以Lenet5为剪枝模型,网络各卷积层的均值和方差分布以聚类方式分离出提取特征较弱的滤波器,而使用保留的滤波器重构下一层卷积层;然后,将剪枝方法结合张量分解对更快的区域卷积神经网络(Faster RCNN)进行压缩,低维卷积层采取剪枝方法,而高维卷积层被分解为三个级联卷积层;最后,将压缩后的模型进行微调,使其在训练集上重新达到收敛状态。在PASCAL VOC测试集上的实验结果表明,所提方法降低了Faster RCNN模型54%的存储空间而精确率仅下降了0.58%,同时在树莓派4B系统上达到1.4倍的前向计算加速,有助于深度CNN模型在资源受限的嵌入式设备上的部署。  相似文献   

17.
倪水平  李慧芳 《计算机应用》2021,41(5):1514-1521
针对电池荷电状态(SOC)预测的精确度与稳定性问题以及深层神经网络的梯度消失问题,提出一种基于一维卷积神经网络(1D CNN)与长短期记忆(LSTM)循环神经网络(RNN)结合的电池SOC预测方法——1D CNN-LSTM模型。1D CNN-LSTM模型将电池的电流、电压和电阻映射到目标值SOC。首先,通过一层一维卷积层从样本数据中提取出高级数据特征,并充分地利用输入数据的特征信息;其次,使用一层LSTM层保存历史输入信息,从而有效地预防重要信息的丢失;最后,通过一层全连接层输出电池SOC预测结果。使用电池的多次循环充放电实验数据训练提出的模型,分析对比不同超参数设置下1D CNN-LSTM模型的预测效果,并通过训练模型来调节模型的权重系数和偏置参数,从而确定最优的模型设置。实验结果表明,1D CNN-LSTM模型具有准确且稳定的电池SOC预测效果。该模型的平均绝对误差(MAE)、均方误差(MSE)和最大预测误差分别为0.402 7%、0.002 9%和0.99%。  相似文献   

18.
基于卷积神经网络的工控网络异常流量检测   总被引:1,自引:0,他引:1  
张艳升  李喜旺  李丹  杨华 《计算机应用》2019,39(5):1512-1517
针对工控系统中传统的异常流量检测模型在识别异常上准确率不高的问题,提出一种基于卷积神经网络(CNN)的异常流量检测模型。该模型以卷积神经网络算法为核心,主要由1个卷积层、1个全连接层、1个dropout层以及1个输出层构成。首先,将实际采集的网络流量特征数值规约到与灰度图像素值相对应的范围内,生成网络流量灰度图;然后,将生成好的网络流量灰度图输入到设计好的卷积神经网络结构中进行训练和模型调优;最后,将训练好的模型用于工控网络异常流量检测。实验结果表明,所提模型识别精度达到97.88%,且与已有的精度最高反向传播(BP)神经网络测精度提高了5个百分点。  相似文献   

19.
秦楚雄  张连海 《计算机应用》2016,36(9):2609-2615
针对卷积神经网络(CNN)声学建模参数在低资源训练数据条件下的语音识别任务中存在训练不充分的问题,提出一种利用多流特征提升低资源卷积神经网络声学模型性能的方法。首先,为了在低资源声学建模过程中充分利用有限训练数据中更多数量的声学特征,先对训练数据提取几类不同的特征;其次,对每一类类特征分别构建卷积子网络,形成一个并行结构,使得多特征数据在概率分布上得以规整;然后通过在并行卷积子网络之上加入全连接层进行融合,从而得到一种新的卷积神经网络声学模型;最后,基于该声学模型搭建低资源语音识别系统。实验结果表明,并行卷积层子网络可以将不同特征空间规整得更为相似,且该方法相对传统多特征拼接方法和单特征CNN建模方法分别提升了3.27%和2.08%的识别率;当引入多语言训练时,该方法依然适用,且识别率分别相对提升了5.73%和4.57%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号