首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
为了提高卷积神经网络对非线性特征以及复杂图像隐含的抽象特征提取能力,提出优化卷积神经网络结构的人体行为识别方法。通过优化卷积神经网络模型,构建嵌套Maxout多层感知器层的网络结构,增强卷积神经网络的卷积层对前景目标特征提取能力。通过嵌套Maxout多层感知器层网络结构可以线性地组合特征图并选择最有效特征信息,获取的特征图经过矢量化处理,分类器Softmax完成人体行为识别。仿真实验结果表明,该方法对人体行为识别准确率取得较好结果。  相似文献   

2.
说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别。通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息。实验结果表明,SCCNN-BiLSTM网络模型在LibriSpeech和AISHELL-1数据集上迭代50 000次时的等错率为7.21%和6.55%,相比于ResCNN基线网络模型提升了25.3%和41.0%。  相似文献   

3.
语音情感识别是实现人机交互的关键,如何提升语音情感识别的准确率以及更有效地提取具有情感代表性的特征是语音情感识别所面临的问题之一。针对以上问题,构建了一种包含空间特征提取模块和时序特征提取模块的双通道时空语音情感识别模型ASGRU-CNN。模型总体框架由两条并行分支组成:第一分支为空间特征提取模块,由三维卷积、二维卷积及池化操作共同构成级联结构;第二分支为时序特征提取模块,由切片循环神经网络内嵌门控循环单元及注意力机制构成。模型以韵律特征及谱特征的融合特征作为输入特征,经过双分支处理后,进入全连接层进行语音情感分类。在CASIA与EMO-DB数据库上进行相关实验,并通过数据扩充增加训练样本,与其它语音情感识别模型实验结果相比,所提出的模型具有较好的鲁棒性和泛化性。  相似文献   

4.
传统的场景分类技术对场景数据的采集、特征提取和预测模型复杂,且识别度及识别结果不高,卷积神经网络技术的优化升级,给场景分类模型提供了坚实的基础,为了提高场景图像特有的特征属性和场景分类的可辨别性,提出了卷积神经网络(CNN)的场景分类模型.此模型建构方法:(1)应用卷积神经网络的机器学习算法和递归神经网络,分别对数据库中的10种场景(每种场景有上百幅图片)做加权和特征提取;(2)用Python语言编程对训练的场景进行模型的建立;(3)用百幅图片数据集之外的10个图片投入模型中,读取结果,测试结果表明,这10个新的数据集能够被模型识别出相应的场景,并且准确度达到百分之九十六以上.  相似文献   

5.
针对卷积神经网络的标量神经元无法表达特征位置信息,对复杂的车辆行驶环境适应性差,导致交通标志识别率低的问题,提出一种基于胶囊网络的智能交通标志识别方法。首先采用超深度卷积神经网络改进特征提取部分,然后在主胶囊层引入池化层,最后采用移动指数平均法改进了动态路由算法。在GTSRB数据集上的测试结果表明,改进后的胶囊网络方法在特殊场景下的识别精度提高了10.02个百分点,相对于传统的卷积神经网络,该方法的单张图片的识别时间缩短了2.09 ms。实验结果表明,改进后的胶囊网络方法能满足准确、实时的交通标志识别要求。  相似文献   

6.
基于深度卷积神经网络的行人检测   总被引:1,自引:0,他引:1  
行人检测一直是目标检测研究与应用中的热点。目前行人检测主要通过设计有效的特征提取方法建立对行人特征的描述,然后利用分类器实现二分类。卷积神经网络作为深度学习的重要组成,在图像、语音等领域得到了成功应用。针对人工设计的特征提取方法难以有效表达复杂环境下行人特征的问题,提出采用多层网络构建深度卷积神经网络实现对行人检测的方法。系统分析了卷积神经网络层数、卷积核大小、特征维数等对识别效果的影响,优化了网络参数。实验结果表明该方法对于行人检测具有很高的识别率,优于传统方法。  相似文献   

7.
紧凑型深度卷积神经网络在图像识别中的应用   总被引:1,自引:0,他引:1  
针对深度卷积神经网络的结构越来越复杂,参数规模过于庞大的问题,设计出一种新的紧凑型卷积神经网络结构Width-MixedNet和其多分支的基本模块Conv-mixed,该架构扩展了卷积神经网络的宽度。Convmixed利用分支结构使多个不同的卷积层处理同一个特征图,提取不同的特征。在深度卷积神经网络的识别任务中,使用多个小型卷积层叠加,逐层缩小特征图的方法代替全连接层进行最后的特征提取。整个Width-MixedNet架构的参数数量只有3.4×10~5,仅有传统深度卷积神经网络的1/30。分别在CIFAR-10、CIFAR-100和MNIST数据集上进行实验,准确率分别达到了93.02%、66.19%和99.59%。实验表明,Width-MixedNet有更强的学习能力和表现能力,在提高识别精度的同时,大大降低了网络的参数规模。  相似文献   

8.
基于跨连接LeNet-5网络的面部表情识别   总被引:6,自引:0,他引:6  
为避免人为因素对表情特征提取产生的影响,本文选择卷积神经网络进行人脸表情识别的研究.相较于传统的表情识别方法需要进行复杂的人工特征提取,卷积神经网络可以省略人为提取特征的过程.经典的LeNet-5卷积神经网络在手写数字库上取得了很好的识别效果,但在表情识别中识别率不高.本文提出了一种改进的LeNet-5卷积神经网络来进行面部表情识别,将网络结构中提取的低层次特征与高层次特征相结合构造分类器,该方法在JAFFE表情公开库和CK+数据库上取得了较好的结果.  相似文献   

9.
王忠民  刘戈  宋辉 《计算机工程》2019,45(8):248-254
在语音情感识别中提取梅尔频率倒谱系数(MFCC)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的语音情感识别方法。从音频信号中提取MFCC特征,将信号转换为语谱图,利用卷积神经网络提取图像特征。在此基础上,使用多核学习算法融合音频特征,并将生成的核函数应用于支持向量机进行情感分类。在2种语音情感数据集上的实验结果表明,与单一特征的分类器相比,该方法的语音情感识别准确率高达96%。  相似文献   

10.
卷积神经网络的感受野大小与卷积核的尺寸相关,传统的卷积采用了固定大小的卷积核,限制了网络模型的特征感知能力;此外,卷积神经网络使用参数共享机制,对空间区域中所有的样本点采用了相同的特征提取方式,然而带噪频谱图噪声信号与干净语音信号的分布存在差异,特别是在复杂噪声环境下,使得传统卷积方式难以实现高质量的语音信号特征提取和过滤.为了解决上述问题,提出了多尺度区域自适应卷积模块,利用多尺度信息提升模型的特征感知能力;根据对应采样点的特征值自适应地分配区域卷积权重,实现区域自适应卷积,提升模型过滤噪声的能力.在TIMIT公开数据集上的实验表明,提出的算法在语音质量和可懂度的评价指标上取得了更优的实验结果.  相似文献   

11.
由于施工环境的复杂性,基于机器视觉的安全帽识别方法常常出现误检与漏检的情况。为提高复杂环境下安全帽识别的准确率,同时满足实时性要求,提出一种基于视觉感受野特性的轻量化高精度卷积神经网络。该卷积神经网络以RFBnet网络为基础,增加特征金字塔网络模块,使神经网络同时兼顾浅层语义信息和深层语义信息的表示能力,以实现复杂施工环境下不同形态与大小安全帽的识别。采用SE-Ghost模块在保持网络特征提取能力不变的情况下,对主干网络结构进行轻量化。为验证方法的性能,将基于感受野特性的轻量化卷积神经网络和当前主要卷积神经网络进行实验对比,结果表明,所提网络模型的检测准确率较YOLO-v3、RFBnet-300和RFBnet-512网络分别提高了1.60个百分点、3.62个百分点和0.98个百分点,检测速度达到20?frame/s。  相似文献   

12.
由于环境声音复杂的结构,环境声音识别是一个具有挑战性的问题.本文提出一种将特征融合与改进卷积神经网络算法相结合的环境音识别方法.首先针对原始音频文件,提取从波形中学习到的特征以及传统音频特征,分别为MF-CC(梅尔倒谱系数)、GFCC(伽玛通频率倒谱系数)、频谱对比度和CQT(恒定Q变换);然后将提取到的特征分别输入到...  相似文献   

13.
本文利用卷积神经网络对高速公路服务区停车场进行场景分割与车位检测.首先,通过扩充高速公路服务区停车场数据集,利用卷积神经网络进行高速公路服务区停车场区域分割与车辆检测,并对特征提取网络进行权重共享,从而达到联合训练的目的及网络模型轻量化.进而,通过对车辆的纹理特征提取,采用金字塔特征融合的方法对小目标的识别进行强化.最后,利用高速公路服务区停车位的先验知识实时计算停车场的停车位信息.实际应用表明该方法在复杂场景下,对车位检测的准确率为94%,检测速度为每秒25帧,具有很强的泛化能力,适合用于高速公路服务区停车场车位检测.  相似文献   

14.
针对传统人工提取专家特征来进行通信信号识别的方法存在局限性大、低信噪比下准确率低的问题,提出一种复基带信号与卷积神经网络自动调制识别相结合的新方法。该方法将接收到的信号进行预处理,得到包含同相分量和正交分量的复基带信号,该信号作为输入卷积神经网络模型的数据集,通过多次训练调整模型结构以及卷积核、步长、特征图和激活函数等超参数,利用训练好的模型对通信信号进行特征提取和识别。实现了对2FSK、4FSK、BPSK、8PSK、QPSK、QAM16和QAM64 七种数字通信信号类型的识别分类。实验结果表明,当信噪比为0dB时,七种信号的平均识别准确率已达94.61%,验证了算法是有效的且在低信噪比条件下有较高的准确率。  相似文献   

15.
针对人脸五官在表达不同情绪时所起的作用不同,利用单一的卷积神经网络对人脸面部特征进行特征提取和表情识别可能会导致提取表情关键特征信息时聚焦性不够,而仅对眼部或者嘴部等重点部位进行特征提取,又有可能造成特征提取不够充分的问题,提出了一种基于优化卷积神经网络的三通道人脸表情识别方法TP-FER(tri-path networks for facial expression recognition).该方法基于构建的卷积神经网络训练,采用三个输入渠道,分别聚焦面部、眼部和嘴部区域进行特征提取和表情判别,最后采用基于决策层的融合技术将三个渠道的识别结果进行相对多数投票决策,获取整体最优识别率.将此方法应用于JCK+数据集和自建数据集上进行了实验判别分析,结果表明该方法在两个数据集上均提高了整体表情识别率.该方法既考虑了脸部整体特征的提取,又兼顾了某些表情主要聚焦在眼部、嘴部表达的特性,相互辅助,整体提高了表情的识别率;该方法也能对神经心理学研究提供数据支持.  相似文献   

16.
目的 食物图片具有结构多变、背景干扰大、类间差异小、类内差异大等特点,比普通细粒度图片的识别难度更大。目前在食物图片识别领域,食物图片的识别与分类仍存在精度低、泛化性差等问题。为了提高食物图片的识别与分类精度,充分利用食物图片的全局与局部细节信息,本文提出了一个多级卷积特征金字塔的细粒度食物图片识别模型。方法 本文模型从整体到局部逐级提取特征,将干扰较大的背景信息丢弃,仅针对食物目标区域提取特征。模型主要由食物特征提取网络、注意力区域定位网络和特征融合网格3部分组成,并采用3级食物特征提取网络的级联结构来实现特征由全局到局部的转移。此外,针对食物图片尺度变化大的特点,本文模型在每级食物特征提取网络中加入了特征金字塔结构,提高了模型对目标大小的鲁棒性。结果 本文模型在目前主流公开的食物图片数据集Food-101、ChineseFoodNet和Food-172上进行实验,分别获得了91.4%、82.8%、90.3%的Top-1正确率,与现有方法相比提高了1%~8%。结论 本文提出了一种多级卷积神经网络食物图片识别模型,可以自动定位食物图片区分度较大的区域,融合食物图片的全局与局部特征,实现了食物图片的细粒度识别,有效提高了食物图片的识别精度。实验结果表明,该模型在目前主流食物图片数据集上取得了最好的结果。  相似文献   

17.
The multi-modal emotion recognition lacks the explicit mapping relation between emotion state and audio and image features, so extracting the effective emotion information from the audio/visual data is always a challenging issue. In addition, the modeling of noise and data redundancy is not solved well, so that the emotion recognition model is often confronted with the problem of low efficiency. The deep neural network (DNN) performs excellently in the aspects of feature extraction and highly non-linear feature fusion, and the cross-modal noise modeling has great potential in solving the data pollution and data redundancy. Inspired by these, our paper proposes a deep weighted fusion method for audio-visual emotion recognition. Firstly, we conduct the cross-modal noise modeling for the audio and video data, which eliminates most of the data pollution in the audio channel and the data redundancy in visual channel. The noise modeling is implemented by the voice activity detection(VAD), and the data redundancy in the visual data is solved through aligning the speech area both in audio and visual data. Then, we extract the audio emotion features and visual expression features via two feature extractors. The audio emotion feature extractor, audio-net, is a 2D CNN, which accepting the image-based Mel-spectrograms as input data. On the other hand, the facial expression feature extractor, visual-net, is a 3D CNN to which facial expression image sequence is feeded. To train the two convolutional neural networks on the small data set efficiently, we adopt the strategy of transfer learning. Next, we employ the deep belief network(DBN) for highly non-linear fusion of multi-modal emotion features. We train the feature extractors and the fusion network synchronously. And finally the emotion classification is obtained by the support vector machine using the output of the fusion network. With consideration of cross-modal feature fusion, denoising and redundancy removing, our fusion method show excellent performance on the selected data set.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号