首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对前馈神经网络难以处理时序数据的问题,提出将双向循环神经网络(BiRNN)应用在自动语音识别声学建模中。首先,应用梅尔频率倒谱系数进行特征提取;其次,采用双向循环神经网络作为声学模型;最后,测试不同参数对系统性能的影响。在TIMIT数据集上的实验结果表明,与基于卷积神经网络和深度神经网络的声学模型相比,识别率分别提升了1.3%和4.0%,说明基于双向循环神经网络的声学模型具有更好的性能。  相似文献   

2.
本文从网络和电影中截取暴恐音频片段组成暴恐音频库,由于暴恐音频来源受限,而卷积神经网络需要大量的数据训练,为此,将迁移学习技术引入暴恐音频的判别中.首先采用公开的TUT音频数据集进行预训练,然后保留模型权重并迁移网络在暴恐音频库上继续训练,最后在fine-tune后的网络中增加网络的层数,添加了一种类似于残差网络的结构使其能够利用更多的音频信息.实验结果表明,使用迁移学习方法比未使用迁移学习方法的平均判别率提升了3.97%,有效解决了在暴恐音频判别研究中音频数据集过小而带来的训练问题,且改进后的迁移学习网络进一步提升了1.01%的平均判别率,最终达到96.97%的判别率.  相似文献   

3.
卷积神经网络因其对图像识别准确率高而在图像检索领域备受青睐,但处理大规模数据集时,基于卷积神经网络提取的深度特征维度高,容易引发"维度灾难".针对图像检索中深度特征维度高的问题,提出一种基于自适应融合网络特征提取与哈希特征降维的图像检索算法.由于传统哈希处理高维特征复杂度高,因此本文在卷积神经网络中加入自适应融合模块对特征进行重新整合,增强特征表征能力的同时降低特征维度;然后应用稀疏化优化算法对深度特征进行第2次降维,并通过映射获得精简的哈希码;最后,实验以Inception网络作为基础模型,在数据集CIFAR-10和ImageNet上进行了丰富的实验.实验结果表明,该算法能有效提高图像检索效率.  相似文献   

4.
目的 超分辨率技术在实际生活中具有较为广泛的应用。经典的基于卷积神经网络的超分辨率(SRCNN)方法存在重建图像纹理结构模糊以及网络模型训练收敛过慢等问题。针对这两个问题,在SRCNN的基础上,提出一种多通道卷积的图像超分辨率(MCSR)算法。方法 通过增加残差链接,选择MSRA初始化方法对网络权值进行初始化,加快模型收敛;引入多通道映射提取更加丰富的特征,使用多层3×3等小卷积核代替单层9×9等大卷积核,更加有效地利用特征,增强模型的超分辨率重构效果。结果 MCSR迭代4×106次即可收敛,在Set5与Set14数据集上边长放大3倍后的平均峰值信噪比分别是32.84 dB和29.28 dB,与SRCNN相比提升显著。结论 MCSR收敛速度更快,并且可以生成轮廓清晰的高分辨率图像,超分辨率效果更加优秀。  相似文献   

5.
目的 细粒度车型识别旨在通过任意角度及场景下的车辆外观图像识别出其生产厂家、品牌型号、年款等信息,在智慧交通、安防等领域具有重要意义。针对该问题,目前主流方法已由手工特征提取向卷积神经网络为代表的深度学习方法过渡。但该类方法仍存在弊端,首先是识别时须指定车辆的具体位置,其次是无法充分利用细粒度目标识别其视觉差异主要集中在关键的目标局部的特点。为解决这些问题,提出基于区域建议网络的细粒度识别方法,并成功应用于车型识别。方法 区域建议网络是一种全卷积神经网络,该方法首先通过卷积神经网络提取图像深层卷积特征,然后在卷积特征上滑窗产生区域候选,之后将区域候选的特征经分类层及回归层得到其为目标的概率及目标的位置,最后将这些区域候选通过目标检测网络获取其具体类别及目标的精确位置,并通过非极大值抑制算法得到最终识别结果。结果 该方法在斯坦福BMW-10数据集的识别准确率为76.38%,在斯坦福Cars-196数据集识别准确率为91.48%,不仅大幅领先于传统手工特征方法,也取得了与目前最优的方法相当的识别性能。该方法同时在真实自然场景中取得了优异的识别效果。结论 区域建议网络不仅为目标检测提供了目标的具体位置,而且提供了具有区分度的局部区域,为细粒度目标识别提供了一种新的思路。该方法克服了传统目标识别对于目标位置的依赖,并且能够实现一图多车等复杂场景下的车型细粒度识别,具有更好的鲁棒性及实用性。  相似文献   

6.
目前,在基于文档信息的推荐任务中,传统基于文档的混合推荐算法仍依赖于浅层的线性模型,当评分数据变得庞大且复杂时,其推荐性能往往不太理想。针对此问题,提出一种深度融合模型(DeepFM),该模型能够在完全捕获文本信息的同时也能很好地处理复杂且稀疏的评分数据。DeepFM由两个并行的神经网络组成,其中一路神经网络使用多层感知器提取评分矩阵的行向量信息从而获得用户的潜在特征向量,另一路则使用MLP和卷积神经网络(CNN)共同建模从而提取额外有关项目的文本信息得到项目潜在特征向量。最后,通过构建融合层将用户特征向量和项目特征向量进行融合得出预测评分。实验结果表明,DeepFM在MovieLens数据集和亚马逊数据集上的性能优于主流的推荐模型。  相似文献   

7.
人脸特征点定位是根据输入的人脸数据自动定位出预先按人脸生理特征定义的眼角、鼻尖、嘴角和脸部轮廓等面部关键特征点,在人脸识别和分析等系统中起着至关重要的作用。本文对基于深度学习的人脸特征点自动定位进行综述,阐释了人脸特征点自动定位的含义,归纳了目前常用的人脸公开数据集,系统阐述了针对2维和3维数据特征点的自动定位方法,总结了各方法的研究现状及其应用,分析了当前人脸特征点自动定位技术在深度学习应用中的现状、存在问题及发展趋势。在公开的2维和3维人脸数据集上对不同方法进行了比较。通过研究可以看出,基于深度学习的2维人脸特征点的自动定位方法研究相对比较深入,而3维人脸特征点定位方法的研究在模型表示、处理方法和样本数量上都存在挑战。未来基于深度学习的3维人脸特征点定位方法将成为研究趋势。  相似文献   

8.
基于多级金字塔卷积神经网络(MLPCNN)的快速特征表示方法   总被引:1,自引:0,他引:1  
近年来,在机器视觉中基于卷积神经网络(CNN)的特征提取方法取得了令人惊叹的成果,主要原因是深度学习在多层和低维的特征表示上有着很大的优势。但是由于在大尺度图像中卷积滤波的过程速度过慢,导致CNN参数调节困难、训练时间过长,针对这一问题,本文基于传统卷积神经网络(TCNN, Traditional convolution neural network)提出一种快速有效的多级金字塔卷积神经网络MLPCNN(Multi-level pyramid CNN)。这一网络使用权值共享的方法将低级的滤波权值共享到高级,保证CNN的训练只在较小尺寸的图像块上进行,加快训练速度。实验表明,在特征维数比较低的情况下,MLPCNN提取到的特征比传统的特征提取方法更加有效,在Caltech101数据库上,MLPCNN识别率达到81.32%,而且训练速度较TCNN网络提高了约2.5倍。  相似文献   

9.
10.
为解决人脸关键点定位受到姿态,光线,表情以及遮盖问题的影响而使得定位效果可靠性不佳的问题,提出了一种基于并行卷积神经网络的人脸关键点定位方法。文中利用卷积神经网络对局部细节特征提取以及深度学习特点,设计实现了一种并行卷积神经网络,该网络把人脸图像,上半人脸以及下半人脸分别送入到相同结构的卷积网络进行训练学习,通过对图像进行局部卷积以及下采样,提取人脸关键点附近的细节特征,并对三级并行网络定位结果进行加权合成,实现人脸特征点定位。在LWF人脸库上定位实验结果表明该方法在准确性以及可靠性都得到很大程度提升,能实现对人脸关键点的鲁棒准确估计。  相似文献   

11.
由于光照、遮挡、尺度变化等原因,在真实多变场景下完成人脸追踪面临挑战。探究了基于卷积神经网络(CNN)的人脸追踪,将基本的卷积神经网络改进为孪生神经网络,在OTB数据集上采用端到端的方式,以成对图像区域作为输入,输出两者距离,通过距离评估图像区域相似性;加入边框回归算法(bounding box regression)微调追踪结果。实验结果表明,改进后的神经网络优于传统的卷积神经网络,能达到更好的人脸追踪效果。  相似文献   

12.
Accurate remaining useful life (RUL) prediction is important in industrial systems. It prevents machines from working under failure conditions, and ensures that the industrial system works reliably and efficiently. Recently, many deep learning based methods have been proposed to predict RUL. Among these methods, recurrent neural network (RNN) based approaches show a strong capability of capturing sequential information. This allows RNN based methods to perform better than convolutional neural network (CNN) based approaches on the RUL prediction task. In this paper, we question this common paradigm and argue that existing CNN based approaches are not designed according to the classic principles of CNN, which reduces their performances. Additionally, the capacity of capturing sequential information is highly affected by the receptive field of CNN, which is neglected by existing CNN based methods. To solve these problems, we propose a series of new CNNs, which show competitive results to RNN based methods. Compared with RNN, CNN processes the input signals in parallel so that the temporal sequence is not easily determined. To alleviate this issue, a position encoding scheme is developed to enhance the sequential information encoded by a CNN. Hence, our proposed position encoding based CNN called PE-Net is further improved and even performs better than RNN based methods. Extensive experiments are conducted on the C-MAPSS dataset, where our PE-Net shows state-of-the-art performance.   相似文献   

13.
目的 为了进一步提高智能监控场景下行为识别的准确率和时间效率,提出了一种基于YOLO(you only look once:unified,real-time object detection)并结合LSTM(long short-term memory)和CNN(convolutional neural network)的人体行为识别算法LC-YOLO(LSTM and CNN based on YOLO)。方法 利用YOLO目标检测的实时性,首先对监控视频中的特定行为进行即时检测,获取目标大小、位置等信息后进行深度特征提取;然后,去除图像中无关区域的噪声数据;最后,结合LSTM建模处理时间序列,对监控视频中的行为动作序列做出最终的行为判别。结果 在公开行为识别数据集KTH和MSR中的实验表明,各行为平均识别率达到了96.6%,平均识别速度达到215 ms,本文方法在智能监控的行为识别上具有较好效果。结论 提出了一种行为识别算法,实验结果表明算法有效提高了行为识别的实时性和准确率,在实时性要求较高和场景复杂的智能监控中有较好的适应性和广泛的应用前景。  相似文献   

14.
短文本分类是互联网文本数据处理中的关键任务之一.长短时记忆网络LSTM(long short-term memory)和卷积神经网络CNN(convolutional neural network)是广泛应用于短文本分类任务的两种深度学习模型.在计算机视觉和语音识别领域的深度学习研究表明,深层次的神经网络模型具有较好的表达数据特征的能力.受此启发,面向文本深度学习分类问题,提出基于3层LSTM和CNN网络结构的ResLCNN(residual-LSTM-CNN)深度学习模型.该模型有效结合LSTM获取文本序列数据的长距离依赖特征和CNN通过卷积操作获取句子局部特征的优势,同时借鉴残差模型理论,在第1层LSTM层与CNN层之间加入恒等映射,构建残差层,缓解深层模型梯度消失问题.为了探究深层短文本分类中ResLCNN模型的文本分类能力,在多种数据集上将其与LSTM、CNN及其组合模型进行对比实验.结果表明,相比于单层LSTM与CNN组合模型,ResLCNN深层模型在MR、SST-2和SST-5数据集上分别提高了1.0%、0.5%、0.47%的准确率,取得了更好的分类效果.  相似文献   

15.
基于深度卷积神经网络的图像检索算法研究   总被引:2,自引:0,他引:2  
为解决卷积神经网络在提取图像特征时所造成的特征信息损失,提高图像检索的准确率,提出了一种基于改进卷积神经网络LeNet-L的图像检索算法。首先,改进LeNet-5卷积神经网络结构,增加网络结构深度。然后,对深度卷积神经网络模型LeNet-L进行预训练,得到训练好的网络模型,进而提取出图像高层语义特征。最后,通过距离函数比较待检图像与图像库的相似度,得出相似图像。在Corel数据集上,与原模型以及传统的SVM主动学习图像检索方法相比,该图像检索方法有较高的准确性。经实验结果表明,改进后的卷积神经网络具有更好的检索效果。  相似文献   

16.
针对传统胸片肺野分割方法需要人工干预、提取特征以及对先验知识的依赖性问题,提出了一种基于卷积神经网络(CNN)的胸片肺野自动分割方法,将X光胸片的分割问题转换为图像块的分类问题.将原图像分割成左、右肺,切块处理后分别作为训练样本,利用深度学习自动发现图像块中的潜在特征,对图像块进行分类,并将结果映射成二值图,得到初步分割结果,再对其进行后处理,合并之后作为最终的分割结果.实验表明:此方法在公开的JSRT数据集上进行测试,Jaccard指标可达94.6%,平均边界距离(MBD)指标达到1.10 mm,较现存分割算法更加出色.  相似文献   

17.
基于手绘草图的三维模型检索(SBSR)已成为三维模型检索、模式识别与计算机视 觉领域的一个研究热点。与传统方法相比,基于卷积神经网络(CNN)的三维深度表示方法在三 维模型检索任务中性能优势非常明显。本文提出了一种基于手绘图像融合信息熵和CNN 的三 维模型检索方法。首先,通过计算模型投影图的信息熵得到模型的代表性视图,并将代表性视 图经过边缘检测等处理得到三维模型投影图的轮廓图像;然后,将轮廓图像和手绘草图输入到 CNN 中提取特征描述子,并进行特征匹配。本文方法在Shape Retrieval Contest (SHREC) 2012 数据库和SHREC 2013 数据库上进行实验。实验证明,该方法的效果较其他传统方法检索准确 度更高。  相似文献   

18.
As an essential part of hydraulic transmission systems, hydraulic piston pumps have a significant role in many state-of-the-art industries. Thus, it is important to implement accurate and effective fault diagnosis of hydraulic piston pumps. Owing to the heavy reliance of shallow machine learning models on the expertise and experience of engineers, fault diagnosis based on deep models has attracted significant attention from academia and industry. To construct a deep model with good performance, it is necessary and challenging to tune the hyperparameters (HPs). Since many existing methods focus on manual tuning and use common search algorithms, it is meaningful to explore more intelligent algorithms that can automatically optimize the HPs. In this paper, Bayesian optimization (BO) is employed for adaptive HP learning, and an improved convolutional neural network (CNN) is established for fault feature extraction and classification in a hydraulic piston pump. First, acoustic signals are transformed into time–frequency distributions by a continuous wavelet transform. Second, a preliminary CNN model is built by setting initial HPs. The range of each HP to be optimized is identified. Third, BO is employed to select the optimal combination of HPs. An improved model called CNN-BO is constructed. Finally, the diagnostic efficiency of CNN-BO is analyzed using a confusion matrix and t-distributed stochastic neighbor embedding. The classification performance of different models is compared. It is found that CNN-BO has a higher accuracy and better robustness in fault diagnosis for a hydraulic piston pump. This research will provide a basis for ensuring the reliability and safety of the hydraulic pump.  相似文献   

19.
为了准确提取和分类视觉疲劳所引起的脑电特征,以此提醒过度用眼的工作人员及时休息,提出了多通道受限玻尔兹曼机算法和卷积神经网络(CNN)算法结合的深度学习混合模型,利用该模型对枕叶区10个通道的脑电信号进行自动提取内在特征和分类。在基于SSVEP的视觉疲劳脑电数据集上进行评估,深度学习混合模型的平均准确率达到88.63%,比传统的特征提取和分类方法高10%。实验结果证明了深度学习混合模型取得的分类效果较好,并且克服了传统手动提取特征方法不全面的不足,对疲劳脑电的研究具有现实的意义。  相似文献   

20.
基于深度卷积神经网络的行人检测   总被引:1,自引:0,他引:1  
行人检测一直是目标检测研究与应用中的热点。目前行人检测主要通过设计有效的特征提取方法建立对行人特征的描述,然后利用分类器实现二分类。卷积神经网络作为深度学习的重要组成,在图像、语音等领域得到了成功应用。针对人工设计的特征提取方法难以有效表达复杂环境下行人特征的问题,提出采用多层网络构建深度卷积神经网络实现对行人检测的方法。系统分析了卷积神经网络层数、卷积核大小、特征维数等对识别效果的影响,优化了网络参数。实验结果表明该方法对于行人检测具有很高的识别率,优于传统方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号