首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
目的 卫星图像往往目标、背景复杂而且带有噪声,因此使用人工选取的特征进行卫星图像的分类就变得十分困难。提出一种新的使用卷积神经网络进行卫星图像分类的方案。使用卷积神经网络可以提取卫星图像的高层特征,进而提高卫星图像分类的识别率。方法 首先,提出一个包含六类图像的新的卫星图像数据集来解决卷积神经网络的有标签训练样本不足的问题。其次,使用了一种直接训练卷积神经网络模型和3种预训练卷积神经网络模型来进行卫星图像分类。直接训练模型直接在文章提出的数据集上进行训练,预训练模型先在ILSVRC(the ImageNet large scale visual recognition challenge)-2012数据集上进行预训练,然后在提出的卫星图像数据集上进行微调训练。完成微调的模型用于卫星图像分类。结果 提出的微调预训练卷积神经网络深层模型具有最高的分类正确率。在提出的数据集上,深层卷积神经网络模型达到了99.50%的识别率。在数据集UC Merced Land Use上,深层卷积神经网络模型达到了96.44%的识别率。结论 本文提出的数据集具有一般性和代表性,使用的深层卷积神经网络模型具有很强的特征提取能力和分类能力,且是一种端到端的分类模型,不需要堆叠其他模型或分类器。在高分辨卫星图像的分类上,本文模型和对比模型相比取得了更有说服力的结果。  相似文献   

2.
场景分类对于场景图像的语义解译至关重要,是遥感领域近期的主要研究课题之一。针对大部分图像分类方法中提取的特征结构单一,依赖于大量人工标记的数据以及分类器的训练过程缓慢等问题,提出了一种基于多特征融合与约束极限学习机(constrained extreme learning machines,CELM)的场景图像分类方法。该方法采用三种不同结构的预训练卷积神经网络,利用特定数据集对其进行微调,将微调后网络提取到的三种特征进行融合并送入CELM分类器进行分类,最终得到图像的类别标签。以SIRI-WHU、WHU-RS19与UC-Merced数据集作为实验数据集,在预训练卷积神经网络、单一特征和传统分类器上进行的对比实验表明,基于多特征融合与CELM相结合的方法产生了较好的分类效果,三种数据集上的总分类精度分别高达99.25%、98.26%与97.70%。  相似文献   

3.
为提高仅包含少量训练样本的图像识别准确率,利用卷积神经网络作为图像的特征提取器,提出一种基于卷积神经网络的小样本图像识别方法。在原始小数据集中引入数据增强变换,扩充数据样本的范围;在此基础上将大规模数据集上的源预训练模型在目标小数据集上进行迁移训练,提取除最后全连接层之外的模型权重和图像特征;结合源预训练模型提取的特征,采用层冻结方法,微调目标小规模数据集上的卷积模型,得到最终分类识别结果。实验结果表明,该方法在小规模图像数据集的识别问题中具有较高的准确率和鲁棒性。  相似文献   

4.
冯文刚 《自动化学报》2014,40(4):763-770
针对层次场景图像序列,本文提出了一种数据驱动的基于快速序列视觉表述任务(rapid serial visual presentation task,RSVP)的场景识别模型. 首先基于金字塔模型提取三层尺度图像块,然后构建包括全局和局部特征的词汇字典,接着分别利用生成模型和判决模型训练视觉词汇,最后通过神经网络从图像块标记中获得场景类别. 实验表明算法能够获得更为精确的分类结果.  相似文献   

5.
针对计算机视觉领域的人脸图像检索计算复杂和检索时长问题,提出一种基于深度卷积特征的快速人脸图像检索算法.首先使用人脸图像训练集对深度卷积神经网络模型进行人脸分类训练;然后采用三元组损失方法对已训练好的人脸分类网络模型进行微调,更新网络的参数,使得网络能够更加有效地提取不同人的人脸图像特征,构建高效的卷积特征向量进行人脸检索初步过滤;为了进一步提高系统的检索性能,提出一阶段查询扩展方法对待检索人脸图像的卷积特征向量进行均值融合加强,再次执行检索任务,得到最终的检索结果.在Celebrities Face Set和Labeled Faces in the Wild dataset这2个人脸检索数据集上进行实验的结果表明,该算法不仅能够显著地提高检索结果的准确率,而且简单可靠,能够快速地实现人脸检索任务.  相似文献   

6.
针对卷积神经网络(CNN)平等地对待输入图像中潜在的对象信息和背景信息,而遥感图像场景又存在许多小对象和背景复杂的问题,提出一种基于注意力机制和多尺度特征变换的尺度注意力网络模型。首先,开发一个快速有效的注意力模块,基于最优特征选择生成注意力图;然后,在ResNet50网络结构的基础上嵌入注意力图,增加多尺度特征融合层,并重新设计全连接层,构成尺度注意力网络;其次,利用预训练模型初始化尺度注意力网络,并使用训练集对模型进行微调;最后,利用微调后的尺度注意力网络对测试集进行分类预测。该方法在实验数据集AID上的分类准确率达到95.72%,与ArcNet方法相比分类准确率提高了2.62个百分点;在实验数据集NWPU-RESISC上分类准确率达到92.25%,与IORN方法相比分类准确率提高了0.95个百分点。实验结果表明,所提方法能够有效提高遥感图像场景分类准确率。  相似文献   

7.
基于深度卷积神经网络的图像检索算法研究   总被引:2,自引:0,他引:2  
为解决卷积神经网络在提取图像特征时所造成的特征信息损失,提高图像检索的准确率,提出了一种基于改进卷积神经网络LeNet-L的图像检索算法。首先,改进LeNet-5卷积神经网络结构,增加网络结构深度。然后,对深度卷积神经网络模型LeNet-L进行预训练,得到训练好的网络模型,进而提取出图像高层语义特征。最后,通过距离函数比较待检图像与图像库的相似度,得出相似图像。在Corel数据集上,与原模型以及传统的SVM主动学习图像检索方法相比,该图像检索方法有较高的准确性。经实验结果表明,改进后的卷积神经网络具有更好的检索效果。  相似文献   

8.
针对公共场合人群异常行为检测准确率不高和训练样本缺乏的问题,提出一种基于深度时空卷积神经网络的人群异常行为检测和定位的方法。首先针对监控视频中人群行为的特点,综合利用静态图像的空间特征和前后帧的时间特征,将二维卷积扩展到三维空间,设计面向人群异常行为检测和定位的深度时空卷积神经网络;为了定位人群异常行为,将视频分成若干子区域,获取视频的子区域时空数据样本,然后将数据样本输入设计的深度时空卷积神经网络进行训练和分类,实现人群异常行为的检测与定位。同时,为了解决深度时空卷积神经网络训练时样本数量不足的问题,设计一种迁移学习的方法,利用样本数量多的数据集预训练网络,然后在待测试的数据集中进行微调和优化网络模型。实验结果表明,该方法在UCSD和subway公开数据集上的检测准确率分别达到了99%和93%以上。  相似文献   

9.
通过对维语的场景文字检测与识别研究发现,人工采集标注自然场景文字图像是耗时耗力的,因此人工合成的数据是作为训练数据的主要来源。为获得更加真实的数据,本文提出一种基于生成对抗网络的维语场景文字修改网络,利用高效的Transformer模块构建网络,充分提取图像全局与局部特征来完成维语场景文字图像修改,并添加微调模块,对最终结果进行微调。采用WGAN思想策略训练模型,可有效应对模型崩溃以及梯度爆炸等问题。通过在英文-英文,英文-维文的文字修改实验来验证模型的泛化能力和鲁棒性,无论在客观评价指标(SSIM、PSNR)还是视觉上均取得不错效果,并在真实场景数据集SVT以及ICDAR 2013上进行了验证。  相似文献   

10.
李鸣  张鸿 《计算机应用》2016,36(10):2822-2825
基于内容的图像检索一直面临"语义鸿沟"的难题,特征选择对语义学习结果有着直接的影响;而传统距离度量方法往往从单一角度进行相似性计算,不能很好地表示出图像之间的相似度。为了解决以上问题,提出基于深度特征分析的双线性图像相似度匹配的方法。首先,将图像数据集在卷积神经网络模型上进行微调训练,然后利用训练好的卷积神经网络对图像进行特征提取,获得全连接层输出的特征之后,通过双线性相似性度量方法得到图像间相似度的大小,通过对相似度的大小排序,返回最相似的图像实例。在Caltech101和Caltech256数据集上的对比实验显示,所提算法的平均查准率、TopK查准率和查全率均优于对比算法,验证了所提算法的有效性。  相似文献   

11.
蔡瑞初  谢伟浩  郝志峰  王丽娟  温雯 《软件学报》2015,26(11):2884-2896
如何在人群密度大、变化快、存在大量遮挡的密集场景中实现可靠的人群事件检测,是领域研究的难点和热点.在密集场景时空建模的基础上提出了一种基于多尺度时间递归神经网络的人群异常事件检测和定位方法.首先对人群场景进行网格化划分,并利用多尺度光流直方图对每个网格的人群动态进行刻画;然后,连接各个局部的人群动态获得整体的人群动态,实现整体人群动态的时间序列建模;最后,利用多尺度时间递归神经网络实现异常事件的检测和定位.其中,多尺度隐含层实现了密集场景中不同规模相邻网格之间的空间联系,节点间的反馈关系则为时间维度上的关系表达提供了有效方案.与多种代表性算法的对比实验,验证了本方法的有效性.  相似文献   

12.
Crowd counting is recently becoming a hot research topic, which aims to count the number of the people in different crowded scenes. Existing methods are mainly based on training-testing pattern and rely on large data training, which fails to accurately count the crowd in real-world scenes because of the limitation of model’s generalization capability. To alleviate this issue, a scene-adaptive crowd counting method based on meta-learning with Dual-illumination Merging Network (DMNet) is proposed in this paper. The proposed method based on learning-to-learn and few-shot learning is able to adapt different scenes which only contain a few labeled images. To generate high quality density map and count the crowd in low-lighting scene, the DMNet is proposed, which contains Multi-scale Feature Extraction module and Element-wise Fusion Module. The Multi-scale Feature Extraction module is used to extract the image feature by multi-scale convolutions, which helps to improve network accuracy. The Element-wise Fusion module fuses the low-lighting feature and illumination-enhanced feature, which supplements the missing illumination in low-lighting environments. Experimental results on benchmarks, WorldExpo’10, DISCO, USCD, and Mall, show that the proposed method outperforms the existing state-of-the-art methods in accuracy and gets satisfied results.  相似文献   

13.
现实场景中人群尺度的巨大差异给密集人群计数算法带来了巨大的挑战,因此提出一种基于尺度融合的密集人群计数算法.首先对密度图构建算法进行优化,利用多个头部检测器获取稀疏人群的部分头部尺度,并用径向基差值进行补全,在人群密集区域辅之以距离自适应的人群密度图生成算法,生成更为精确的人群密度图.其次利用移动翻转瓶颈卷积模块设计尺度融合的人群密度图回归神经网络,并加入膨胀卷积模块进一步提升人体头部边缘特征提取能力.最后,通过将人群区域和非人群区域进行区分对人群密度图回归神经网络损失函数进行优化.在实验部分,将该算法在多个数据集上与多个同类算法进行了充分的对比实验与消融实验,实验结果表明提出的方法能够显著提升密集人群计数算法的准确性.  相似文献   

14.
为了提升人群图像的计数精度,设计一种多层级多任务深度卷积网络。多层级神经网络由卷积和上采样的组合方式构成,该网络的优点在于结合浅层网络提取的细节信息和深层网络提取的高阶语义信息。在此基础上,使用多任务学习的方法提升网络性能,多任务学习分为两个部分:人群密度估计任务和人群密度等级分类任务。网络的高分辨率层与人群密度估计任务相连,网络的深层与人群密度等级分类任务相连。将两个任务的损失融合并构成新的损失函数。实验在人群计数公共数据集ShanghaiTech、WorldExpo’10和UCF_CC_50上进行,实验结果表明,该网络在人群计数上具有较好的准确率和鲁棒性。  相似文献   

15.
In recent years, crowd counting has increasingly drawn attention due to its widespread applications in the field of computer vision. Most of the existing methods rely on datasets with scarce labeled images to train networks. They are prone to suffer from the over-fitting problem. Further, these existing datasets usually just give manually labeled annotations related to the head center position. This kind of annotation provides limited information. In this paper, we propose to exploit virtual synthetic crowd scenes to improve the performance of the counting network in the real world. Since we can obtain people masks easily in a synthetic dataset, we first learn to distinguish people from the background via a segmentation network using the synthetic data. Then we transfer the learned segmentation priors from synthetic data to real-world data. Finally, we train a density estimation network on real-world data by utilizing the obtained people masks. Our experiments on two crowd counting datasets demonstrate the effectiveness of the proposed method.  相似文献   

16.
单张图片和监控视频中的人群计数问题在近年来受到了越来越多的关注。尺度的变化和人群遮挡等问题,导致人群计数是一项十分具有挑战性的任务,但是深度卷积神经网络被证明能有效地解决这一问题。文中提出了一种单列多尺度的卷积神经网络,该网络提供了一种数据驱动的深度学习方法,能够理解各种不同的场景,并能进行精确的计数估计。该网络模型主要由作为二维特征提取的前端与中端,和用来还原密度图的后端组成。其中,使用堆叠池代替最大池化层,在不引入额外参数的前提下增加了模型的尺度不变性。网络模型前端采用部分VGG-16结构;中端采用FME(特征聚合模块),用来打破不同列之间的独立,以更好地提取多尺度特征信息;后端采用3列5层的不同扩张率的空洞卷积,在保持分辨率不变的情况下增加感受野,生成更高质量的人群密度图,并引入一种相对人数损失,以提升稀疏密度人群情况下模型的性能。该模型在两个最具挑战性的人群计数数据集上都取得了很好的效果。实验结果表明,在公开人群计数数据集ShanghaiTech的两个子集和UCF_CC_50上,该方法的平均绝对误差(MAE)和均方误差(MSE)分别是66.2和103.0、8.7和13.4、251.0和329.5,性能比传统人群计数方法更好。与其他模型相比,该模型拥有更高的精度和更好的鲁棒性,对稀疏人数图像有着更好的计数效果。  相似文献   

17.
基于视频分析的人群监控,涉及到获取人群行为和数量,这在智能监控领域具有重要的现实价值。本文建立基于运动特征的群体性行为模型,挖掘复杂人群场景中的群体行为,用于人群行为和数量的分析。群体性行为模型是一种主题模型(LDA),通过样本学习,可以获得描述不同群体行为的特征集,用于人群分析。实验中,将群体性行为模型应用于挖掘监控场景下的不同人群行为及其特征集,并使用人工神经网络完成人数统计,统计正确率达到92.35%。  相似文献   

18.
刘砚  雷印杰  宁芊 《计算机科学》2020,47(4):184-188
目前,在密集场景人群计数任务中,标注真实密度图的方法是对行人头部的中心位置进行标注,并利用高斯卷积生成真实的密度分布图作为监督信息。但是,对于密集场景而言,这样的标注方式是费时、费力的,并且密集场景图片中有诸多“非受控”因素,如低分辨率、背景噪声、目标遮挡和尺度变化等。针对这一问题,提出了一种新的标注方法,即只需要知道图片中包含多少个物体,以图片中行人的数量作为监督信息。与传统的真实密度图相比,所提出的标记方法中以真实目标的数值为“弱监督”信息。实验结果表明,对于人群回归任务,利用弱监督信息对神经网络进行训练得到的模型能够较为准确地回归出图片中所包含目标的数量,从而证明了该方法的有效性。  相似文献   

19.
基于序的空间金字塔池化网络的人群计数方法   总被引:6,自引:0,他引:6  
视频中的人群计数在智能监控领域具有重要价值. 由于摄像机透视效果、图像背景、人群密度分布不均匀和行人遮挡等干扰因素的制约, 基于底层特征的传统计数方法准确率较低. 本文提出一种基于序的空间金字塔池化(Rank-based spatial pyramid pooling, RSPP)网络的人群计数方法. 该方法将原图像分成多个具有相同透视范围的子区域并在各个子区域分别取不同尺度的子图像块, 采用基于序的空间金字塔池化网络估计子图像块人数, 然后相加所有子图像块人数得出原图像人数. 提出的图像分块方法有效地消除了摄像机透视效果和人群密度分布不均匀对计数的影响. 提出的基于序的空间金字塔池化不仅能够处理多种尺度的子图像块, 而且解决了传统池化方法易损失大量重要信息和易过拟合的问题. 实验结果表明, 本文方法相比于传统方法具有准确率高和鲁棒性好的优点.  相似文献   

20.
目的 人群密度估计任务是通过对人群特征的提取和分析,估算出密度分布情况和人群计数结果。现有技术运用的CNN网络中的下采样操作会丢失部分人群信息,且平均融合方式会使多尺度效应平均化,该策略并不一定能得到准确的估计结果。为了解决上述问题,提出一种新的基于对抗式扩张卷积的多尺度人群密度估计模型。方法 利用扩张卷积在不损失分辨率的情况下对输入图像进行特征提取,且不同的扩张系数可以聚集多尺度上下文信息。最后通过对抗式损失函数将网络中提取的不同尺度的特征信息以合作式的方式融合,得到准确的密度估计结果。结果 在4个主要的人群计数数据集上进行对比实验。在测试阶段,将测试图像输入训练好的生成器网络,输出预测密度图;将密度图积分求和得到总人数,并以平均绝对误差(MAE)和均方误差(MSE)作为评价指标进行结果对比。其中,在ShanghaiTech数据集上Part_A的MAE和MSE分别降至60.5和109.7,Part_B的MAE和MSE分别降至10.2和15.3,提升效果明显。结论 本文提出了一种新的基于对抗式扩张卷积的多尺度人群密度估计模型。实验结果表明,在人群分布差异较大的场景中构建的算法模型有较好的自适应性,能根据不同的场景提取特征估算密度分布,并对人群进行准确计数。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号