首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 288 毫秒
1.
由于卷积神经网络(CNN)大多侧重于全局特征学习,忽略了包含更多细节的局部特征信息,使得室内场景识别的准确率难以提高。针对这一问题,提出了基于改进全局—局部注意网络(GLANet)的室内场景识别方法。首先,利用GLANet捕捉场景图像的全局特征和局部特征,增加图像特征中的细节信息;然后,在局部网络中引入non-local注意力模块,通过注意力图和特征图的卷积来进一步保留图像的细节特征,最后融合网络不同阶段的多种特征进行分类。通过在MIT Indoor67和SUN397数据集上的训练和验证,所提方法的识别准确率与LGN方法相比分别提高了1.98%和3.07%。实验结果表明,该算法能够有效捕获全局语义信息和精细的局部细节,显著提高了识别准确率。  相似文献   

2.
目的 在高分辨率遥感图像场景识别问题中,经典的监督机器学习算法大多需要充足的标记样本训练模型,而获取遥感图像的标注费时费力。为解决遥感图像场景识别中标记样本缺乏且不同数据集无法共享标记样本问题,提出一种结合对抗学习与变分自动编码机的迁移学习网络。方法 利用变分自动编码机(variational auto-encoders,VAE)在源域数据集上进行训练,分别获得编码器和分类器网络参数,并用源域编码器网络参数初始化目标域编码器。采用对抗学习的思想,引入判别网络,交替训练并更新目标域编码器与判别网络参数,使目标域与源域编码器提取的特征尽量相似,从而实现遥感图像源域到目标域的特征迁移。结果 利用两个遥感场景识别数据集进行实验,验证特征迁移算法的有效性,同时尝试利用SUN397自然场景数据集与遥感场景间的迁移识别,采用相关性对齐以及均衡分布适应两种迁移学习方法作为对比。两组遥感场景数据集间的实验中,相比于仅利用源域样本训练的网络,经过迁移学习后的网络场景识别精度提升约10%,利用少量目标域标记样本后提升更为明显;与对照实验结果相比,利用少量目标域标记样本时提出方法的识别精度提升均在3%之上,仅利用源域标记样本时提出方法场景识别精度提升了10%~40%;利用自然场景数据集时,方法仍能在一定程度上提升场景识别精度。结论 本文提出的对抗迁移学习网络可以在目标域样本缺乏的条件下,充分利用其他数据集中的样本信息,实现不同场景图像数据集间的特征迁移及场景识别,有效提升遥感图像的场景识别精度。  相似文献   

3.
亲属关系验证是人脸识别的一个重要分支,可以用于寻找失散亲人、搜寻走失儿童、构建家庭图谱、社交媒体分析等重要场景。父母和孩子的人脸图像之间往往存在较大的差异,如何从人脸中提取到有鉴别力的特征是提高亲属关系验证准确率的关键。因此,提出了一种基于深度学习和人脸局部特征增强的亲属关系验证方法,构建了人脸局部特征增强验证网络(Local Facial Feature Enhancement Verification Net,LFFEV Net),获取用于亲属关系验证的具有强鉴别力的人脸特征表示。LFFEV Net由局部特征注意力网络和残差验证网络两部分组成。局部特征注意力网络提取人脸局部关键特征,将获取的局部关键特征和对应的原始图像一同输入到残差验证网络中获取更具鉴别力的人脸特征,将特征经过融合并结合Family ID信息进行亲属关系验证。算法在公开的亲属关系数据集KinFaceW-I和KinFaceW-II上进行测试,实验结果表明,所设计的方法在亲属关系验证任务中有较高的识别率。  相似文献   

4.
刘兵  张鸿 《计算机应用》2016,36(2):531-534
针对基于内容的图像检索(CBIR)中低层视觉特征与用户对图像理解的高层语义不一致以及传统的距离度量方式难以真实反映图像之间相似程度等问题,提出了一种基于卷积神经网络(CNN)和流形排序的图像检索算法。首先,将图像输入CNN,通过多层神经网络对图像的监督学习,提取网络中全连接层的图像特征;其次,对图像特征进行归一化处理,然后用高效流形排序(EMR)算法对查询图像所返回的结果进行排序;最后,根据排序的结果返回最相似的图像。在corel数据集上,深度图像特征比基于场景描述的图像特征的平均查准率(mAP)提高了53.74%,流形排序比余弦距离度量方式的mAP提高了18.34%。实验结果表明,所提算法能够有效地提高图像检索的准确率。  相似文献   

5.
非负矩阵分解是一种流行的数据表示方法,利用图正则化约束能有效地揭示数据之间的局部流形结构。为了更好地提取图像特征,给出了一种基于图正则化的稀疏判别非负矩阵分解算法(graph regularization sparse discriminant non-negative matrix factorization,GSDNMF-L2,1)。利用同类样本之间的稀疏线性表示来构建对应的图及权矩阵;以L2,1范数进行稀疏性约束;以最大间距准则为优化目标函数,利用数据集的标签信息来保持数据样本之间的流形结构和特征的判别性,并给出了算法的迭代更新规则。在若干图像数据集上的实验表明,GSDNMF-L2,1在特征提取方面的分类精度优于各对比算法。  相似文献   

6.
目的 当前的大型数据集,例如ImageNet,以及一些主流的网络模型,如ResNet等能直接高效地应用于正常场景的分类,但在雾天场景下则会出现较大的精度损失。雾天场景复杂多样,大量标注雾天数据成本过高,在现有条件下,高效地利用大量已有场景的标注数据和网络模型完成雾天场景下的分类识别任务至关重要。方法 本文使用了一种低成本的数据增强方法,有效减小图像在像素域上的差异。基于特征多样性和特征对抗的思想,提出多尺度特征多对抗网络,通过提取数据的多尺度特征,增强特征在特征域分布的代表性,利用对抗机制,在多个特征上减少特征域上的分布差异。通过缩小像素域和特征域分布差异,进一步减小领域偏移,提升雾天场景的分类识别精度。结果 在真实的多样性雾天场景数据上,通过消融实验,使用像素域数据增强方法后,带有标签的清晰图像数据在风格上更趋向于带雾图像,总的分类精度提升了8.2%,相比其他的数据增强方法,至少提升了6.3%,同时在特征域上使用多尺度特征多对抗网络,相比其他的网络,准确率至少提升了8.0%。结论 像素域数据增强以及多尺度特征多对抗网络结合的雾天图像识别方法,综合考虑了像素域和特征域的领域分布差异,结合了多尺度的丰富特征信息,同时使用多对抗来缩小雾天数据的领域偏移,在真实多样性雾天数据集上获得了更好的图像分类识别效果。  相似文献   

7.
The availability of multiple spectral measurements at each pixel in an image provides important additional information for recognition. Spectral information is of particular importance for applications where spatial information is limited. Such applications include the recognition of small objects or the recognition of small features on partially occluded objects. We introduce a feature matrix representation for deterministic local structure in color images. Although feature matrices are useful for recognition, this representation depends on the spectral properties of the scene illumination. Using a linear model for surface spectral reflectance with the same number of parameters as the number of color bands, we show that changes in the spectral content of the illumination correspond to linear transformations of the feature matrices, and that image plane rotations correspond to circular shifts of the matrices. From these relationships, we derive an algorithm for the recognition of local surface structure which is invariant to these scene transformations. We demonstrate the algorithm with a series of experiments on images of real objects  相似文献   

8.
谢长江  杨晓敏  严斌宇  芦璐 《计算机应用》2019,39(10):2899-2904
单传感器捕获的彩色-近红外(RGB-NIR)图像存在光谱干扰,从而导致重建出的标准彩色图像(RGB)图像与近红外(NIR)图像存在色彩失真以及细节信息模糊。针对这个问题提出一种基于深度学习的去马赛克方法,通过引入跳远连接与稠密连接解决了梯度消失和梯度弥散问题,使得网络更容易训练,并且提升了网络的拟合能力。首先,用浅层特征提取层提取了马赛克图像的像素相关性以及通道相关性等低级特征;然后,将得到的浅层特征图输入到连续多个的残差稠密块以提取专门针对去马赛克的高级语义特征;其次,为充分利用低级特征与高级特征,将多个残差稠密块提取到的特征进行组合;最后,通过全局跳远连接恢复最终的RGB-NIR图像。在深度学习框架Tensorflow上使用公共的图像与视觉表示组(IVRG)数据集、有植被的户外多光谱图像(OMSIV)数据集和森林(Forest)三个公开数据集进行实验。实验结果表明,所提方法优于基于多级自适应残差插值、基于卷积卷积和神经神经网络以及基于深度残差U型网络的主流的RGB-NIR图像去马赛克方法。  相似文献   

9.
针对复杂结构的三维形状分析与识别问题,提出了新颖的图卷积分类方法,建立了局部几何与全局结构联合图卷积学习机制,有效提高了三维形状数据学习的鲁棒性与稳定性。首先,通过最远点采样与最近邻方法构造局部图,并建立动态卷积算子,有效提取局部几何特征;同时,基于特征域采样构造全局的特征谱图,通过卷积算子获得全局结构信息。进而,构建加权的联合图卷积学习网络模型,引入注意力机制,实现自适应的特征融合。最终,在联合优化目标函数约束下,有效提高特征学习的性能。实验结果表明,融合局部几何与全局结构的联合图卷积网络学习机制,有效提高了深度特征的表示能力及区分性,具有更为优秀的识别力和分类性能。提出的研究方法可应用于大规模三维场景识别、三维重建以及数据压缩,在机器人、产品数字化分析、智能导航、虚拟现实等领域具有着重要的工程意义与广泛的应用前景。  相似文献   

10.
Image clustering methods are efficient tools for applications such as content-based image retrieval and image annotation. Recently, graph based manifold learning methods have shown promising performance in extracting features for image clustering. Typical manifold learning methods adopt appropriate neighborhood size to construct the neighborhood graph, which captures local geometry of data distribution. Because the density of data points’ distribution may be different in different regions of the manifold, a fixed neighborhood size may be inappropriate in building the manifold. In this paper, we propose a novel algorithm, named sparse patch alignment framework, for the embedding of data lying in multiple manifolds. Specifically, we assume that for each data point there exists a small neighborhood in which only the points that come from the same manifold lie approximately in a low-dimensional affine subspace. Based on the patch alignment framework, we propose an optimization strategy for constructing local patches, which adopt sparse representation to select a few neighbors of each data point that span a low-dimensional affine subspace passing near that point. After that, the whole alignment strategy is utilized to build the manifold. Experiments are conducted on four real-world datasets, and the results demonstrate the effectiveness of the proposed method.  相似文献   

11.
针对基于深度特征的图像标注模型训练复杂、时空开销大的不足,提出一种由深 度学习中间层特征表示图像视觉特征、由正例样本均值向量表示语义概念的图像标注方法。首 先,通过预训练深度学习模型的中间层直接输出卷积结果作为低层视觉特征,并采用稀疏编码 方式表示图像;然后,采用正例均值向量法为每个文本词汇构造视觉特征向量,从而构造出文 本词汇的视觉特征向量库;最后,计算测试图像与所有文本词汇的视觉特征向量相似度,并取 相似度最大的若干词汇作为标注词。多个数据集上的实验证明了所提出方法的有效性,就 F1 值而言,该方法在 IAPR TC-12 数据集上的标注性能比采用端到端深度特征的 2PKNN 和 JEC 分 别提高 32%和 60%。  相似文献   

12.
目的 少数民族服装色彩及样式种类繁多等因素导致少数民族服装图像识别率较低。以云南少数民族服装为例,提出一种结合人体检测和多任务学习的少数民族服装识别方法。方法 首先通过k-poselets对输入的待识别图像和少数民族服装图像集中的训练图像进行人体整体和局部检测以及关键点的预测;其次,根据检测结果,从待识别图像和训练图像中分别提取颜色直方图、HOG (histogram of oriented gradient)、LBP(local binary pattern)、SIFT(scale invariant feature transform)以及边缘算子5种底层特征;然后,将自定义的少数民族服装语义属性与提取的底层特征进行匹配,采用多任务学习训练分类器模型,以学习少数民族服装的不同风格;最后实现少数民族服装图像的识别并输出识别结果。另外,由于目前缺少大型的少数民族服装数据集,本文构建了一个云南少数民族服装图像集。结果 在构建的云南少数民族服装图像集上验证了本文方法,识别精度达到82.5%88.4%,并与单任务学习方法进行比较,本文方法识别率更高。结论 针对现有的少数民族服装识别率较低的问题,提出一种结合人体检测和多任务学习的少数民族服装识别方法,提高了少数民族服装图像识别的准确率和效率,同时能较好地满足实际应用需求。  相似文献   

13.
目的 图表问答是计算机视觉多模态学习的一项重要研究任务,传统关系网络(relation network,RN)模型简单的两两配对方法可以包含所有像素之间的关系,因此取得了不错的结果,但此方法不仅包含冗余信息,而且平方式增长的关系配对的特征数量会给后续的推理网络在计算量和参数量上带来很大的负担。针对这个问题,提出了一种基于融合语义特征提取的引导性权重驱动的重定位关系网络模型来改善不足。方法 首先通过融合场景任务的低级和高级图像特征来提取更丰富的统计图语义信息,同时提出了一种基于注意力机制的文本编码器,实现融合语义的特征提取,然后对引导性权重进行排序进一步重构图像的位置,从而构建了重定位的关系网络模型。结果 在2个数据集上进行实验比较,在FigureQA(an annotated figure dataset for visual reasoning)数据集中,相较于IMG+QUES(image+questions)、RN和ARN(appearance and relation networks),本文方法的整体准确率分别提升了26.4%,8.1%,0.46%,在单一验证集上,相较于LEA...  相似文献   

14.
张凯悦  张鸿 《计算机应用》2021,41(10):3010-3016
针对已有的航运监控图像识别模型C3D里中级表征学习能力有限,有效特征的提取容易受到噪声的干扰,且特征的提取忽视了整体特征与局部特征之间关系的问题,提出了一种新的基于注意力机制网络的航运监控图像识别模型。该模型基于卷积神经网络(CNN)框架,首先,通过特征提取器提取图像的浅层次特征;然后,基于CNN对不同区域激活特征的不同响应强度,生成注意力信息并实现对局部判别性特征的提取;最后,使用多分支的CNN结构融合局部判别性特征和图像全局纹理特征,从而利用局部判别性特征和图像全局纹理特征的交互关系提升CNN学习中级表征的能力。实验结果表明,所提出的模型在航运图像数据集上的识别准确率达到91.8%,相较于目前的C3D模型提高了7.2个百分点,相较于判别滤波器组卷积神经网络(DFL-CNN)模型提高了0.6个百分点。可见所提模型能够准确判断船舶的状态,可以有效应用于航运监控项目。  相似文献   

15.
为克服不同图像域之间的特征“差异”,跨越分布“鸿沟”,提出了一种基于正则化迁移稀疏概念编码的跨域图像分类方法。将图像域间的分布差异性和标签相关性信息融入稀疏编码模型中,以学习跨域图像的鲁棒性稀疏表示,从高维的图像特征空间中挖掘图像低维流形结构,形成基向量集,构造跨域图像的迁移稀疏概念编码。该方法挖掘不同图像域之间的共同特征表达,实现了图像标签的跨域迁移。通过在多个图像数据库中的比较实验表明,该方法获得更为鲁棒的图像特征表达,其分类性能显著优于其他相关比较方法。  相似文献   

16.
本文提出了一个基于流形学习的动作识别框架,用来识别深度图像序列中的人体行为。本文从Kinect设备获得的深度信息中评估出人体的关节点信息,并用相对关节点位置差作为人体特征表达。在训练阶段,本文利用Lapacian eigenmaps(LE)流形学习对高维空间下的训练集进行降维,得到低维隐空间下的运动模型。在识别阶段,本文用最近邻差值方法将测试序列映射到低维流形空间中去,然后进行匹配计算。在匹配过程中,通过使用改进的Hausdorff距离对低维空间下测试序列和训练运动集的吻合度和相似度进行度量。本文用Kinect设备捕获的数据进行了实验,取得了良好的效果;同时本文也在MSR Action3D数据库上进行了测试,结果表明在训练样本较多情况下,本文识别效果优于以往方法。实验结果表明本文所提的方法适用于基于深度图像序列的人体动作识别。  相似文献   

17.
基于流形学习的人体动作识别   总被引:5,自引:2,他引:3       下载免费PDF全文
目的 提出了一个基于流形学习的动作识别框架,用来识别深度图像序列中的人体行为。方法 从Kinect设备获得的深度信息中评估出人体的关节点信息,并用相对关节点位置差作为人体特征表达。在训练阶段,利用LE(Lalpacian eigenmaps)流形学习对高维空间下的训练集进行降维,得到低维隐空间下的运动模型。在识别阶段,用最近邻差值方法将测试序列映射到低维流形空间中去,然后进行匹配计算。在匹配过程中,通过使用改进的Hausdorff距离对低维空间下测试序列和训练运动集的吻合度和相似度进行度量。结果 用Kinect设备捕获的数据进行了实验,取得了良好的效果;同时也在MSR Action3D数据库上进行了测试,结果表明在训练样本较多情况下,本文方法识别效果优于以往方法。结论 实验结果表明本文方法适用于基于深度图像序列的人体动作识别。  相似文献   

18.
目的 为了提高视频中动作识别的准确度,提出基于动作切分和流形度量学习的视频动作识别算法。方法 首先利用基于人物肢体伸展程度分析的动作切分方法对视频中的动作进行切分,将动作识别的对象具体化;然后从动作片段中提取归一化之后的全局时域特征和空域特征、光流特征、帧内的局部旋度特征和散度特征,构造一种7×7的协方差矩阵描述子对提取出的多种特征进行融合;最后结合流形度量学习方法有监督式地寻找更优的距离度量算法提高动作的识别分类效果。结果 对Weizmann公共视频集的切分实验统计结果表明本文提出的视频切分方法具有很好的切分能力,能够作好动作识别前的预处理;在Weizmann公共视频数据集上进行了流形度量学习前后的识别效果对比,结果表明利用流形度量学习方法对动作识别效果提升2.8%;在Weizmann和KTH两个公共视频数据集上的平均识别率分别为95.6%和92.3%,与现有方法的比较表明,本文提出的动作识别方法有更好的识别效果。结论 多次实验结果表明本文算法在预处理过程中动作切分效果理想,描述动作所构造协方差矩阵对动作的表达有良好的多特征融合能力,而且光流信息和旋度、散度信息的加入使得人体各部位的运动方向信息具有了更多细节的描述,有效提高了协方差矩阵的描述能力,结合流形度量学习方法对动作识别的准确性有明显提高。  相似文献   

19.
Most successful approaches on scene recognition tend to efficiently combine global image features with spatial local appearance and shape cues. On the other hand, less attention has been devoted for studying spatial texture features within scenes. Our method is based on the insight that scenes can be seen as a composition of micro-texture patterns. This paper analyzes the role of texture along with its spatial layout for scene recognition. However, one main drawback of the resulting spatial representation is its huge dimensionality. Hence, we propose a technique that addresses this problem by presenting a compact Spatial Pyramid (SP) representation. The basis of our compact representation, namely, Compact Adaptive Spatial Pyramid (CASP) consists of a two-stages compression strategy. This strategy is based on the Agglomerative Information Bottleneck (AIB) theory for (i) compressing the least informative SP features, and, (ii) automatically learning the most appropriate shape for each category. Our method exceeds the state-of-the-art results on several challenging scene recognition data sets.  相似文献   

20.
Visual learning and recognition of 3-d objects from appearance   总被引:33,自引:9,他引:24  
The problem of automatically learning object models for recognition and pose estimation is addressed. In contrast to the traditional approach, the recognition problem is formulated as one of matching appearance rather than shape. The appearance of an object in a two-dimensional image depends on its shape, reflectance properties, pose in the scene, and the illumination conditions. While shape and reflectance are intrinsic properties and constant for a rigid object, pose and illumination vary from scene to scene. A compact representation of object appearance is proposed that is parametrized by pose and illumination. For each object of interest, a large set of images is obtained by automatically varying pose and illumination. This image set is compressed to obtain a low-dimensional subspace, called the eigenspace, in which the object is represented as a manifold. Given an unknown input image, the recognition system projects the image to eigenspace. The object is recognized based on the manifold it lies on. The exact position of the projection on the manifold determines the object's pose in the image.A variety of experiments are conducted using objects with complex appearance characteristics. The performance of the recognition and pose estimation algorithms is studied using over a thousand input images of sample objects. Sensitivity of recognition to the number of eigenspace dimensions and the number of learning samples is analyzed. For the objects used, appearance representation in eigenspaces with less than 20 dimensions produces accurate recognition results with an average pose estimation error of about 1.0 degree. A near real-time recognition system with 20 complex objects in the database has been developed. The paper is concluded with a discussion on various issues related to the proposed learning and recognition methodology.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号