首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 172 毫秒
1.
基于图学习的自动图像标注   总被引:16,自引:0,他引:16  
自动图像标注是图像检索任务中重要而具有挑战性的工作.文中首先讨论并解释了自动图像标注问题,通过总结现有的研究工作,提出了一种基于图学习的图像标注框架.在该框架下,图像标注被分为两个阶段来完成,即基本图像标注与图像标注改善.其中,前者是通过以图像间相似性为依据的图学习过程来提供图像的初始标注,而后者是通过以词汇间语义相关性为依据的图学习过程来改善前者取得的标注结果.该框架主要涉及到图像与文本词汇两种媒体的内部和相互之间的各种关系的估计问题.基于此,作者又给出了针对上述各子问题的改进方法,并将它们综合起来实现了有效的图像标注.最后,通过Corel图像集与网络数据集上一系列实验结果,验证了该模型框架及所提出解决方案的有效性.  相似文献   

2.
为了改善基于词包模型与支持向量机(SVM)分类一幅图对应一个标签的单标签分类问题,提出了一种基于超像素词包模型与SVM分类的图像标注算法.将超像素分割结果作为词包模型的基本单元,用词包模型生成的视觉词汇表示超像素区域特征,保留了图像中的同质区域,很好地利用了图像的区域特征.仿真结果表明,该方法能有效改善基于词包模型与SVM分类的单标签分类问题,且分类的准确性有所提高.  相似文献   

3.
图像自动标注是模式识别与计算机视觉等领域中的重要问题。针对现有图像自动标注模型普遍受到语义鸿沟问题的影响,提出了基于关键词同现的图像自动标注改善方法,该方法利用数据集中标注词间的关联性来改善图像自动标注的结果。此外,针对上述方法不能反映更广义的人的知识以及易受数据库规模影响等问题,提出了基于语义相似的图像自动标注改善方法,通过引入具有大量词汇、包含了人知识的结构化电子词典WordNet来计算词汇间的关系并改善图像自动标注结果。实验结果表明,提出的两个图像自动标注改善方法在各项评价指标上相比以往模型均有所提高。  相似文献   

4.
针对基于深度特征的图像标注模型训练复杂、时空开销大的不足,提出一种由深 度学习中间层特征表示图像视觉特征、由正例样本均值向量表示语义概念的图像标注方法。首 先,通过预训练深度学习模型的中间层直接输出卷积结果作为低层视觉特征,并采用稀疏编码 方式表示图像;然后,采用正例均值向量法为每个文本词汇构造视觉特征向量,从而构造出文 本词汇的视觉特征向量库;最后,计算测试图像与所有文本词汇的视觉特征向量相似度,并取 相似度最大的若干词汇作为标注词。多个数据集上的实验证明了所提出方法的有效性,就 F1 值而言,该方法在 IAPR TC-12 数据集上的标注性能比采用端到端深度特征的 2PKNN 和 JEC 分 别提高 32%和 60%。  相似文献   

5.
针对图像自动标注中因人工选择特征而导致信息缺失的缺点,提出使用卷积神经网络对样本进行自主特征学习。为了适应图像自动标注的多标签学习的特点以及提高对低频词汇的召回率,首先改进卷积神经网络的损失函数,构建一个多标签学习的卷积神经网络(CNN-MLL)模型,然后利用图像标注词间的相关性对网络模型输出结果进行改善。通过在IAPR TC-12标准图像标注数据集上对比了其他传统方法,实验得出,基于采用均方误差函数的卷积神经网络(CNN-MSE)的方法较支持向量机(SVM)方法在平均召回率上提升了12.9%,较反向传播神经网络(BPNN)方法在平均准确率上提升了37.9%;基于标注结果改善的CNN-MLL方法较普通卷积神经网络的平均准确率和平均召回率分别提升了23%和20%。实验结果表明基于标注结果改善的CNN-MLL方法能有效地避免因人工选择特征造成的信息缺失同时增加了对低频词汇的召回率。  相似文献   

6.
深度学习在图像识别领域凸显出了优势,而在深度学习图像识别模型训练的准备阶段,制备图像数据集需要人工将图片上的信息进行标注.这一准备过程往往需要耗费大量人力成本与时间成本.为了提升数据制备阶段的工作效率,从而加速深度学习模型的生成与迭代,提出了一种基于微服务架构的多人协作众包式图像数据集标注系统.通过将繁重的标注任务划分...  相似文献   

7.
语义分割是计算机视觉领域的基本任务,旨在为每个像素分配语义类别标签,实现对图像的像素级理解。得益于深度学习的发展,基于深度学习的全监督语义分割方法取得了巨大进展。然而,这些方法往往需要大量带有像素级标注的训练数据,标注成本巨大,限制了其在诸如自动驾驶、医学图像分析以及工业控制等实际场景中的应用。为了降低数据的标注成本并进一步拓宽语义分割的应用场景,研究者们越来越关注基于深度学习的弱监督语义分割方法,希望通过诸如图像级标注、最小包围盒标注、线标注和点标注等弱标注信息实现图像的像素级分割预测。首先对语义分割任务进行了简要介绍,并分析了全监督语义分割所面临的困境,从而引出弱监督语义分割。然后,介绍了相关数据集和评估指标。接着,根据弱标注的类型和受关注程度,从图像级标注、其他弱标注以及大模型辅助这3个方面回顾和讨论了弱监督语义分割的研究进展。其中,第2类弱监督语义分割方法包括基于最小包围盒、线和点标注的弱监督语义分割。最后,分析了弱监督语义分割领域存在的问题与挑战,并就其未来可能的研究方向提出建议,旨在进一步推动弱监督语义分割领域研究的发展。  相似文献   

8.
基于区域上下文感知的图像标注   总被引:1,自引:0,他引:1  
随着互联网的发展,网络图像指数般增长,图像理解技术变得日益重要.其中图像标注技术作为其关键技术得到广泛关注和研究.现有的图像标注技术大多是在图像层次上训练标签模型,忽略了图像区域之间的关系及其标签之间的关系.为了解决这个问题,文中提出了一种新的算法,结合区域之间的位置关系及其标签之间的共生关系辅助标注图像.具体而言,算法首先使用支持向量机对部分可确定区域赋予语义标签,然后利用区域位置关系帮助聚类标注未知区域.得到一幅图所有的区域标签后,我们提出两种模型对标签共生关系建模辅助修正标签集,一个是随机游走模型,另一个是条件随机场模型.最终算法输出每幅图像的文本标签集.在对图像集NUS-WIDE的标注实验中显示,上述方法和单纯考虑区域关系的方法相比,标注效果和性能有了较好的改善,证实该方法是一种稳定、有效的标注算法.  相似文献   

9.
汪鹏  张奥帆  王利琴  董永峰 《计算机应用》2018,38(11):3199-3203
针对图像标注数据集标签分布不平衡问题,提出了基于标签平滑策略的多标签平滑单元(MLSU)。MLSU在网络模型训练过程中自动平滑数据集中的高频标签,使网络适当提升了低频标签的输出值,从而提升了低频标注词的标注性能。为解决图像标注数据集样本数量不足造成网络过拟合的问题,提出了基于迁移学习的卷积神经网络(CNN)模型。首先利用互联网上的大型公共图像数据集对深度网络进行预训练,然后利用目标数据集对网络参数进行微调,构建了一个多标签平滑卷积神经网络模型(CNN-MLSU)。分别在Corel5K和IAPR TC-12图像标注数据集上进行实验,在Corel5K数据集上,CNN-MLSU较卷积神经网络回归方法(CNN-R)的平均准确率与平均召回率分别提升了5个百分点和8个百分点;在IAPR TC-12数据集上,CNN-MLSU较两场K最邻近模型(2PKNN_ML)的平均召回率提升了6个百分点。实验结果表明,基于迁移学习的CNN-MLSU方法能有效地预防网络过拟合,同时提升了低频词的标注效果。  相似文献   

10.
朱旭东  熊贇 《计算机工程》2022,48(4):173-178+190
图像多标签分类作为计算机视觉领域的重要研究方向,在图像识别、检测等场景下得到广泛应用。现有图像多标签分类方法无法有效利用标签相关性信息以及标签语义与图像特征的对应关系,导致分类能力较差。提出一种图像多标签分类的新算法,通过利用标签共现信息和标签先验知识构建图模型,使用多尺度注意力学习图像特征中目标,并利用标签引导注意力融合标签语义特征和图像特征信息,从而将标签相关性和标签语义信息融入到模型学习中。在此基础上,基于图注意力机制构建动态图模型,并对标签信息图模型进行动态更新学习,以充分融合图像信息和标签信息。在图像多标签分类任务上的实验结果表明,相比于现有最优算法MLGCN,该算法在VOC-2007数据集及COCO-2012数据集上的mAP值分别提高了0.6、1.2个百分点,性能有明显提升。  相似文献   

11.
Image annotation is the foundation for many real-world applications. In the age of Web 2.0, image search and browsing are largely based on the tags of images. In this paper, we formulate image annotation as a multi-label learning problem, and develop a semi-automatic image annotation system. The presented system chooses proper words from a vocabulary as tags for a given image, and refines the tags with the help of the user's feedback. The refinement amounts to a novel multi-label learning framework, named Semi-Automatic Dynamic Auxiliary-Tag-Aided (SADATA), in which the classification result for one certain tag (target tag) can be boosted by the classification results of a subset of the other tags (auxiliary tags). The auxiliary tags, which have strong correlations with the target tag, are determined in terms of the normalized mutual information. We only select those tags whose correlations exceed a threshold as the auxiliary tags, so the auxiliary set is sparse. How much an auxiliary tag can contribute is dependent on the image, so we also build a probabilistic model conditioned on the auxiliary tag and the input image to adjust the weight of the auxiliary tag dynamically. For an given image, the user feedback on the tags corrects the outputs of the auxiliary classifiers and SADATA will recommend more proper tags next round. SADATA is evaluated on a large collection of Corel images. The experimental results validate the effectiveness of our dynamic auxiliary-tag-aided method. Furthermore, the performance also benefits from user feedbacks such that the annotation procedure can be significantly speeded up.  相似文献   

12.
为了在图像底层特征与高层语义之间建立关系,提高图像自动标注的精确度,结合基于图学习的方法和基于分类的标注算法,提出了基于连续预测的半监督学习图像语义标注的方法,并对该方法的复杂度进行分析。该方法利用标签数据提供的信息和标签事例与无标签事例之间的关系,根据邻接点(事例)属于同一个类的事实,构建K邻近图。用一个基于图的分类器,通过核函数有效地计算邻接信息。在建立图的基础上,把经过划分后的样本节点集通过基于连续预测的多标签半监督学习方法进行标签传递。实验表明,提出的算法在图像标注中的标注词的平均查准率、平均查全率方面有显著的提高。  相似文献   

13.
深度学习技术在医学图像分析领域发展得非常好,但医学图像注释成本高,使得深度学习技术在医学图像分析领域受到阻碍.主动学习算法是目前解决注释成本高的一个研究热点.文章介绍了在医学图像分析领域中采用主动深度学习降低注释成本的技术手段和方法,以便相关人员了解目前的研究进展.最后对主动学习方法仍存在的问题和发展趋势进行了总结和展...  相似文献   

14.
图像风格迁移是一种用不同风格渲染图像语义内容的图像处理方法。随着深度学习的兴起,图像风格迁移获得了进一步的发展,并取得了一系列突破性的研究成果。其出色的风格迁移能力引起了学术界和工业界的广泛关注,具有重要的研究价值。为推进基于深度学习的图像风格迁移的技术研究,本文对目前的主要方法和代表性工作进行了归纳与探讨。首先回顾了非参数的图像风格迁移,详细介绍了目前主要的基于深度学习的图像风格迁移的基本原理和方法,分析了图像风格迁移在相关领域中的应用前景,最后总结了基于深度学习的图像风格迁移目前存在的问题与未来的研究方向。  相似文献   

15.
缩小图像低层视觉特征与高层语义之间的鸿沟,以提高图像语义自动标注的精度,是研究大规模图像数据管理的关键。提出一种融合多特征的深度学习图像自动标注方法,将图像视觉特征以不同权重组合成词包,根据输入输出变量优化深度信念网络,完成大规模图像数据语义自动标注。在通用Corel图像数据集上的实验表明,融合多特征的深度学习图像自动标注方法,考虑图像不同特征的影响,提高了图像自动标注的精度。  相似文献   

16.
The vast amount of images available on the Web request for an effective and efficient search service to help users find relevant images.The prevalent way is to provide a keyword interface for users to submit queries.However,the amount of images without any tags or annotations are beyond the reach of manual efforts.To overcome this,automatic image annotation techniques emerge,which are generally a process of selecting a suitable set of tags for a given image without user intervention.However,there are three main challenges with respect to Web-scale image annotation:scalability,noiseresistance and diversity.Scalability has a twofold meaning:first an automatic image annotation system should be scalable with respect to billions of images on the Web;second it should be able to automatically identify several relevant tags among a huge tag set for a given image within seconds or even faster.Noise-resistance means that the system should be robust enough against typos and ambiguous terms used in tags.Diversity represents that image content may include both scenes and objects,which are further described by multiple different image features constituting different facets in annotation.In this paper,we propose a unified framework to tackle the above three challenges for automatic Web image annotation.It mainly involves two components:tag candidate retrieval and multi-facet annotation.In the former content-based indexing and concept-based codebook are leveraged to solve scalability and noise-resistance issues.In the latter the joint feature map has been designed to describe different facets of tags in annotations and the relations between these facets.Tag graph is adopted to represent tags in the entire annotation and the structured learning technique is employed to construct a learning model on top of the tag graph based on the generated joint feature map.Millions of images from Flickr are used in our evaluation.Experimental results show that we have achieved 33% performance improvements compared with those single facet approaches in terms of three metrics:precision,recall and F1 score.  相似文献   

17.
由于用户标签的不准确和语义模糊使得协作式标注图像检索正确率低,而现有垃圾标签过滤方法往往关注标签本身,忽略了协作式标签与图像的关联性。本文在分析协作式标注图像视觉内容与标签的关联性的基础上,提出一种基于协作式标注图像视觉内容的垃圾标签检测方法。该方法分析同一标签下图像视觉内容,设计不同的核函数用于颜色和SIFT(Scale invariant feature transform)特征子集,同时将2种低维特征映射到高维多模特征空间形成混合核函数,对同一标签下的图像进行基于混合核的最大最小距离聚类,少数群体的标签说明与图像内容关联性小则为用户标注错误的标签,从而检测垃圾标签。实验结果表明,该方法能够提高协作式图像垃圾标签检测的正确性。  相似文献   

18.
张圆圆  黄宜军  王跃飞 《计算机应用》2018,38(12):3409-3413
针对目前室内场景视频中关键物体的检测、跟踪及信息编辑等方面主要是采用人工处理方式,存在效率低、精度不高等问题,提出了一种基于纹理信息的室内场景语义标注学习方法。首先,采用光流方法获取视频帧间的运动信息,利用关键帧标注和帧间运动信息进行非关键帧的标注初始化;然后,利用非关键帧的图像纹理信息约束及其初始化标注构建能量方程;最后,利用图割方法优化得到该能量方程的解,即为非关键帧语义标注。标注的准确率和视觉效果的实验结果表明,与运动估计法和基于模型的学习法相比较,所提基于纹理信息的室内场景语义标注学习法具有较好的效果。该方法可以为服务机器人、智能家居、应急响应等低时延决策系统提供参考。  相似文献   

19.
随着数码产品,移动智能设备以及存储设备的普及,大数据时代已经来临,如何对海量数据进行有效的组织、管理、存储成为科研以及商业领域急需解决的问题,在图像数据挖掘当中,图像标注分类是当前比较热门的方向。采用机器学习的方法来找到大规模数据当中的隐含规律,实现样本的视觉内容到概念的映射需要对视觉数据内容进行恰当的描述,如果我们使用整个的图像作为基本单元,存在的问题就是视觉数据往往具有歧义性,难以准确表述包含的语义,多示例学习方法应运而生。图像分类问题本身是一种多标签问题,传统方法将其转化为一系列的单标签问题解决,忽略了标签之间的相关性,我们将标签相关性引入到模型构建当中,实验取得良好效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号