首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
针对目前图像检索领域主要依靠语义相似性检索图片而忽略了场景中物体重要性关系问题,提出了一种基于场景感知的物体显著性排名算法SASR,使图像检索更关注场景中物体的相互关系。SASR分为两个阶段,在第一阶段,提出了基于视点数据的“组合阈值”物体级显著性排名真值标签标注方法,该方法简化了排名标签的标注;在第二阶段,提出了基于图卷积网络的物体级显著性排序网络,该网络解决了多个在物体级排序问题中存在的特异性难点。该算法改善了目前显著性排名标签生成方式并进行了大量对比实验,在现有SALICON数据集上的实验结果表明,其提升了显著性排名的性能,在NUS-WIDE数据集上的实验结果表明在该算法的支撑下,图像检索性能平均提升了2%,证明了其有效性。  相似文献   

2.
从图像中获取目标物体的6D位姿信息在机器人操作和虚拟现实等领域有着广泛的应用,然而,基于深度学习的位姿估计方法在训练模型时通常需要大量的训练数据集来提高模型的泛化能力,一般的数据采集方法存在收集成本高同时缺乏3D空间位置信息等问题.鉴于此,提出一种低质量渲染图像的目标物体6D姿态估计网络框架.该网络中,特征提取部分以单张RGB图像作为输入,用残差网络提取输入图像特征;位姿估计部分的目标物体分类流用于预测目标物体的类别,姿态回归流在3D空间中回归目标物体的旋转角度和平移矢量.另外,采用域随机化方法以低收集成本方式构建大规模低质量渲染、带有物体3D空间位置信息的图像数据集Pose6DDR.在所建立的Pose6DDR数据集和LineMod公共数据集上的测试结果表明了所提出位姿估计方法的优越性以及大规模数据集域随机化生成数据方法的有效性.  相似文献   

3.
目的 弱监督物体检测是一种仅利用图像类别标签训练物体检测器的技术。近年来弱监督物体检测器的精度不断提高,但在如何提升检出物体的完整性、如何从多个同类物体中区分出单一个体的问题上仍面临极大挑战。围绕上述问题,提出了基于物体布局后验概率图进行多物体图像增广的弱监督物体检测方法ProMIS(probability-based multi-object image synthesis)。方法 将检出物体存储到物体候选池,并将候选池中的物体插入到输入图像中,构造带有伪边界框标注的增广图像,进而利用增广后的图像训练弱监督物体检测器。该方法包含图像增广与弱监督物体检测两个相互作用的模块。图像增广模块将候选池中的物体插入一幅输入图像,该过程通过后验概率的估计与采样对插入物体的类别、位置和尺度进行约束,以保证增广图像的合理性;弱监督物体检测模块利用增广后的多物体图像、对应的类别标签、物体伪边界框标签训练物体检测器,并将原始输入图像上检到的高置信度物体储存到物体候选池中。训练过程中,为了避免过拟合,本文在基线算法的基础上增加一个并行的检测分支,即基于增广边界框的检测分支,该分支利用增广得到的伪边界框标注进行训练,原有基线算法的检测分支仍使用图像标签进行训练。测试时,本文方法仅使用基于增广边界框的检测分支产生检测结果。本文提出的增广策略和检测器的分支结构在不同弱监督物体检测器上均适用。结果 在Pascal VOC(pattern analysis, statistical modeling and computational learning visual object classes)2007和Pascal VOC 2012数据集上,将该方法嵌入到多种现有的弱监督物体检测器中,平均精度均值(mean average precision,mAP)平均获得了2.9%和4.2%的提升。结论 本文证明了采用弱监督物体检测伪边界框标签生成的增广图像包含丰富信息,能够辅助弱监督检测器学习物体部件、整体以及多物体簇之间的区别。  相似文献   

4.
场景图生成(SGG)任务旨在检测图像中的视觉关系三元组,即主语、谓语、宾语,为场景理解提供结构视觉布局。然而,现有的场景图生成方法忽略了预测的谓词频率高但却无信息性的问题,从而阻碍了该领域进步。为了解决上述问题,提出一种基于增强语义信息理解的场景图生成算法。整个模型由特征提取模块、图像裁剪模块、语义转化模块、拓展信息谓词模块四部分组成。特征提取模块和图像裁剪模块负责提取视觉特征并使其具有全局性和多样性。语义转化模块负责将谓词之间的语义关系从常见的预测中恢复信息预测。拓展信息谓词模块负责扩展信息谓词的采样空间。在数据集VG和VG-MSDN上与其他方法进行比较,平均召回率分别达到59.5%和40.9%。该算法可改善预测出来的谓词信息性不足问题,进而提升场景图生成算法的性能。  相似文献   

5.
针对图像描述生成任务在不同场景下表现不佳的缺点,提出一种融合卷积神经网络和先验知识的多场景注意力图像描述生成算法。该算法通过卷积神经网络生成视觉语义单元,使用命名实体识别对图像场景进行识别和预测,并使用该结果自动调整自注意力机制的关键参数并进行多场景注意力计算,最后将得到的区域编码和语义先验知识插入Transformer文本生成器中指导句子的生成。结果表明,该算法有效解决了生成的描述缺少关键场景信息的问题。在MSCOCO和Flickr30k数据集上对模型进行评估,其中MSCOCO数据集的CIDEr得分达到1.210,优于同类图像描述生成模型。  相似文献   

6.
基于深度学习的边缘检测算法需要大量的标注,这阻碍了边缘检测的推广应用。因此提出一种伪监督边缘检测算法,能够在无标注的手绘图像数据集上提取图像边缘。算法分成三部分,包括伪监督标签生成、多尺度边缘检测网络和特征增强模块。伪监督标签为多尺度监督的边缘检测网络生成监督信息,特征增强模块可以弥补伪监督带来的信息丢失。该算法比现有边缘检测算法提取的边缘更完整,在手绘数据集QMUL-Shoe和QMUL-Chair上可以提高1%~6%的检索精度,对需要边缘检测的所有领域都有启发性意义。  相似文献   

7.
郑粤铭  彭博 《计算机应用》2023,(S1):258-262
皮肤镜图像中病灶区域的精确分割是实现皮肤病自动化检测的关键步骤。现存的皮肤镜图像分割方法主要基于全监督图像分割,这需要大量的像素标注,费时费力。针对此问题,提出一种基于类激活图(CAM)的弱监督皮肤镜图像分割方法。首先,对原始图像进行预处理,去除图像中的毛发并对图像进行颜色归一化处理;然后,结合图像的多尺度输入,并在显著图的引导下,通过特征提取网络得到图像的类激活图;之后,将得到的类激活图通过条件随机场得到伪掩膜;最后,使用伪掩膜训练分割网络。在ISIC2017数据集上评估所提方法,结果显示,所提方法生成的伪掩膜的Dice系数达到82.64%,相似性系数达到71.92%,灵敏度达到90.01%,表明所提方法能够在大量减少人工标注工作量的同时生成高质量的伪掩膜。  相似文献   

8.
针对交通场景语义分割方法存在参数量较大、计算效率较低、精度不足等问题,文中提出基于全卷积化DenseNet的多尺度端到端语义分割模型.首先,构建一种含混合空洞卷积的密集连接模块,同时沿通道维度级联各模块,用于提取图像特征.然后,采集多尺度视觉信息并以此作为监督信号回传至原通道中.最后,通过双线性插值法获得预测输出.在CityScapes数据集上的测试实验表明,文中方法对复杂交通场景的解析能力较强,预测精度和分割效率较高.  相似文献   

9.
生成对抗网络是图像合成的重要方法,也是目前实现文字生成图像任务最多的手段。随着跨模态生成研究不断地深入,文字生成图像的真实度与语义相关性得到了巨大提升,无论是生成花卉、鸟类、人脸等自然图像,还是生成场景图和布局,都取得了较好的成果。同时,文字生成图像技术也存在面临着一些挑战,如难以生成复杂场景中的多个物体,以及现有的评估指标不能准确地评估新提出的文字生成图像算法,需要提出新的算法评价指标。回顾了文字生成图像方法自提出以来的发展状况,列举了近年提出的文字生成图像算法、常用数据集和评估指标。最后从数据集、指标、算法和应用方面探讨了目前存在的问题,并展望了今后的研究方向。  相似文献   

10.
融合图像场景及物体先验知识的图像描述生成模型   总被引:1,自引:0,他引:1       下载免费PDF全文
目的 目前基于深度卷积神经网络(CNN)和长短时记忆(LSTM)网络模型进行图像描述的方法一般是用物体类别信息作为先验知识来提取图像CNN特征,忽略了图像中的场景先验知识,造成生成的句子缺乏对场景的准确描述,容易对图像中物体的位置关系等造成误判。针对此问题,设计了融合场景及物体类别先验信息的图像描述生成模型(F-SOCPK),将图像中的场景先验信息和物体类别先验信息融入模型中,协同生成图像的描述句子,提高句子生成质量。方法 首先在大规模场景类别数据集Place205上训练CNN-S模型中的参数,使得CNN-S模型能够包含更多的场景先验信息,然后将其中的参数通过迁移学习的方法迁移到CNNd-S中,用于捕捉待描述图像中的场景信息;同时,在大规模物体类别数据集Imagenet上训练CNN-O模型中的参数,然后将其迁移到CNNd-O模型中,用于捕捉图像中的物体信息。提取图像的场景信息和物体信息之后,分别将其送入语言模型LM-S和LM-O中;然后将LM-S和LM-O的输出信息通过Softmax函数的变换,得到单词表中每个单词的概率分值;最后使用加权融合方式,计算每个单词的最终分值,取概率最大者所对应的单词作为当前时间步上的输出,最终生成图像的描述句子。结果 在MSCOCO、Flickr30k和Flickr8k 3个公开数据集上进行实验。本文设计的模型在反映句子连贯性和准确率的BLEU指标、反映句子中单词的准确率和召回率的METEOR指标及反映语义丰富程度的CIDEr指标等多个性能指标上均超过了单独使用物体类别信息的模型,尤其在Flickr8k数据集上,在CIDEr指标上,比单独基于物体类别的Object-based模型提升了9%,比单独基于场景类别的Scene-based模型提升了近11%。结论 本文所提方法效果显著,在基准模型的基础上,性能有了很大提升;与其他主流方法相比,其性能也极为优越。尤其是在较大的数据集上(如MSCOCO),其优势较为明显;但在较小的数据集上(如Flickr8k),其性能还有待于进一步改进。在下一步工作中,将在模型中融入更多的视觉先验信息,如动作类别、物体与物体之间的关系等,进一步提升描述句子的质量。同时,也将结合更多视觉技术,如更深的CNN模型、目标检测、场景理解等,进一步提升句子的准确率。  相似文献   

11.
目的 目前文本到图像的生成模型仅在具有单个对象的图像数据集上表现良好,当一幅图像涉及多个对象和关系时,生成的图像就会变得混乱。已有的解决方案是将文本描述转换为更能表示图像中场景关系的场景图结构,然后利用场景图生成图像,但是现有的场景图到图像的生成模型最终生成的图像不够清晰,对象细节不足。为此,提出一种基于图注意力网络的场景图到图像的生成模型,生成更高质量的图像。方法 模型由提取场景图特征的图注意力网络、合成场景布局的对象布局网络、将场景布局转换为生成图像的级联细化网络以及提高生成图像质量的鉴别器网络组成。图注意力网络将得到的具有更强表达能力的输出对象特征向量传递给改进的对象布局网络,合成更接近真实标签的场景布局。同时,提出使用特征匹配的方式计算图像损失,使得最终生成图像与真实图像在语义上更加相似。结果 通过在包含多个对象的COCO-Stuff图像数据集中训练模型生成64×64像素的图像,本文模型可以生成包含多个对象和关系的复杂场景图像,且生成图像的Inception Score为7.8左右,与原有的场景图到图像生成模型相比提高了0.5。结论 本文提出的基于图注意力网络的场景图到图像生成模型不仅可以生成包含多个对象和关系的复杂场景图像,而且生成图像质量更高,细节更清晰。  相似文献   

12.
手机3D 动画自动生成系统是要实现从用户发送信息给服务器,经过信息抽取、情节规划、场景规划等一系列的处理,最终生成与短信内容相关的视频动画并发送给接收方这一过程。其中场景规划模块是在情节定性规划的基础上确定情节的各个细节,并将其量化到三维动画场景文件中。在动画情节规划的基础上,对动画场景规划模块中的三维场景空间布局问题进行研究,将三维场景可用空间根据物体的语义信息进行布局,基于语义网技术设计和实现三维场景的布局知识库,最终实现了三维物体的合理摆放,系统不仅保证了物体的无遮挡、无碰撞摆放,也实现了同一物体添加多个的情况,使物体的摆放具有多样性同时也体现了物体的语义信息。  相似文献   

13.
马志峰  李颖  郑芳  高智勇 《计算机工程》2012,38(17):209-213
已有获取显著区域的方法存在不能适应实际物体的大小、包含冗余信息及应用范围有限的问题。为此,提出一种多目标场景下的显著物体提取方法。对基于空间的计算模型得到的显著图进行聚类,将多目标场景划分为多个单目标的子场景,在子场景集合中,引入注意转移机制,并使用基于物体的计算模型依次提取显著物体。实验结果表明,该方法能提取图像中的多个显著目标。  相似文献   

14.
There has been a growing interest in exploiting contextual information in addition to local features to detect and localize multiple object categories in an image. A context model can rule out some unlikely combinations or locations of objects and guide detectors to produce a semantically coherent interpretation of a scene. However, the performance benefit of context models has been limited because most of the previous methods were tested on data sets with only a few object categories, in which most images contain one or two object categories. In this paper, we introduce a new data set with images that contain many instances of different object categories, and propose an efficient model that captures the contextual information among more than a hundred object categories using a tree structure. Our model incorporates global image features, dependencies between object categories, and outputs of local detectors into one probabilistic framework. We demonstrate that our context model improves object recognition performance and provides a coherent interpretation of a scene, which enables a reliable image querying system by multiple object categories. In addition, our model can be applied to scene understanding tasks that local detectors alone cannot solve, such as detecting objects out of context or querying for the most typical and the least typical scenes in a data set.  相似文献   

15.
针对卷积神经网络(CNN)平等地对待输入图像中潜在的对象信息和背景信息,而遥感图像场景又存在许多小对象和背景复杂的问题,提出一种基于注意力机制和多尺度特征变换的尺度注意力网络模型。首先,开发一个快速有效的注意力模块,基于最优特征选择生成注意力图;然后,在ResNet50网络结构的基础上嵌入注意力图,增加多尺度特征融合层,并重新设计全连接层,构成尺度注意力网络;其次,利用预训练模型初始化尺度注意力网络,并使用训练集对模型进行微调;最后,利用微调后的尺度注意力网络对测试集进行分类预测。该方法在实验数据集AID上的分类准确率达到95.72%,与ArcNet方法相比分类准确率提高了2.62个百分点;在实验数据集NWPU-RESISC上分类准确率达到92.25%,与IORN方法相比分类准确率提高了0.95个百分点。实验结果表明,所提方法能够有效提高遥感图像场景分类准确率。  相似文献   

16.
目的 本征图像分解是计算视觉和图形学领域的一个基本问题,旨在将图像中场景的纹理和光照成分分离开来。基于深度学习的本征图像分解方法受限于现有的数据集,存在分解结果过度平滑、在真实数据泛化能力较差等问题。方法 首先设计基于图卷积的模块,显式地考虑图像中的非局部信息。同时,为了使训练的网络可以处理更复杂的光照情况,渲染了高质量的合成数据集。此外,引入了一个基于神经网络的反照率图像优化模块,提升获得的反照率图像的局部平滑性。结果 将不同方法在所提的数据集上训练,相比之前合成数据集CGIntrinsics进行训练的结果,在IIW (intrinsic images in the wild)测试数据集的平均WHDR (weighted human disagreement rate)降低了7.29%,在SAW (shading annotations in the wild)测试集的AP (average precision)指标上提升了2.74%。同时,所提出的基于图卷积的神经网络,在IIW、SAW数据集上均取得了较好的结果,在视觉结果上显著优于此前的方法。此外,利用本文算法得到的本征结果,在重光照、纹理编辑和光照编辑等图像编辑任务上,取得了更优的结果。结论 所提出的数据集质量更高,有利于基于神经网络的本征分解模型的训练。同时,提出的本征分解模型由于显式地结合了非局部先验,得到了更优的本征分解结果,并通过一系列应用任务进一步验证了结果。  相似文献   

17.
We present an integrated, fully GPU‐based processing pipeline to interactively render new views of arbitrary scenes from calibrated but otherwise unstructured input views. In a two‐step procedure, our method first generates for each input view a dense proxy of the scene using a new multi‐view stereo formulation. Each scene proxy consists of a structured cloud of feature aware particles which automatically have their image space footprints aligned to depth discontinuities of the scene geometry and hence effectively handle sharp object boundaries and occlusions. We propose a particle optimization routine combined with a special parameterization of the view space that enables an efficient proxy generation as well as robust and intuitive filter operators for noise and outlier removal. Moreover, our generic proxy generation allows us to flexibly handle scene complexities ranging from small objects up to complete outdoor scenes. The second phase of the algorithm combines these particle clouds in real‐time into a view‐dependent proxy for the desired output view and performs a pixel‐accurate accumulation of the colour contributions from each available input view. This makes it possible to reconstruct even fine‐scale view‐dependent illumination effects. We demonstrate how all these processing stages of the pipeline can be implemented entirely on the GPU with memory efficient, scalable data structures for maximum performance. This allows us to generate new output renderings of high visual quality from input images in real‐time.  相似文献   

18.
This paper proposes a new approach for multi-object 3D scene modeling. Scenes with multiple objects are characterized by object occlusions under several views, complex illumination conditions due to multiple reflections and shadows, as well as a variety of object shapes and surface properties. These factors raise huge challenges when attempting to model real 3D multi-object scene by using existing approaches which are designed mainly for single object modeling. The proposed method relies on the initialization provided by a rough 3D model of the scene estimated from the given set of multi-view images. The contributions described in this paper consists of two new methods for identifying and correcting errors in the reconstructed 3D scene. The first approach corrects the location of 3D patches from the scene after detecting the disparity between pairs of their projections into images. The second approach is called shape-from-contours and identifies discrepancies between projections of 3D objects and their corresponding contours, segmented from images. Both unsupervised and supervised segmentations are used to define the contours of objects.  相似文献   

19.
针对传统同时定位与地图构建(simultaneous localization and mapping,SLAM)框架面临动态场景时产生明显定位误差,建立的场景稠密地图会包含动态对象及其运动叠影,从而导致定位与建图鲁棒性不足的问题,面向以人类为主要动态对象的室内动态场景,从“温度”的角度出发,提出基于热像仪与深度相机结合的多传感SLAM协同方案,解决室内动态场景中的定位与建图难题。首先,建立一套针对热像仪与深度相机的联合标定策略,重新设计标定板与标定方案,完成相机的内参标定、外参标定与图像配准,得到一一对应的RGB、深度、热(RDH)三模图像;其次,由热图像得到人体掩模图像,进而在ORB-SLAM2系统框架下构建静态特征提取与数据关联策略,实现基于三模图像的视觉里程计;然后,基于人体掩模图像更新深度图像,滤除人体区域,进而完成基于三模图像的静态环境稠密地图构建;最后,在室内动态场景下进行实验验证,结果表明所提出算法在室内动态场景下可有效剔除动态对象的干扰特征,相对传统SLAM算法具有明显优势。  相似文献   

20.
为解决夜间低照度条件下目标检测准确率偏低的问题,提出一种基于循环生成对抗网络的高照度可见光图像生成方法。为提高生成器提取特征的能力,在转换器模块引入CBAM注意力模块;为避免在生成图像中产生伪影的噪声干扰,把生成器解码器的反卷积方式改为最近邻插值加卷积层的上采样方式;为了提高网络训练的稳定性,把对抗损失函数由交叉熵函数换为最小二乘函数。生成的可见光图像与红外图像、夜间可见光图像相比,在光谱信息、细节信息丰富和可视性方面取得好的优势提升,能够有效地获取目标和场景的信息。分别通过图像生成指标和目标检测指标验证该方法的有效性,其中对生成可见光图像测试得到的mAP较红外图像和真实可见光图像分别提高了11.7个百分点和30.2个百分点,可以有效提高对夜间目标的检测准确率和抗干扰能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号