首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
场景图为描述图像内容的结构图(Graph),其在生成过程中存在两个问题:1)二步式场景图生成方法造成有益信息流失,使得任务难度提高;2)视觉关系长尾分布使得模型发生过拟合、关系推理错误率上升。针对这两个问题,文中提出结合多尺度特征图和环型关系推理的场景图生成模型SGiF(Scene Graph in Features)。首先,计算多尺度特征图上的每一特征点存在视觉关系的可能性,并将存在可能性高的特征点特征提取出来;然后,从被提取出的特征中解码得到主宾组合,根据解码结果的类别差异,对结果进行去重,以此得到场景图结构;最后,根据场景图结构检测包含目标关系边在内的环路,将环路上的其他边作为计算调整因子的输入,以该因子调整原关系推理结果,并最终完成场景图的生成。实验设置SGGen和PredCls作为验证项,在大型场景图生成数据集VG(Visual Genome)子集上的实验结果表明,通过使用多尺度特征图,相比二步式基线,SGiF的视觉关系检测命中率提升了7.1%,且通过使用环型关系推理,相比非环型关系推理基线,SGiF的关系推理命中率提升了2.18%,从而证明了SGiF的有效性。  相似文献   

2.
目的 目前文本到图像的生成模型仅在具有单个对象的图像数据集上表现良好,当一幅图像涉及多个对象和关系时,生成的图像就会变得混乱。已有的解决方案是将文本描述转换为更能表示图像中场景关系的场景图结构,然后利用场景图生成图像,但是现有的场景图到图像的生成模型最终生成的图像不够清晰,对象细节不足。为此,提出一种基于图注意力网络的场景图到图像的生成模型,生成更高质量的图像。方法 模型由提取场景图特征的图注意力网络、合成场景布局的对象布局网络、将场景布局转换为生成图像的级联细化网络以及提高生成图像质量的鉴别器网络组成。图注意力网络将得到的具有更强表达能力的输出对象特征向量传递给改进的对象布局网络,合成更接近真实标签的场景布局。同时,提出使用特征匹配的方式计算图像损失,使得最终生成图像与真实图像在语义上更加相似。结果 通过在包含多个对象的COCO-Stuff图像数据集中训练模型生成64×64像素的图像,本文模型可以生成包含多个对象和关系的复杂场景图像,且生成图像的Inception Score为7.8左右,与原有的场景图到图像生成模型相比提高了0.5。结论 本文提出的基于图注意力网络的场景图到图像生成模型不仅可以生成包含多个对象和关系的复杂场景图像,而且生成图像质量更高,细节更清晰。  相似文献   

3.
视频场景识别是机器学习和计算机视觉一个重要的研究领域.但是当前对于视频场景识别的探索工作还远远不够,而且目前提出的模型大都使用视频级的特征信息,忽略了多粒度的视频特征关联.本文提出了一种基于多粒度的视频特征的注意力机制的模型架构,可以动态高效的利用各维度视频信息之间存在的丰富的语义关联,提高识别准确度.本文在中国多媒体大会(CCF ChinaMM 2019)最新推出的VideoNet数据集上进行了实验,实验结果表明基于多粒度的视频特征的注意力机制的模型与传统方法相比具有明显的优越性.  相似文献   

4.
场景图生成(SGG)任务旨在检测图像中的视觉关系三元组,即主语、谓语、宾语,为场景理解提供结构视觉布局。然而,现有的场景图生成方法忽略了预测的谓词频率高但却无信息性的问题,从而阻碍了该领域进步。为了解决上述问题,提出一种基于增强语义信息理解的场景图生成算法。整个模型由特征提取模块、图像裁剪模块、语义转化模块、拓展信息谓词模块四部分组成。特征提取模块和图像裁剪模块负责提取视觉特征并使其具有全局性和多样性。语义转化模块负责将谓词之间的语义关系从常见的预测中恢复信息预测。拓展信息谓词模块负责扩展信息谓词的采样空间。在数据集VG和VG-MSDN上与其他方法进行比较,平均召回率分别达到59.5%和40.9%。该算法可改善预测出来的谓词信息性不足问题,进而提升场景图生成算法的性能。  相似文献   

5.
在分析场景和状态图的基础上,首先提出一种从单个场景自动生成状态图的算法。遍历场景中的事件,将场景中对象的发送事件作为对象状态的动作,接收事件作为对象状态的转换,为场景中的每个对象都生成状态图。然后根据场景间的关系定义一系列的规则,将状态图合并得到对象完整的状态图。实验结果表明,该方法能有效减少状态的数目,提高了状态图的可读性和可维护性。  相似文献   

6.
自然场景文本擦除技术可应用在图像通信中的隐私保护、图像编辑等领域,然而现阶段的场景文本擦除在面对背景复杂、文本尺度变化较大的场景图像时,难以提取鲁棒的文本特征,出现文本检测不全、背景修复不完整等问题.针对上述问题,文中提出基于多尺度注意力机制的场景文本擦除框架.该框架主要由背景修复网络和文本检测网络共同组成,它们共享一个主干网络.在背景修复网络中,设计纹理自适应模块,从原始特征的通道和空间两个维度进行特征编码,自适应地集成局部特征与全局特征,有效修复因重构文本区域而导致的阴影部分.在文本检测网络中,设计上下文感知模块,学习图像中文本区域和非文本区域之间的判别关系,有效区分文本区域和非文本区域,提升文本检测的效果.此外,为了增强网络的感受野,改进不同尺度文本的擦除效果,提出多尺度特征损失函数,同时优化背景修复网络和文本检测网络.SCUT-SYN、SCUT-EnsText数据集上的实验表明,文中框架可取得较优的文本擦除性能.  相似文献   

7.
针对在多对象且空间拓扑关系复杂的室外场景环境中相似地类区分难的问题,提出一种结合图模型与注意力机制模块的A-Edge-SPG(Attention-EdgeConv SuperPoint Graph)图神经网络。首先,利用图割和几何特征结合的方法对超点进行分割;其次,在超点内部构造局部邻接图,从而在捕获场景中点云的上下文信息的同时利用注意力机制模块凸显关键信息;最后,构建超点图(SPG)模型,并采用门控循环单元(GRU)聚合超点和超边特征,实现对不同地类点云间的精确分割。在Semantic3D数据集上对A-Edge-SPG模型和SPG-Net(SPG neural Network)模型的语义分割效果进行比较分析。实验结果表明,相较于SPG模型,A-Edge-SPG模型在总体分割精度(OA)、平均交并比(mIoU)和平均精度均值(mAA)上分别提升了1.8、5.1和2.8个百分点,并且在高植被、矮植被等相似地类的分割精度上取得了明显的提升,改善了相似地类间语义分割的效果。  相似文献   

8.
为在场景图生成网络中获得重要的上下文信息,同时减少数据集偏差对场景图生成性能的影响,构建一种基于外部知识库与适应性推理的场景图生成模型。利用结合外部知识库的目标检测模块引入语言先验知识,提高实体对关系类别检测的准确性。设计基于Transformer架构的上下文信息提取模块,采用两个Transformer编码层对候选框和实体对关系类别进行处理,并利用自注意力机制分阶段实现上下文信息合并,获取重要的全局上下文信息。构建特征特殊融合的适应性推理模块,通过软化分布并根据实体对的视觉外观进行适应性推理关系分类,缓解实体对关系频率的长尾分布问题,提升模型推理能力。在VG数据集上的实验结果表明,与MOTIFS模型相比,该模型在谓词分类、场景图分类和场景图生成子任务上的Top-100召回率分别提升了1.4、4.3、7.1个百分点,对于多数关系类别具有更好的场景图生成效果。  相似文献   

9.
10.
视频字幕在传递信息的同时,固化在视频中的字幕也阻碍了视频的重复利用。提出一种基于时空解耦Transformer的视频字幕去除算法,能够从带有字幕文本的视频序列中去除字幕文本,并重建出被字幕区域遮挡的背景图像。整体框架分为两个部分,字幕掩膜提取模块和字幕去除模块,前者快速精准地获得输入视频序列的二值字幕掩膜,将得到的二值字幕掩膜作为辅助信息,输入到基于时空解耦Transformer的字幕去除模块,进行字幕文本的去除和背景纹理的恢复,实现对整体视频字幕的去除。与现有的经典视频字幕去除方法相比,在峰值信噪比和结构相异性等图像质量指标以及视觉效果上,该方法均取得了更好的性能,实验结果验证了该方法在视频字幕去除领域的有效性。  相似文献   

11.
12.
纪野  戴亚平  廣田薰  邵帅 《控制与决策》2024,39(4):1305-1314
针对动态场景下的图像去模糊问题,提出一种对偶学习生成对抗网络(dual learning generative adversarial network, DLGAN),该网络可以在对偶学习的训练模式下使用非成对的模糊图像和清晰图像进行图像去模糊计算,不再要求训练图像集合必须由模糊图像与其对应的清晰图像成对组合而成. DLGAN利用去模糊任务与重模糊任务之间的对偶性建立反馈信号,并使用这个信号约束去模糊任务和重模糊任务从两个不同的方向互相学习和更新,直到收敛.实验结果表明,在结构相似度和可视化评估方面, DLGAN与9种使用成对数据集训练的图像去模糊方法相比具有更好的性能.  相似文献   

13.
目的 场景图能够简洁且结构化地描述图像。现有场景图生成方法重点关注图像的视觉特征,忽视了数据集中丰富的语义信息。同时,受到数据集长尾分布的影响,大多数方法不能很好地对出现概率较小的三元组进行推理,而是趋于得到高频三元组。另外,现有大多数方法都采用相同的网络结构来推理目标和关系类别,不具有针对性。为了解决上述问题,本文提出一种提取全局语义信息的场景图生成算法。方法 网络由语义编码、特征编码、目标推断以及关系推理等4个模块组成。语义编码模块从图像区域描述中提取语义信息并计算全局统计知识,融合得到鲁棒的全局语义信息来辅助不常见三元组的推理。目标编码模块提取图像的视觉特征。目标推断和关系推理模块采用不同的特征融合方法,分别利用门控图神经网络和门控循环单元进行特征学习。在此基础上,在全局统计知识的辅助下进行目标类别和关系类别推理。最后利用解析器构造场景图,进而结构化地描述图像。结果 在公开的视觉基因组数据集上与其他10种方法进行比较,分别实现关系分类、场景图元素分类和场景图生成这3个任务,在限制和不限制每对目标只有一种关系的条件下,平均召回率分别达到了44.2%和55.3%。在可视化实验中,相比...  相似文献   

14.
针对密集人群场景中背景复杂、目标尺度变化较大导致人群计数精度较低的问题,本文提出一种基于多尺度金字塔Transformer的人群计数方法 (multi-scale pyramid transformer network, MSPT-Net)。在特征提取阶段设计了一种基于深度可分离自注意力的金字塔Transformer主干网络结构,该网络结构能有效捕获图像的局部和全局信息,从而有效解决人群密度图像背景复杂导致计数精度低的问题;设计了一种特征金字塔融合模块及多尺度感受野的回归头,实现了密集人群图像浅层细节特征和深层语义特征的高效融合,增强了网络对不同尺度目标的捕获能力;采用深度监督的训练方法在3个公开数据集上对提出的方法进行验证。实验结果表明,本文方法在全监督与弱监督学习策略中,与目前主流的人群计数方法相比,实现了更高精度的人群计数,克服了主流方法对背景复杂、目标尺度变化大的密集人群图像计数精度低的问题,同时本文方法保持着更小的参数量与计算量。  相似文献   

15.
王昊冉  白亮  老松杨 《计算机科学》2011,38(6):266-269,297
视频低层特征和高层语义之间存在的“语义鸿沟”是视频分析与检索应用研究的一个技术瓶颈问题。通过深入分析,提出了足球视频语义内容的时空关联特性,尝试引入图模型方法来建模这种语义关联,提出了视频语义图(VSU)的语义建模方法和基于DFS的视频语义图匹配算法,并分析了算法的复杂性。实验结果显示,该方法能够有效解决视频语义内容建模和分析匹配问题。  相似文献   

16.
针对基于单图像城市场景中不规则平面3D重建的难题,本文提出了一种基于多尺度聚焦网络的场景3D平面重建算法.该算法以单幅RGB图像为输入,通过单网络、双任务的学习策略,同时输出平面的分割映射以及深度信息.为了根据上下文来自适应的更改有效感受野大小以获取多尺度信息,本文还提出了一种将条状注意力机制嵌入到空洞空间金字塔池化模块的多尺度聚焦模块,使之能够关注城市场景中的条状平面.本文网络模型在SYNTHIA城市场景数据集上进行了训练,在测试集中取得了81.5%SC和4.22%Abs Rel的表现.本文算法相对于现有算法更可靠、重建模型更完整.  相似文献   

17.
This paper simply introduces multi-scale analysis and target-tracking theory, presents a better solution for Px(t), with theoretical proof of the solution's correctness. Based on multi-scale analytical idea, combing the dynamic system analysis of movement model with wavelet transform method, this paper puts forward a multi-scale self-adap-tive fusion tracking algorithm,and gives the concrete implementing steps of this algorithm, with simulation experi-ment. In the simulation experiment, makes a comparison between the algorithm and the traditional single-scale track-ing method. And the theoretical proof and the experiment results prove the algorithm to be both feasible and effec-tive. This algorithm adjusts tracking scale automatically according the state of model target. And it also can use de-tective data effectively and more accurately portray the variation of track. It avoids the disadvantages of single scaleand realizes the tracking towards dynamic model. Comparing with the traditional single tracking method, this algo-rithm more fits the needs of target tracking and has practical value.  相似文献   

18.
针对现有视频彩色化方法难以同时保证着色质量和时间一致性的问题,提出一种结合注意力机制和多尺度特征融合的视频彩色化方法AMVC-GAN。首先,提出以GAN为主体的视频彩色化网络模型,通过在GAN的生成器中设计以循环时间网络为主体的多尺度特征融合模块,来获取不同时间频率的信息;其次,为了有效地考虑相邻帧之间的关系,将不同时间频率提取的特征进行融合,加强帧与帧之间的联系,以此增强彩色化的时间一致性;最后,为了获取更多的有效信息,在主网络的上采样部分引入了注意力模块,并通过使用PatchGAN来对结果进行优化训练,以增强最终的着色效果。在DAVIS和VIDEVO数据集上与先进的全自动视频彩色化方法进行对比实验。结果表明,AMVC-GAN在多项指标上排名第一,具有更好的时间一致性和着色效果。相比于其他方法,AMVC-GAN能够有效地减少时间闪烁,同时保证着色效果更为真实、自然。  相似文献   

19.
朱旭东  熊贇 《计算机工程》2022,48(4):173-178+190
图像多标签分类作为计算机视觉领域的重要研究方向,在图像识别、检测等场景下得到广泛应用。现有图像多标签分类方法无法有效利用标签相关性信息以及标签语义与图像特征的对应关系,导致分类能力较差。提出一种图像多标签分类的新算法,通过利用标签共现信息和标签先验知识构建图模型,使用多尺度注意力学习图像特征中目标,并利用标签引导注意力融合标签语义特征和图像特征信息,从而将标签相关性和标签语义信息融入到模型学习中。在此基础上,基于图注意力机制构建动态图模型,并对标签信息图模型进行动态更新学习,以充分融合图像信息和标签信息。在图像多标签分类任务上的实验结果表明,相比于现有最优算法MLGCN,该算法在VOC-2007数据集及COCO-2012数据集上的mAP值分别提高了0.6、1.2个百分点,性能有明显提升。  相似文献   

20.
针对图像描述方法中对图像文本信息的遗忘及利用不充分问题,提出了基于场景图感知的跨模态交互网络(SGC-Net)。首先,使用场景图作为图像的视觉特征并使用图卷积网络(GCN)进行特征融合,从而使图像的视觉特征和文本特征位于同一特征空间;其次,保存模型生成的文本序列,并添加对应的位置信息作为图像的文本特征,以解决单层长短期记忆(LSTM)网络导致的文本特征丢失的问题;最后,使用自注意力机制提取出重要的图像信息和文本信息后并对它们进行融合,以解决对图像信息过分依赖以及对文本信息利用不足的问题。在Flickr30K和MSCOCO (MicroSoft Common Objects in COntext)数据集上进行实验的结果表明,与Sub-GC相比,SGC-Net在BLEU1(BiLingualEvaluationUnderstudywith1-gram)、BLEU4 (BiLingualEvaluationUnderstudywith4-grams)、METEOR(Metric for Evaluation of Translation with Explicit ORdering)、ROU...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号