首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
文本生成图像是指将语句形式的文本描述翻译成与文本具有相似语义的图像。在早期研究中,图像生成任务主要基于关键字或语句的检索来实现与文本匹配的视觉内容的对齐。随着生成对抗网络的出现,文本生成图像的方法在视觉真实感、多样性和语义相似性方面取得了重大进展。生成对抗网络通过生成器和鉴别器之间的对抗来生成合理且真实的图像,并在图像修复和超分辨率生成等领域显示出良好的能力。在回顾并总结文本生成图像领域最新研究成果的基础上,文中提出了一种新的分类方法,即注意力增强、多阶段增强、场景布局增强和普适性增强,并讨论了文本生成图像面临的挑战和未来的发展方向。  相似文献   

2.
针对自然场景图像,本文提出一种融合空间上下文的场景语义建模和分类方法.针对场景中的局部语义对象,建立了基于贝叶斯网络的语义上下文模型.通过对已标注训练样本集的学习训练,获得局部语义对象在各类场景下的上下文模型.对于待分类的图像,首先利用支持向量机实现分割区域的分类,根据学习得到的语义上下文模型,提取图像中各语义对象的空间上下文信息,形成图像的语义上下文描述,实现场景分类.针对不同场景下的局部语义对象,利用贝叶斯网络自动学习得到不同的空间关系集合用于上下文信息提取,使得场景描述和分类过程更智能和有效.通过在六类自然场景图像数据集上的实验表明,本文所提算法能够很好的利用上下文信息,并取得满意的分类结果.  相似文献   

3.
生成对抗网络(Generative adversarial network, GAN)由生成模型和判别模型构成,生成模型获取真实数据的概率分布,判别模型判断输入是真实数据还是生成器生成的数据,二者通过相互对抗训练,最终使生成模型学习到真实数据的分布,使判别模型无法准确判断输入数据的来源。生成对抗网络为视觉分类任务的算法性能的提升开辟了新的思路,自诞生之日起至今已经在各个领域产生了大量变体。本文的主要内容包括:生成对抗网络的研究现状、应用场景和基本模型架构,并列举了生成对抗网络本身所存在的弊端;从网络架构、损失函数和训练方式这三方面对生成对抗网络的各种主要典型发展进行归纳;详细总结和分析了生成对抗网络在人脸图像生成和编辑、风格迁移、图像超分辨率、图像修复,序列数据生成、视频生成等各个应用领域的算法以及对应算法的优缺点;介绍了生成对抗网络的常用评价指标并且分析了这些指标的适用场景和不足之处;最后从多个方面对生成对抗网络所面临的挑战进行了讨论,并指出了对其可能的改进方向。  相似文献   

4.
现有的基于分割的场景文本检测方法仍较难区分相邻文本区域,同时网络得到分割图后后处理阶段步骤复杂导致模型检测效率较低.为了解决此问题,该文提出一种新颖的基于全卷积网络的场景文本检测模型.首先,该文构造特征提取器对输入图像提取多尺度特征图.其次,使用双向特征融合模块融合两个平行分支特征的语义信息并促进两个分支共同优化.之后...  相似文献   

5.
场景图生成是计算机视觉领域中的热点研究方向,可连接上、下游视觉任务。场景图由形式为<主语-谓语-宾语>的三元组组成,模型需要对整幅图像的全局视觉信息进行编码,从而辅助场景理解。但目前模型在处理一对多、多对一和对称性等特殊的视觉关系时仍存在问题。基于知识图谱与场景图的相似性,我们将知识图谱中的转换嵌入模型迁移至场景图生成领域。为了更好地对此类视觉关系进行编码,本文提出了一种基于多模态特征转换嵌入的场景图生成框架,可对提取的视觉和语言等多模态特征进行重映射,最后使用重映射的特征进行谓语类别预测,从而在不明显增加模型复杂度的前提下构建更好的关系表示。该框架囊括并补充了现存的几乎所有转换嵌入模型的场景图实现,将四种转换嵌入模型(TransE、TransH、TransR、TransD)分别应用于场景图生成任务,同时详细阐述了不同的视觉关系类型适用的模型种类。本文所提框架扩展了传统应用方式,除独立模型之外,本文设计了新的应用方式,即作为即插即用的子模块插入到其他网络模型。本文利用大规模语义理解的视觉基因组数据集进行实验,实验结果充分验证了所提框架的有效性,同时,得到的更丰富的类别预测结...  相似文献   

6.
面向自然场景分类的贝叶斯网络局部语义建模方法   总被引:3,自引:0,他引:3  
本文提出了一种基于贝叶斯网络的局部语义建模方法.网络结构涵盖了区域邻域的方向特性和区域语义之间的邻接关系.基于这种局部语义模型,建立了场景图像的语义表述,实现自然场景分类.通过对已标注集的图像样本集的学习训练,获得贝叶斯刚络的参数.对于待分类的图像,利用该模型融合区域的特征及其邻接区域的信息,推理得到区域的语义概率;并通过网络迭代收敛得到整幅图像的区域语义标记和语义概率;最后在此基础上形成图像的全局描述,实现场景分类.该方法利用了场景内部对象之间的上下文关系,弥补了仅利用底层特征进行局部语义建模的不足.通过在六类自然场景图像数据集上的实验表明,本文所提的局部语义建模和图像描述方法是有效的.  相似文献   

7.
现有的基于分割的场景文本检测方法仍较难区分相邻文本区域,同时网络得到分割图后后处理阶段步骤复杂导致模型检测效率较低.为了解决此问题,该文提出一种新颖的基于全卷积网络的场景文本检测模型.首先,该文构造特征提取器对输入图像提取多尺度特征图.其次,使用双向特征融合模块融合两个平行分支特征的语义信息并促进两个分支共同优化.之后,该文通过并行地预测缩小的文本区域图和完整的文本区域图来有效地区分相邻文本.其中前者可以保证不同的文本实例之间具有区分性,而后者能有效地指导网络优化.最后,为了提升文本检测的速度,该文提出一个快速且有效的后处理算法来生成文本边界框.实验结果表明:在相关数据集上,该文所提出的方法均实现了最好的效果,且比目前最好的方法在F-measure指标上最多提升了1.0%,并且可以实现将近实时的速度,充分证明了该方法的有效性和高效性.  相似文献   

8.
张健  张建奇  邵晓鹏 《红外技术》2005,27(2):124-128
描述了利用Vega Prime生成红外场景的方法,针对该方法在成像制导仿真系统应用中出现的问题进行了讨论。介绍了地形场景模型的建立方法;分析了制导仿真图像生成、仿真数据流程等方面存在的问题,并提出了解决方法。最后,就该技术在红外成像制导系统仿真中的应用进行了讨论,并给出了仿真结果。  相似文献   

9.
本文研究了利用自然语言文本描述对图像进行编辑的多模态问题。本文的目标是,输入一张原始图像以及一句自然语言文本描述,输出一张经过编辑的图像,并且图像在满足给定自然语言文本描述的同时,保留与文本描述无关的其他细节。在本文中,整体网络采用生成对抗网络结构。在生成器部分,通过引入重构损失,实现模型对于文本描述无关图像区域的保持。通过引入文本图像相关度损失,以一种半监督的方式,对生成器的训练进行指导,从而实现更精细化的利用文本描述对图像进行编辑。在判别器部分,结合判别损失以及条件判别损失,指导生成器生成更具真实效果以及符合自然语言文本描述的图像。通过生成器和判别器的对抗训练,最终实现利用自然语言文本描述实现精准编辑图像。  相似文献   

10.
提出一种基于双目立体视觉的场景分割方法:首先根据双目立体视觉系统提供的左右视图进行三维场景重构,得到场景的几何深度图,同时利用左视图进行RGB颜色空间到CIELab均匀颜色空间的转换以得到颜色信息;然后将颜色与几何信息构造生成六维向量;最后再将六维向量给到聚类算法中进行分割并对分割的伪影进行消除,得到最终的分割结果.对Middlebury数据集样本场景baby 2实验了6种立体视觉算法和3种聚类技术的不同组合进行的场景分割,从实验结果来看,不同的组合应用所提方法都比传统方法具有更好的分割效果.  相似文献   

11.
红外图像仿真在红外导引头设计、仿真训练中起到十分关键的作用。针对如何生成高分辨率、视觉特征可控的红外图像,提出了一种基于渐进式生成对抗网络的红外图像仿真方法。本文利用舰船模型的红外图像数据集训练了图像合成网络,输入随机特征向量,输出高分辨率的红外仿真图像;设计了图像编码网络,实现红外图像到特征向量的转换;利用Logistic回归方法,在特征向量域找到了控制红外图像角度特征的方向向量,并据此生成了不同角度的舰船模型仿真图像;最后通过均值哈希算法和平均结构相似性算法来定量评价仿真图像和真实图像的差异,实验结果表明仿真的红外图像和真实图像的相似度很高,可以为真实舰船的可控化红外图像仿真提供参考。  相似文献   

12.
场景识别是计算机视觉研究中的一项基本任务.与图像分类不同,场景识别需要综合考虑场景的背景信息、局部场景特征以及物体特征等因素,导致经典卷积神经网络在场景识别上性能欠佳.为解决此问题,文中提出了一种基于深度卷积特征的场景全局与局部表示方法.此方法对场景图片的卷积特征进行变换从而为每张图片生成一个综合的特征表示.使用CAM...  相似文献   

13.
The bag of visual words (BOW) model is an efficient image representation technique for image categorization and annotation tasks. Building good visual vocabularies, from automatically extracted image feature vectors, produces discriminative visual words, which can improve the accuracy of image categorization tasks. Most approaches that use the BOW model in categorizing images ignore useful information that can be obtained from image classes to build visual vocabularies. Moreover, most BOW models use intensity features extracted from local regions and disregard colour information, which is an important characteristic of any natural scene image. In this paper, we show that integrating visual vocabularies generated from each image category improves the BOW image representation and improves accuracy in natural scene image classification. We use a keypoint density-based weighting method to combine the BOW representation with image colour information on a spatial pyramid layout. In addition, we show that visual vocabularies generated from training images of one scene image dataset can plausibly represent another scene image dataset on the same domain. This helps in reducing time and effort needed to build new visual vocabularies. The proposed approach is evaluated over three well-known scene classification datasets with 6, 8 and 15 scene categories, respectively, using 10-fold cross-validation. The experimental results, using support vector machines with histogram intersection kernel, show that the proposed approach outperforms baseline methods such as Gist features, rgbSIFT features and different configurations of the BOW model.  相似文献   

14.
针对场景文本识别在长距离建模时容易产生信息丢失和对低分辨率文本图像表征能力较弱的问题,提出了一种基于多模态迭代及修正的文本识别算法。本文算法的视觉模型(vision model)是由CoTNet(contextual transformer networks for visual recognition)、动态卷积注意力模块(dynamic convolution attention module,DCAM)、EA-Encoder(external attention encoder)和位置注意力机制组合而成的。其中CoTNet可以有效起到缓解长距离建模产生的信息丢失问题;DCAM在增强表征能力、专注于重要特征的同时,将重要的特征传给EA-Encoder,进而提高CoTNet和EA-Encoder之间的联系;EA-Encoder可以学习整个数据集上最优区分度的特征,捕获最有语义信息的部分,进而增强表征能力。经过视觉模型后,再经过文本修正模块(text correction model)和融合模块(fusion model)得到最终的识别结果。实验数据显示,本文所提出的算法在多个公共场景文本数据集上表现良好,尤其是在不规则数据集ICDAR2015上准确率高达85.9%。  相似文献   

15.
AMethodfor3DSceneDescriptionandSegmentationinanObjectRecord¥ChenTingbiao(DepartmentofRadioEngineering,NamingUniversityofPosts...  相似文献   

16.
易星  潘昊  赵怀慈  杨斌 《红外》2023,44(6):19-26
针对当前可见光-红外图像数据集匮乏导致的模型特征学习能力不够以及生成图像质量低下等问题,提出了单样本的无监督学习方法来训练红外图像生成模型。首先,在数据集难以获取、匮乏的情况下,仅采用一对可见光-红外图像作为模型训练的数据,降低了数据获取的难度,解决了数据匮乏的问题。其次,为了在训练模型时充分提取图像特征,改进了网络结构。实验数据表明,本文方法能够在单样本图像生成中取得较好的效果。在艾睿光电数据集中,本文方法的峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)与结构相似性(Structural Similarity, SSIM)指标分别达到了26.5588 dB和0.8846;在俄亥俄州立大学(Ohio State University, OSU)数据集上的PSNR和SSIM分别达到了30.3528 dB和0.9182。与基于风格的生成对抗网络(Style-based Generative Adversarial Network, StyleGAN)方法相比,本文方法在艾睿光电数据集上的PSNR和SSIM指标分别提高了16.07%和23.78%;在OSU数据...  相似文献   

17.
提出一种基于卷积神经网络中残差网络的遥感图像场景分类方法.本文方法在原网络模型中嵌入了跳跃连接和协方差池化两个模块,用于连接多分辨率特征映射和融合不同层次的多分辨率特征信息,并在3个公开的经典遥感数据集上进行了实验.结果证明,本文方法不仅可以将残差网络中不同层次的多分辨率特征信息融合在一起,还可以利用高阶信息来实现更具...  相似文献   

18.
高分辨率遥感影像中地物目标往往与所处场景类别息息相关,如能充分利用场景对地物目标的约束信息,有望进一步提升目标检测性能。考虑到场景信息和地物目标之间的关联关系,提出全局关系注意力(RGA)引导场景约束的高分辨率遥感影像目标检测方法。首先在多尺度特征融合检测器的基础网络之后,加入全局关系注意力学习全局场景特征;然后以学到的全局场景特征作为约束,结合方向响应卷积模块和多尺度特征模块进行目标预测;最后利用两个损失函数联合优化网络实现目标检测。在NWPU VHR-10数据集上进行了4组实验,在场景信息约束的条件下取得了更好的目标检测性能。  相似文献   

19.
Conventional face image generation using generative adversarial networks (GAN) is limited by the quality of generated images since generator and discriminator use the same backpropagation network. In this paper, we discuss algorithms that can improve the quality of generated images, that is, high-quality face image generation. In order to achieve stability of network, we replace MLP with convolutional neural network (CNN) and remove pooling layers. We conduct comprehensive experiments on LFW, CelebA datasets and experimental results show the effectiveness of our proposed method.  相似文献   

20.
自然场景文本检测是图像内容分析和理解的重要前提.本文提出一种基于自适应色彩聚类和上下文信息分析的方法,用于检测自然场景图像文本.首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符.该自适应色彩聚类方法能针对不同图像自动学习权重阈值,有较好的字符召回率.然后,利用文本中字符成行出现的性质,设计一种基于上下文信息的字符验证策略,既能保证较高字符召回率,也能有效移除非文本字符.最后,合并字符构建文本行,并通过后处理得到文本检测结果.在ICDAR2013公共数据集上的实验结果表明:本文分别获得74.17%的召回率,83.40%的准确率和78.52%的F得分.与其他文本检测方法相比,本文获得了较好的文本检测性能,说明本文方法的优越性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号