首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
图像的文本化描述解决图像理解的高级语义问题。由于存在语义鸿沟,导致自动生成的文本与图像内容有较大差异,浅层神经网络构建的语言模型很难生成通顺的语句。为此,提出图像语义相似性神经网络,在递归神经网络的输出层之后添加全连接网络,引入图像间的视觉相似性和文本相似性信息,从而在预测图像的文本描述时保持相似图像的有效语义信息。增加栈式隐层和普通隐层的深度来提高语言模型的学习能力,最终得到接近自然语言的文本。实验结果表明,该方法在BLEU、ROUGE、METEOR和CIDEr等评价指标上均取得较好的效果,能够生成符合图像内容的高质量文本描述。  相似文献   

2.
在数据集不包含标签文本信息时,现有的显式交互分类模型无法显式计算文本单词和标签之间的语义关系.针对此问题,文中提出标签指导的双注意力深度神经网络模型.首先,提出基于逆标签频次的自动类别标签描述生成方法,为每个标签生成特定的标签描述,用于显式计算文本单词与标签之间的语义关系.在此基础上,使用文本编码器学习具有上下文语境信息的评论文本表示,并提出标签指导的双注意力网络,分别学习基于自注意力的文本表示和基于标签注意力的文本表示.然后,使用自适应门控机制融合这两个文本表示,得到文本最终表示.最后,使用两层前馈神经网络作为分类器,进行情感分类.在3个公开的真实数据集上的实验表明,文中模型分类效果较优,可减少计算代价和训练时长.  相似文献   

3.
针对现有基于视觉注意力和基于文本注意力的图像描述自动生成模型无法同时兼顾描述图像细节和整体图像的问题,提出了一种基于演化深度学习的图像描述生成模型(evolutionary deep learning model for image captioning, EDLMIC),该模型是一种包含图像编码器、演化神经网络和自适应融合解码器三个子模块的图像描述自动生成模型,能够有效地融合视觉信息和文本信息,自动计算这两种信息在每个时间步所占的比例,从而基于融合的视觉文本信息更好地生成给定图像的相关描述。在Flickr30K和COCO2014两个公开数据集的实验结果表明,EDLMIC模型在METEOR、ROUGE-L、CIDEr和SPICE四个指标均优于其他基线模型,并且在多种不同的生活场景中具有较好的性能。  相似文献   

4.
基于神经网络的风格迁移成为近年来学术界和工业界的热点研究问题之一.现有的方法可以将不同风格作用在给定的内容图像上生成风格化图像,并且在视觉效果和转换效率上有了较大提升,而侧重学习图像底层特征容易导致风格化图像丢失内容图像的语义信息.据此提出了使风格化图像与内容图像的显著区域保持一致的改进方案.通过加入显著性检测网络生成...  相似文献   

5.
随着生成式对抗网络的出现,从文本描述合成图像最近成为一个活跃的研究领域.然而,目前文本描述往往使用英文,生成的对象也大多是人脸和花鸟等,专门针对中文和中国画的研究较少.同时,文本生成图像任务往往需要大量标注好的图像文本对,制作数据集的代价昂贵.随着多模态预训练的出现与推进,使得能够以一种优化的方式来指导生成对抗网络的生成过程,大大减少了对数据集和计算资源的需求.提出一种多域VQGAN模型来同时生成多种域的中国画,并利用多模态预训练模型WenLan来计算生成图像和文本描述之间的距离损失,通过优化输入多域VQGAN的隐空间变量来达到图片与文本语义一致的效果.对模型进行了消融实验,详细比较了不同结构的多域VQGAN的FID及R-precisoin指标,并进行了用户调查研究.结果表示,使用完整的多域VQGAN模型在图像质量和文本图像语义一致性上均超过原VQGAN模型的生成结果.  相似文献   

6.
文本到图像生成方法采用自然语言与图像集特征的映射方式,根据自然语言描述生成相应图像,利用语言属性智能地实现视觉图像的通用性表达.基于卷积神经网络的深度学习技术是当前文本到图像生成的主流方法,为系统地了解该领域的研究现状和发展趋势,按照模型构建及技术实现形式的不同,将已有的技术方法分为直接图像法、分层体系结构法、注意力机...  相似文献   

7.
陈莉明  田茂  颜佳 《计算机应用研究》2021,38(11):3500-3505
跨年龄人脸识别因其在现实生活中的广泛应用而成为人脸识别领域的热门话题.针对跨年龄人脸识别精度较低的问题,引入解纠缠表示学习,提出了一个基于生成对抗网络的解纠缠表示学习(IPDRL)网络来实现人脸图像的识别.该网络由编码器、生成器和鉴别器构成.编码器在对特征中的年龄变化进行解纠缠的同时,对人脸图像的身份信息进行编码,提取只利于身份鉴别的特征,实现身份特征和年龄特征的解纠缠;生成器根据输入的年龄特征生成对应的身份保持的年龄图像;鉴别器通过对抗学习和多任务学习实现年龄和身份的类分布预测.通过将解纠缠表示学习、对抗学习和多任务学习相结合的方法,很好地保留了人脸图像的身份信息,并使跨年龄人脸图像识别的精度得到了提高.  相似文献   

8.
文本生成图像算法对生成图像的质量和文本匹配度有很高的要求. 为了提高生成图像的清晰度, 在现有算法的基础上改进生成对抗网络模型. 加入动态记忆网络、细节校正模块(DCM)、文本图像仿射组合模块(ACM)来提高生成图片的质量. 其中动态记忆网络可以细化模糊图像并选择重要的文本信息存储, 以提高下一阶段生成图像的质量. DCM纠正细节, 完成合成图像中缺失部分. ACM编码原始图像特征, 重建与文本描述无关的部分. 改进后的模型实现了两个目标, 一是根据给定文本生成高质量的图片, 同时保留与文本无关的内容. 二是使生成图像不再较大程度依赖于初始图像的生成质量. 通过在CUB-200-2011鸟类数据集进行研究实验, 结果表明相较之前的算法模型, FID (Frechet inception)有了显著的改善, 结果由16.09变为10.40. 证明了算法的可行性和先进性.  相似文献   

9.
针对民族服装图像属性信息复杂、类间相似度高且语义属性与视觉信息关联性低,导致图像描述生成结果不准确的问题,提出民族服装图像描述生成的局部属性注意网络.首先构建包含55个类别、30 000幅图像,约3 600 MB的民族服装图像描述生成数据集;然后定义民族服装208种局部关键属性词汇和30 089条文本信息,通过局部属性学习模块进行视觉特征提取和文本信息嵌入,并采用多实例学习得到局部属性;最后基于双层长短期记忆网络定义包含语义、视觉、门控注意力的注意力感知模块,将局部属性、基于属性的视觉特征和文本编码信息进行融合,优化得到民族服装图像描述生成结果.在构建的民族服装描述生成数据集上的实验结果表明,所提出的网络能够生成包含民族类别、服装风格等关键属性的图像描述,较已有方法在精确性指标BLEU和语义丰富程度指标CIDEr上分别提升1.4%和2.2%.  相似文献   

10.
基于Transformer架构的图像描述生成方法通常学习从图像空间到文本空间的确定性映射,以提高预测“平均”描述语句的性能,从而导致模型倾向于生成常见的单词和重复的短语,即所谓的模式坍塌问题。为此,将条件变分自编码与基于Transformer的图像描述生成相结合,利用条件似然的变分证据下界分别构建了句子级和单词级的多样化图像描述生成模型,通过引入全局与序列隐嵌入学习增强模型的隐表示能力。在MSCOCO基准数据集上的定量和定性实验结果表明,两种模型均具备图像到文本空间的一对多映射能力,相比于目前最新的方法COS-CVAE(diverse image captioning with context-object split latent spaces),在随机生成20个描述语句时,准确性指标CIDEr和多样性指标Div-2分别提升了1.3和33%,在随机生成100个描述语句的情况下,CIDEr和Div-2分别提升了11.4和14%,所提方法能够更好地拟合真实描述分布,在多样性和准确性之间取得了更好的平衡。  相似文献   

11.
邵健  赵师聪 《软件学报》2010,21(Z1):205-213
从图像伴随文本中选择合适动词去描述图像中人物动作对于理解图像语义具有重要意义.现有方法通常学习得到表示图像人物和运动与其标注名词-动词之间概率的生成模型,然后使用这一得到的生成模型对训练集以外图像中人物运动进行识别.但是,这一方法忽略了图像中高维异构特征之间固有存在的组效应.实际上,不同类型异构特征在图像语义理解过程中具有不同区别性,例如手臂特征对人挥手这一动作最具有区别性.为了识别图像中人物运动进而对其进行标注,提出了通过Group LASSO 从高维异构姿势特征中选择最具区别性特征,最终学习得到生成模型的方法.实验结果表明,该方法对姿态变化较大动作进行识别时取得了更好结果.  相似文献   

12.
为方便非专业用户修图,提出一种基于Transformer的图像编辑模型TMGAN,使用户可通过自然语言描述自动修改图像属性。TMGAN整体框架采用生成对抗网络,生成器采用Transformer编码器结构提取全局上下文信息,解决生成图像不够真实的问题;判别器包含基于Transformer的多尺度判别器和词级判别器两部分,给生成器细粒度的反馈,生成符合文本描述的目标图像且保留原始图像中与文本描述无关的内容。实验表明,此模型在CUB Bird数据集上,IS(inception score)、FID(Fréchet inception distance)以及MP(manipulation precision)度量指标分别达到了9.07、8.64和0.081。提出的TMGAN模型对比现有模型效果更好,生成图像既满足了给定文本的属性要求又具有高语义性。  相似文献   

13.
自动化实体描述生成有助于进一步提升知识图谱的应用价值,而流畅度高是实体描述文本的重要质量指标之一。该文提出使用知识库上多跳的事实来进行实体描述生成,从而贴近人工编撰的实体描述的行文风格,提升实体描述的流畅度。该文使用编码器—解码器框架,提出了一个端到端的神经网络模型,可以编码多跳的事实,并在解码器中使用关注机制对多跳事实进行表示。该文的实验结果表明,与基线模型相比,引入多跳事实后模型的BLEU-2和ROUGE-L等自动化指标分别提升约8.9个百分点和7.3个百分点。  相似文献   

14.
文本生成图像旨在根据自然语言描述生成逼真的图像,是一个涉及文本与图像的跨模态分析任务。鉴于生成对抗网络具有生成图像逼真、效率高等优势,已经成为文本生成图像任务的主流模型。然而,当前方法往往将文本特征分为单词级和句子级单独训练,文本信息利用不充分,容易导致生成的图像与文本不匹配的问题。针对该问题,提出了一种耦合单词级与句子级文本特征的图像对抗级联生成模型(Union-GAN),在每个图像生成阶段引入了文本图像联合感知模块(Union-Block),使用通道仿射变换和跨模态注意力相结合的方式,充分利用了文本的单词级语义与整体语义信息,促使生成的图像既符合文本语义描述又能够保持清晰结构。同时联合优化鉴别器,将空间注意力加入到对应的鉴别器中,使来自文本的监督信号促使生成器生成更加相关的图像。在CUB-200-2011数据集上将其与AttnGAN等多个当前的代表性模型进行了对比,实验结果表明,Union-GAN的FID分数达到了13.67,与AttnGAN相比,提高了42.9%,IS分数达到了4.52,提高了0.16。  相似文献   

15.
近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展.文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像.目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但这些方法在文本编码器中未考虑与对应图像的语义对齐问题,独立对输入文本进行编码...  相似文献   

16.
针对图像描述生成任务在不同场景下表现不佳的缺点,提出一种融合卷积神经网络和先验知识的多场景注意力图像描述生成算法。该算法通过卷积神经网络生成视觉语义单元,使用命名实体识别对图像场景进行识别和预测,并使用该结果自动调整自注意力机制的关键参数并进行多场景注意力计算,最后将得到的区域编码和语义先验知识插入Transformer文本生成器中指导句子的生成。结果表明,该算法有效解决了生成的描述缺少关键场景信息的问题。在MSCOCO和Flickr30k数据集上对模型进行评估,其中MSCOCO数据集的CIDEr得分达到1.210,优于同类图像描述生成模型。  相似文献   

17.
为解决传统长短时记忆(LSTM)神经网络存在过早饱和的问题,使得对给定的图片能够生成更准确的描述,提出一种基于反正切函数的长短时记忆(ITLSTM)神经网络模型。首先,利用经典的卷积神经网络模型提取图像特征;然后,利用ITLSTM神经网络模型来表征图像对应的描述;最后在Flickr8K数据集上评估模型的性能,并与几种经典的图像标题生成模型如Google NIC等进行比较,实验结果表明本文提出的模型能够有效地提高图像标题生成的准确性。  相似文献   

18.
探索生成对抗网络隐空间的语义信息是当前生成对抗网络图像可控生成方向的研究热点.目前的研究在探索隐空间的语义时往往每次只学习某一个属性对应的语义方向,而这种方式没有考虑不同语义方向之间可能发生纠缠的问题,因此在控制生成图像某一属性变化时会影响到其他属性.为了解决此类问题,提出了一种基于正交约束的多语义学习方法,该方法在同...  相似文献   

19.
图像风格化旨在通过风格化模型,将一幅图像在保持语义内容不变的同时从一种风格转换到另一种风格.鉴于深度神经网络强大的特征提取和表达能力,学者们先后提出各种基于深度神经网络的图像风格化方法.文中根据风格的定义方式,将基于深度神经网络的图像风格化方法划分为基于参考的图像风格化方法和基于域的图像风格化方法,并对相关文献进行归纳...  相似文献   

20.
近年来,深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中,图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系,本文基于图神经网络和引导向量构建了图像字幕生成模型(YOLOv4-GCN-GRU, YGG)。该模型利用图像中被检测到的对象的空间和语义信息建立成图,利用图卷积神经网络(Graph convolutional network, GCN)作为编码器对图的每个区域进行表示。在字幕生成阶段,额外训练一个引导神经网络来产生引导向量,从而辅助生成模型自动生成语句。基于MSCOCO图像数据集的对比实验表明,YGG模型具有更好的性能,将CIDEr-D的性能从138.9%提高到了142.1%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号