首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
由目标检测算法提取的目标特征在图像描述生成任务中发挥重要作用,但仅使用对图像进行目标检测的特征作为图像描述任务的输入会导致除关键目标信息以外的其余信息获取缺失,且生成的文本描述对图像内目标之间的关系缺乏准确表达。针对上述不足,提出用于编码图像内目标特征的目标Transformer编码器,以及用于编码图像内关系特征的转换窗口Transformer编码器,从不同角度对图像内不同方面的信息进行联合编码。通过拼接方法将目标Transformer编码的目标特征与转换窗口Transformer编码的关系特征相融合,达到图像内部关系特征和局部目标特征融合的目的,最终使用Transformer解码器将融合后的编码特征解码生成对应的图像描述。在MS-COCO数据集上进行实验,结果表明,所构建模型性能明显优于基线模型,BLEU-4、METEOR、ROUGE-L、CIDEr指标分别达到38.6%、28.7%、58.2%和127.4%,优于传统图像描述网络模型,能够生成更详细准确的图像描述。  相似文献   

2.
近年来,以生成对抗网络(generative adversarial network, GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性.其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法 ITSC-GAN.该模型首先设计了一个文本信息增强模块(text information enhancement module, TEM),利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块(image regional attention module, IRAM),通过挖掘图像子区域之间的关系,增强图像特...  相似文献   

3.
为了使得人脸图像翻译方法具有更好的翻译效果,提出了一种基于生成对抗文本的人脸图像翻译方法(T-GAN)。根据人脸的特殊性,利用深度对称结构联合编码方法,提取人脸所对应的文本描述特征。然后结合生成对抗“博弈”的思想,强迫判别网络判断生成的图像是否符合文本描述,让判别网络不仅仅能够学习生成图像和输入图像之间的关系,也能够学习生成图像和文本描述的对应关系,达到强化训练的效果。实验结果表明,本方法具有使用价值,在各种肤色、发色人脸图像翻译任务都给出了高质量的图像翻译结果,并与其他图像翻译方法相比较,翻译效果更好。  相似文献   

4.
已有图像描述生成模型虽可以检测与表示图像目标实体及其视觉关系,但没有从文本句法关系角度关注模型的可解释性.因而,提出基于依存句法三元组的可解释图像描述生成模型(interpretable image caption generation based on dependency syntax triplets modeling, IDSTM),以多任务学习的方式生成依存句法三元组序列和图像描述. IDSTM模型首先通过依存句法编码器从输入图像获得潜在的依存句法特征,并与依存句法三元组及文本词嵌入向量合并输入单层长短期记忆网络(long short-term memory, LSTM),生成依存句法三元组序列作为先验知识;接着,将依存句法特征输入到图像描述编码器中,提取视觉实体词特征;最后,采用硬限制和软限制2种机制,将依存句法和关系特征融合到双层LSTM,从而生成图像描述.通过依存句法三元组序列生成任务,IDSTM在未显著降低生成的图像描述精确度的前提下,提高了其可解释性.还提出了评测依存句法三元组序列生成质量的评价指标B1-DS (BLEU-1-DS), B4-DS (BLEU-4-D...  相似文献   

5.
文本生成图像算法对生成图像的质量和文本匹配度有很高的要求. 为了提高生成图像的清晰度, 在现有算法的基础上改进生成对抗网络模型. 加入动态记忆网络、细节校正模块(DCM)、文本图像仿射组合模块(ACM)来提高生成图片的质量. 其中动态记忆网络可以细化模糊图像并选择重要的文本信息存储, 以提高下一阶段生成图像的质量. DCM纠正细节, 完成合成图像中缺失部分. ACM编码原始图像特征, 重建与文本描述无关的部分. 改进后的模型实现了两个目标, 一是根据给定文本生成高质量的图片, 同时保留与文本无关的内容. 二是使生成图像不再较大程度依赖于初始图像的生成质量. 通过在CUB-200-2011鸟类数据集进行研究实验, 结果表明相较之前的算法模型, FID (Frechet inception)有了显著的改善, 结果由16.09变为10.40. 证明了算法的可行性和先进性.  相似文献   

6.
针对民族服装图像属性信息复杂、类间相似度高且语义属性与视觉信息关联性低,导致图像描述生成结果不准确的问题,提出民族服装图像描述生成的局部属性注意网络.首先构建包含55个类别、30 000幅图像,约3 600 MB的民族服装图像描述生成数据集;然后定义民族服装208种局部关键属性词汇和30 089条文本信息,通过局部属性学习模块进行视觉特征提取和文本信息嵌入,并采用多实例学习得到局部属性;最后基于双层长短期记忆网络定义包含语义、视觉、门控注意力的注意力感知模块,将局部属性、基于属性的视觉特征和文本编码信息进行融合,优化得到民族服装图像描述生成结果.在构建的民族服装描述生成数据集上的实验结果表明,所提出的网络能够生成包含民族类别、服装风格等关键属性的图像描述,较已有方法在精确性指标BLEU和语义丰富程度指标CIDEr上分别提升1.4%和2.2%.  相似文献   

7.
随着生成式对抗网络的出现,从文本描述合成图像最近成为一个活跃的研究领域.然而,目前文本描述往往使用英文,生成的对象也大多是人脸和花鸟等,专门针对中文和中国画的研究较少.同时,文本生成图像任务往往需要大量标注好的图像文本对,制作数据集的代价昂贵.随着多模态预训练的出现与推进,使得能够以一种优化的方式来指导生成对抗网络的生成过程,大大减少了对数据集和计算资源的需求.提出一种多域VQGAN模型来同时生成多种域的中国画,并利用多模态预训练模型WenLan来计算生成图像和文本描述之间的距离损失,通过优化输入多域VQGAN的隐空间变量来达到图片与文本语义一致的效果.对模型进行了消融实验,详细比较了不同结构的多域VQGAN的FID及R-precisoin指标,并进行了用户调查研究.结果表示,使用完整的多域VQGAN模型在图像质量和文本图像语义一致性上均超过原VQGAN模型的生成结果.  相似文献   

8.
文本生成图像旨在根据自然语言描述生成逼真的图像,是一个涉及文本与图像的跨模态分析任务。鉴于生成对抗网络具有生成图像逼真、效率高等优势,已经成为文本生成图像任务的主流模型。然而,当前方法往往将文本特征分为单词级和句子级单独训练,文本信息利用不充分,容易导致生成的图像与文本不匹配的问题。针对该问题,提出了一种耦合单词级与句子级文本特征的图像对抗级联生成模型(Union-GAN),在每个图像生成阶段引入了文本图像联合感知模块(Union-Block),使用通道仿射变换和跨模态注意力相结合的方式,充分利用了文本的单词级语义与整体语义信息,促使生成的图像既符合文本语义描述又能够保持清晰结构。同时联合优化鉴别器,将空间注意力加入到对应的鉴别器中,使来自文本的监督信号促使生成器生成更加相关的图像。在CUB-200-2011数据集上将其与AttnGAN等多个当前的代表性模型进行了对比,实验结果表明,Union-GAN的FID分数达到了13.67,与AttnGAN相比,提高了42.9%,IS分数达到了4.52,提高了0.16。  相似文献   

9.
生成姿势受控的人物图像要求在变换姿势条件下生成与源人物图像对应的新图像,同时新图像中人物的上衣、裤子、发型等属性需要与源人物保持一致。由于人物纹理编码和人体姿势关键点编码难以直接融合,导致生成图像中一些关键人物属性与源图像的一致性较差,为此,建立一种循环一致性约束下的双流生成网络模型。在训练阶段,该模型在纹理编码器的输入中增加源人物的姿势条件信息,从而缩小分解组件编码的搜索空间,提高人物生成的可控粒度。设计一个融合模块将源人物的姿势信息与每一个分解组件样式码相融合以进行生成和对抗训练,同时,增加循环一致性约束,使得生成图像与隐空间更为匹配。在测试阶段,通过网络对源人物的纹理编码信息与目标的姿势编码信息分别进行编码,经过信息融合和解码获得姿势变换后的人物图像。使用DeepFashion数据集进行定性和定量测试,结果表明,该模型的峰值信噪比、感知评分、结构相似性指标分别达到31.409 dB、3.369、0.768,模型中添加的姿势引导条件和循环一致性约束能够简化属性分解的概率生成表达,使得人物生成图像的纹理更为准确,符合人类视觉感知特性。  相似文献   

10.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图片的重要特征信息,将其送入解码器长短期记忆网络(LSTM)中,生成对应图片的描述语句.采用MSCOCO2014数据集中训练集和验证集进行训练和测试,使用多个评价准则评估模型的准确性.实验结果表明,改进后模型的评价准则得分优于其他模型,其中Model2实验能够更好地提取到图像特征,生成更加准确的描述.  相似文献   

11.
12.
一种指纹合成的方法及其实现   总被引:6,自引:0,他引:6  
胡瑾  田捷  陈新建  杨鑫  时鹏 《软件学报》2007,18(3):517-526
提出并实现了一种指纹合成方法.该方法通过新的联合方向场模型生成更加符合真实指纹的方向场,并提出一种新的指纹密度图的表示方法.然后,通过改进的Gabor滤波器生成指纹脊线纹理.该方法包括两个主要步骤:首先,经过指纹方向场生成、密度图生成和脊线纹理生成产生一个指纹模板图像;然后对指纹模板图像进行一系列变换,包括添加划痕、纹理平移、脊线的膨胀/腐蚀、脊线的弹性形变、脊线的加噪和平滑、图像的平移和旋转、改变对比度、添加背景噪声,最终得到类似于真实指纹的合成指纹图像.基于该方法的指纹生成器平台,已在2004年中国生  相似文献   

13.
The paper addresses the problem of generating sentences from logical formulae. It describes a simple and efficient algorithm for generating text which has been developed for use in machine translation, but will have wider application in natural language processing. An important property of the algorithm is that the logical form used to generate a sentence need not be one which could have been produced by parsing the sentence: formal equivalence between logical forms is allowed for. This is necessary for a machine translation system, such as the one envisaged in this paper, which uses single declarative grammars of individual languages, and declarative statements of translation equivalences for transfer. In such a system, it cannot be guaranteed that transfer will produce a logical form in the same order as would have been produced by parsing some target-language sentence, and it is not practicable to define a normal form for the logical forms. The algorithm is demonstrated using a categorial grammar and a simple indexed logic, as this allows a particularly clear and elegant formulation. It is shown that the algorithm can be adapted to phrase-structure grammars, and to more complex semantic representations than that used here.  相似文献   

14.
深度视觉生成是计算机视觉领域的热门方向,旨在使计算机能够根据输入数据自动生成预期的视觉内容。深度视觉生成使用人工智能技术赋能相关产业,推动产业自动化、智能化改革与转型。生成对抗网络(generative adversarial networks,GANs)是深度视觉生成的有效工具,近年来受到极大关注,成为快速发展的研究方向。GANs能够接收多种模态的输入数据,包括噪声、图像、文本和视频,以对抗博弈的模式进行图像生成和视频生成,已成功应用于多项视觉生成任务。利用GANs实现真实的、多样化和可控的视觉生成具有重要的研究意义。本文对近年来深度对抗视觉生成的相关工作进行综述。首先介绍深度视觉生成背景及典型生成模型,然后根据深度对抗视觉生成的主流任务概述相关算法,总结深度对抗视觉生成目前面临的痛点问题,在此基础上分析深度对抗视觉生成的未来发展趋势。  相似文献   

15.
移动通信已成为当代通信领域内发展潜力最大、市场前景最广的热点技术.它的发展已经历了几代,本文首先介绍了移动通信发展历程,然后在分析4G移动通信系统的特点基础上,对4G采用的关键技术:MIMO OFDM技术、智能天线技术、软件无线电和IPv6进行了研究和分析.  相似文献   

16.
Kari Johnsen 《Software》1978,8(4):399-405
A two-dimensional table containing code to be output for one binary operation is replaced by an algorithm and two one-dimensional tables. This algorithm constructs the entries of the first table only whey they are needed. The algorithm is in fact an implementation of the thought process used in the hand construction of the first table.  相似文献   

17.
This paper describes the design and implementation of awk, a programming language which searches a set of files for patterns, and performs specified actions upon records or fields of records which match the patterns. Awk makes common data selection and transformation operations easy to express; for example, is a complete awk program that prints all input lines whose length exceeds 72 characters. The program prints each input line with the first field replaced by its logarithm. The program prints all lines in which the first field is different from the first field of the previous line. Patterns may include boolean combinations of regular expressions and of relational operators on strings, numbers, fields, variables, and array elements. Actions may include: the same matching constructions as in patterns; arithmetic and string expressions and assignments; if-else, while, and for statements; formatted output; and multiple output streams.  相似文献   

18.
Tree-adjoining grammars (TAG) have been proposed as a formalism for generation based on the intuition that the extended domain of syntactic locality that TAGs provide should aid in localizing semantic dependencies as well, in turn serving as an aid to generation from semantic representations. We demonstrate that this intuition can be made concrete by using the formalism of synchronous tree-adjoining grammars. The use of synchronous TAGs for generation provides solutions to several problems with previous approaches to TAG generation. Furthermore, the semantic monotonicity requirement previously advocated for generation grammars as a computational aid is seen to be an inherent property of synchronous TAGs.  相似文献   

19.
第三代移动通信系统的试验正在全力开发的过程中,第四代通信技术已悄然兴起,本文简要介绍了移动通信的发展史,重点介绍了第三代、第四代移动通信的转点,关键技术及未来的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号