期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

许一宁何小海张津卿粼波《计算机应用》2005,40(12):3612-3617

针对文本生成图像任务存在生成图像有目标结构不合理、图像纹理不清晰等问题，在注意力生成对抗网络（AttnGAN）的基础上提出了多层次分辨率递进生成对抗网络（MPRGAN）模型。首先，在低分辨率层采用语义分离-融合生成模块，将文本特征在自注意力机制引导下分离为3个特征向量，并用这些特征向量分别生成特征图谱；然后，将特征图谱融合为低分辨率图谱，并采用mask图像作为语义约束以提高低分辨率生成器的稳定性；最后，在高分辨率层采用分辨率递进残差结构，同时结合词注意力机制和像素混洗来进一步改善生成图像的质量。实验结果表明，在数据集CUB-200-2011和Oxford-102上，所提模型的IS分别达到了4.70和3.53，与AttnGAN相比分别提高了7.80%和3.82%。MPRGAN模型能够在一定程度上解决结构生成不稳定的问题，同时其生成的图像也更接近真实图像。相似文献

2.

基于多层次分辨率递进生成对抗网络的文本生成图像方法

许一宁何小海张津卿粼波《计算机应用》2020,40(12):3612-3617

针对文本生成图像任务存在生成图像有目标结构不合理、图像纹理不清晰等问题,在注意力生成对抗网络（AttnGAN）的基础上提出了多层次分辨率递进生成对抗网络（MPRGAN）模型。首先,在低分辨率层采用语义分离-融合生成模块,将文本特征在自注意力机制引导下分离为3个特征向量,并用这些特征向量分别生成特征图谱;然后,将特征图谱融合为低分辨率图谱,并采用mask图像作为语义约束以提高低分辨率生成器的稳定性;最后,在高分辨率层采用分辨率递进残差结构,同时结合词注意力机制和像素混洗来进一步改善生成图像的质量。实验结果表明,在数据集CUB-200-2011和Oxford-102上,所提模型的IS分别达到了4.70和3.53,与AttnGAN相比分别提高了7.80%和3.82%。MPRGAN模型能够在一定程度上解决结构生成不稳定的问题,同时其生成的图像也更接近真实图像。相似文献

3.

耦合单词与句子级文本特征的图像对抗级联生成

白志远杨智翔栾鸿康孙玉宝《计算机工程与科学》2023,(12):2186-2196

文本生成图像旨在根据自然语言描述生成逼真的图像，是一个涉及文本与图像的跨模态分析任务。鉴于生成对抗网络具有生成图像逼真、效率高等优势，已经成为文本生成图像任务的主流模型。然而，当前方法往往将文本特征分为单词级和句子级单独训练，文本信息利用不充分，容易导致生成的图像与文本不匹配的问题。针对该问题，提出了一种耦合单词级与句子级文本特征的图像对抗级联生成模型(Union-GAN),在每个图像生成阶段引入了文本图像联合感知模块(Union-Block),使用通道仿射变换和跨模态注意力相结合的方式，充分利用了文本的单词级语义与整体语义信息，促使生成的图像既符合文本语义描述又能够保持清晰结构。同时联合优化鉴别器，将空间注意力加入到对应的鉴别器中，使来自文本的监督信号促使生成器生成更加相关的图像。在CUB-200-2011数据集上将其与AttnGAN等多个当前的代表性模型进行了对比，实验结果表明，Union-GAN的FID分数达到了13.67,与AttnGAN相比，提高了42.9%,IS分数达到了4.52,提高了0.16。相似文献

4.

基于Transformer交叉注意力的文本生成图像技术

谈馨悦何小海王正勇罗晓东卿粼波《计算机科学》2022,49(2):107-115

近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展。文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像。目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但这些方法在文本编码器中未考虑与对应图像的语义对齐问题,独立对输入文本进行编码,忽略了语言空间与图像空间之间的语义鸿沟问题。为解决这一问题,文中设计了一种基于交叉注意力编码器的对抗生成网络(CAE-GAN),该网络通过交叉注意力编码器,将文本信息与视觉信息进行翻译和对齐,以捕捉文本与图像信息之间的跨模态映射关系,从而提升生成图像的逼真度和与输入文本描述的匹配度。实验结果表明,在CUB和coco数据集上,与当前主流的方法DM-GAN模型相比,CAE-GAN模型的IS(Inception Score)分数分别提升了2.53%和1.54%,FID (Fréchet Inception Distance)分数分别降低了15.10%和5.54%,由此可知,CAE-GAN模型生成图像的细节更加完整、质量更高。相似文献

5.

关注全局真实度的文本到图像生成

胡成胡莹晖刘兴云《计算机系统应用》2022,31(6):388-393

针对文本和图像模态在高维空间中相互映射的困难问题, 提出以全局句子向量为输入, 以堆叠式结构为基础的生成对抗网络(GAN), 应用于文本生成图像任务. 该网络融入双重注意力机制, 在空间和通道两大维度上寻求特征融合的更大化, 同时增加真实度损失判别器作为约束. 所提方法在加利福尼亚理工学院的CUB鸟类数据集上实验验证, 用Inception Score和SSIM作为评估指标. 结果表明, 生成图像具有更真实的细节纹理, 视觉效果更加接近于真实图像. 相似文献

6.

基于多尺度与注意力特征增强的遥感图像描述生成方法

赵佳琦王瀚正周勇张迪周子渊《计算机科学》2021,48(1):190-196

遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句。文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系。此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种基于金字塔池化和通道注意力机制的特征提取网络(Pyramid Pool and Channel Attention Network,PCAN),用于捕获遥感图像多尺度以及局部跨通道交互信息。将该模型提取到的图像特征作为描述生成阶段软注意力机制的输入,通过计算得到上下文信息,然后将该上下文信息输入至LSTM网络中,得到最终的输出序列。在RSICD与MSCOCO数据集上对PCAN及软注意力机制进行有效性实验,结果表明,PCAN及软注意力机制的加入能够提升生成语句的质量,实现单词与图像特征之间的对齐。通过对软注意力机制的可视化分析,提高了模型结果的可信度。此外,在语义分割数据集上进行实验,结果表明所提PCAN对于语义分割任务同样具有有效性。相似文献

7.

融合胶囊网络的文本-图像生成对抗模型

下载免费PDF全文

黄晓琪王莉李钢《计算机工程与应用》2021,57(14):176-180

在传统文本-图像对抗模型的实现中,判别器中的卷积网络用于提取图像特征,但是卷积网络无法考虑到底层对象之间的空间关系,导致生成图像的质量较差,而胶囊网络是一种有效的解决方法。基于胶囊网络的方法对传统的文本条件式生成对抗网络模型进行了改进,将判别器中卷积网络换为胶囊网络,增强其对图像的鲁棒性。在Oxford-102和CUB数据集上的实验结果表明新模型可以有效提高生成质量,生成花卉图像的FID的数值降低了14.49%,生成鸟类的图像的FID的数值降低了9.64%。在Oxford-102和CUB两个数据集上生成图像的Inception Score分别提高了22.60%和26.28%,说明改进后模型生成的图片特征更丰富、更有意义。相似文献

8.

图注意力网络的场景图到图像生成模型

下载免费PDF全文

兰红刘秦邑《中国图象图形学报》2020,25(8):1591-1603

目的目前文本到图像的生成模型仅在具有单个对象的图像数据集上表现良好，当一幅图像涉及多个对象和关系时，生成的图像就会变得混乱。已有的解决方案是将文本描述转换为更能表示图像中场景关系的场景图结构，然后利用场景图生成图像，但是现有的场景图到图像的生成模型最终生成的图像不够清晰，对象细节不足。为此，提出一种基于图注意力网络的场景图到图像的生成模型，生成更高质量的图像。方法模型由提取场景图特征的图注意力网络、合成场景布局的对象布局网络、将场景布局转换为生成图像的级联细化网络以及提高生成图像质量的鉴别器网络组成。图注意力网络将得到的具有更强表达能力的输出对象特征向量传递给改进的对象布局网络，合成更接近真实标签的场景布局。同时，提出使用特征匹配的方式计算图像损失，使得最终生成图像与真实图像在语义上更加相似。结果通过在包含多个对象的COCO-Stuff图像数据集中训练模型生成64×64像素的图像，本文模型可以生成包含多个对象和关系的复杂场景图像，且生成图像的Inception Score为7.8左右，与原有的场景图到图像生成模型相比提高了0.5。结论本文提出的基于图注意力网络的场景图到图像生成模型不仅可以生成包含多个对象和关系的复杂场景图像，而且生成图像质量更高，细节更清晰。相似文献

9.

基于图像-文本语义一致性的文本生成图像方法

薛志杭许喆铭郎丛妍冯松鹤王涛李浥东《计算机研究与发展》2023,(9):2180-2190

近年来，以生成对抗网络（generative adversarial network, GAN）为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征，提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模，忽略了初始文本特征的局限性，且没有充分利用具有语义一致性的生成图像对文本特征的指导作用，因而降低了文本生成图像中文本信息的表征性.其次，由于没有考虑到生成目标区域间的动态交互，生成网络只能粗略地划分目标区域，且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题，提出了一种基于图像-文本语义一致性的文本生成图像方法 ITSC-GAN.该模型首先设计了一个文本信息增强模块（text information enhancement module, TEM），利用生成图像对文本信息进行增强，从而提高文本特征的表征能力.另外，该模型提出了一个图像区域注意力模块（image regional attention module, IRAM），通过挖掘图像子区域之间的关系，增强图像特... 相似文献

10.

基于特征融合的文本到图像的生成

徐泽帅仁俊刘开凯马力吴梦麟《计算机科学》2021,48(6):125-130

近年来,基于生成对抗网络(Generative Adversarial Network,GAN)从文本描述中合成图像这一具有挑战性的任务已经取得了令人鼓舞的结果.这些方法虽然可以生成具有一般形状和颜色的图像,但通常也会生成具有不自然的局部细节且扭曲的全局图像.这是因为卷积神经网络在捕获用于像素级别图像合成的高级语义信息时效率低下,以及处于粗略状态的生成器-鉴别器由于缺少详细信息生成了有缺陷的结果,而这个结果会作为输入促使最终结果的生成.因此,提出了一种基于特征融合的生成对抗网络.该网络通过嵌入残差块特征金字塔结构来引入多尺度特征融合,并通过自适应融合这些特征直接生成最后的精细图像,仅使用一个鉴别器就可以生成256 px×256 px的逼真图像.将所提方法在花类数据集Oxford-102和加利福尼亚理工学院鸟类数据库CUB上进行验证,使用Inception Score和FID评估生成图像的质量,结果表明,生成图像的质量明显优于以往若干经典的方法. 相似文献

11.

基于样本特征解码约束的GANs

陈泓佑陈帆和红杰朱翌明《自动化学报》2022,48(9):2288-2300

生成式对抗网络(Generative adversarial networks, GANs)是一种有效模拟训练数据分布的生成方法, 其训练的常见问题之一是优化Jensen-Shannon (JS)散度时可能产生梯度消失问题. 针对该问题, 提出了一种解码约束条件下的GANs, 以尽量避免JS散度近似为常数而引发梯度消失现象, 从而提高生成图像的质量. 首先利用U-Net结构的自动编码机(Auto-encoder, AE)学习出与用于激发生成器的随机噪声同维度的训练样本网络中间层特征. 然后在每次对抗训练前使用设计的解码约束条件训练解码器. 其中, 解码器与生成器结构相同, 权重共享. 为证明模型的可行性, 推导给出了引入解码约束条件有利于JS散度不为常数的结论以及解码损失函数的类型选择依据. 为验证模型的性能, 利用Celeba和Cifar10数据集, 对比分析了其他6种模型的生成效果. 通过实验对比Inception score (IS)、弗雷歇距离和清晰度等指标发现, 基于样本特征解码约束的GANs能有效提高图像生成质量, 综合性能接近自注意力生成式对抗网络. 相似文献

12.

量化权值激活的生成对抗网络

郑哲胡庆浩刘青山冷聪《计算机科学》2020,47(5):144-148

近年来,生成对抗网络(Generative Adversarial Networks,GAN)在图像超分辨率、图像生成等许多计算机视觉任务中展现出优异的性能。借助于GPU强大的计算力,人们可以设计计算复杂度更高的GAN网络。然而,对于资源受限的移动端设备,高功耗、计算需求大的GAN将很难被直接部署到实际应用中。得益于神经网络压缩技术取得的巨大进展,将GAN部署到移动端设备成为可能。为此,文中提出一种同时对网络权值和激活进行量化的方案来压缩GAN网络。通过量化敏感性分析发现,与量化分类网络不同,GAN中的量化权重比量化激活更敏感,因此在量化时给予权重更多的量化比特。文中比较了两种评价GAN生成图像的指标即Inception Score(IS)和Fréchet Inception Distance(FID),发现FID更适合评估量化后GAN的性能。基于敏感性分析在Mnist和Celeb-A数据集上进行量化实验,用FID指标来评估量化GAN的性能。实验结果表明:在生成图像质量不下降的情况下,所提方法依然可以取得4倍以上的压缩率,从而有效地解决了GAN的压缩问题。相似文献

13.

Self-attention generative adversarial networks applied to conditional music generation

Tomaz Neves Pedro Lucas Fornari José Batista Florindo João 《Multimedia Tools and Applications》2022,81(17):24419-24430

The task of audio and music generation in the waveform domain has become possible due to recent advances in deep learning. Generative Adversarial Networks (GANs) are a type of generative model that has achieved success in areas such as image, video and audio generation. However, realistic audio generation with GANs is still a challenge, thanks to the specific characteristics inherent to this kind of data. In this paper we propose a GAN model that employs the self-attention mechanism and produces small chunks of music conditioned by instrument. We compare our model to a baseline and run ablation studies in order to demonstrate its superiority. We also suggest some applications of the model, particularly in the area of computer assisted composition.

相似文献

14.

生成对抗网络的研究进展综述

吴少乾李西明《计算机科学与探索》2020,14(3):377-388

自生成对抗网络(GANs)诞生以来,对其研究已经成为机器学习领域的一个热点。它利用对抗学习的机制训练模型,解决了当年生成算法无法解决的问题。由于GANs的优势,研究者们对其进行深入的研究,产生了许多GANs的衍生模型,这使得GANs得到了快速的发展,形成了所谓的GAN-Zoo。GANs被广泛应用于视觉领域、音频领域、自然语言领域及其他各种领域中,如图像生成、图像翻译、文本生成、音频转换和自然语言翻译等。从传统GANs出发,对近几年内GANs的研究中较为突出的方面进行总结,首先介绍了传统GANs的基本理论,然后对近年来GANs的主要衍生模型进行分析,最后总结了GANs在图像领域和信息安全领域中的主要应用成果。相似文献

15.

联合自注意力和循环网络的图像标题生成

王习张凯李军辉孔芳张熠天《计算机科学》2021,48(4):157-163

目前大多数图像标题生成模型都是由一个基于卷积神经网络(Convolutional Neural Network,CNN)的图像编码器和一个基于循环神经网络(Recurrent Neural Network,RNN)的标题解码器组成。其中图像编码器用于提取图像的视觉特征,标题解码器基于视觉特征通过注意力机制来生成标题。然而,使用基于注意力机制的RNN的问题在于,解码端虽然可以对图像特征和标题交互的部分进行注意力建模,但是却忽略了标题内部交互作用的自我注意。因此,针对图像标题生成任务,文中提出了一种能同时结合循环网络和自注意力网络优点的模型。该模型一方面能够通过自注意力模型在统一的注意力区域内同时捕获模态内和模态间的相互作用,另一方面又保持了循环网络固有的优点。在MSCOCO数据集上的实验结果表明,CIDEr值从1.135提高到了1.166,所提方法能够有效提升图像标题生成的性能。相似文献

16.

HIGSA: Human image generation with self-attention

《Advanced Engineering Informatics》2023

The goal of human image generation (HIG) is to synthesize a human image in a novel pose. HIG can potentially benefit various computer vision applications and engineering tasks. The recently-developed CNN-based approach applies the attention architecture to vision tasks. However, owing to the locality in CNNs, extracting and maintaining the long-range pixel interactions input images is difficult. Thus, existing human image generation methods face limited content representation. In this paper, we propose a novel human image generation framework called HIGSA that can utilize the position information from the input source image. The proposed HIGSA contains two complementary self-attention blocks to generate photo-realistic human images, named as stripe self-attention block (SSAB) and content attention block (CAB), respectively. In SSAB, this paper establishes global dependencies of human images and computes the attention map for each pixel based on its relative spatial positions concerning other pixels. In CAB, this paper introduces an effective feature extraction module to interactively enhance both person’s appearance and shape feature representations. Therefore, the HIGSA framework inherently preserves the better appearance consistency and shape consistency with sharper details. Extensive experiments on mainstream datasets demonstrate that HIGSA achieves the state-of-the-art (SOTA) results. 相似文献

17.

判别增强的生成对抗模型在文本至图像生成中的研究与应用

谭红臣黄世华肖贺文于冰冰刘秀平《计算机工程与科学》2022,44(5):855-861

目前大部分基于生成对抗网络GAN的文本至图像生成算法着眼于设计不同模式的注意力生成模型,以提高图像细节的刻画与表达,但忽略了判别模型对局部关键语义的感知,以至于生成模型可能生成较差的图像细节“欺骗“判别模型。提出了判别语义增强的生成对抗网络DE-GAN模型,试图在判别模型中设计词汇-图像判别注意力模块,增强判别模型对关键语义的感知和捕捉能力,驱动生成模型生成高质量图像细节。实验结果显示,在CUB-Bird数据集上,DE-GAN在IS指标上达到了4.70,相比基准模型提升了4.2%,达到了较高的性能表现。相似文献