期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙泽龙杨国兴温静远费楠益卢志武文继荣《软件学报》2023,34(5):2116-2133

随着生成式对抗网络的出现,从文本描述合成图像最近成为一个活跃的研究领域.然而,目前文本描述往往使用英文,生成的对象也大多是人脸和花鸟等,专门针对中文和中国画的研究较少.同时,文本生成图像任务往往需要大量标注好的图像文本对,制作数据集的代价昂贵.随着多模态预训练的出现与推进,使得能够以一种优化的方式来指导生成对抗网络的生成过程,大大减少了对数据集和计算资源的需求.提出一种多域VQGAN模型来同时生成多种域的中国画,并利用多模态预训练模型WenLan来计算生成图像和文本描述之间的距离损失,通过优化输入多域VQGAN的隐空间变量来达到图片与文本语义一致的效果.对模型进行了消融实验,详细比较了不同结构的多域VQGAN的FID及R-precisoin指标,并进行了用户调查研究.结果表示,使用完整的多域VQGAN模型在图像质量和文本图像语义一致性上均超过原VQGAN模型的生成结果. 相似文献

2.

基于Transformer交叉注意力的文本生成图像技术

谈馨悦何小海王正勇罗晓东卿粼波《计算机科学》2022,49(2):107-115

近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展.文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像.目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但这些方法在文本编码器中未考虑与对应图像的语义对齐问题,独立对输入文本进行编码... 相似文献

3.

基于生成对抗网络的文本生成图像算法

段亚茹赵嘉雨何立明《计算机系统应用》2023,32(1):348-357

文本生成图像算法对生成图像的质量和文本匹配度有很高的要求. 为了提高生成图像的清晰度, 在现有算法的基础上改进生成对抗网络模型. 加入动态记忆网络、细节校正模块(DCM)、文本图像仿射组合模块(ACM)来提高生成图片的质量. 其中动态记忆网络可以细化模糊图像并选择重要的文本信息存储, 以提高下一阶段生成图像的质量. DCM纠正细节, 完成合成图像中缺失部分. ACM编码原始图像特征, 重建与文本描述无关的部分. 改进后的模型实现了两个目标, 一是根据给定文本生成高质量的图片, 同时保留与文本无关的内容. 二是使生成图像不再较大程度依赖于初始图像的生成质量. 通过在CUB-200-2011鸟类数据集进行研究实验, 结果表明相较之前的算法模型, FID (Frechet inception)有了显著的改善, 结果由16.09变为10.40. 证明了算法的可行性和先进性. 相似文献

4.

基于图像-文本语义一致性的文本生成图像方法

薛志杭许喆铭郎丛妍冯松鹤王涛李浥东《计算机研究与发展》2023,(9):2180-2190

近年来，以生成对抗网络（generative adversarial network, GAN）为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征，提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模，忽略了初始文本特征的局限性，且没有充分利用具有语义一致性的生成图像对文本特征的指导作用，因而降低了文本生成图像中文本信息的表征性.其次，由于没有考虑到生成目标区域间的动态交互，生成网络只能粗略地划分目标区域，且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题，提出了一种基于图像-文本语义一致性的文本生成图像方法 ITSC-GAN.该模型首先设计了一个文本信息增强模块（text information enhancement module, TEM），利用生成图像对文本信息进行增强，从而提高文本特征的表征能力.另外，该模型提出了一个图像区域注意力模块（image regional attention module, IRAM），通过挖掘图像子区域之间的关系，增强图像特... 相似文献

5.

生成对抗网络及其文本图像合成综述

下载免费PDF全文

王威李玉洁郭富林刘岩何俊霖《计算机工程与应用》2022,58(19):14-36

随着深度学习的快速发展,基于生成对抗网络的文本图像合成领域成为了当下计算机视觉研究的热点。生成对抗网络同时包含生成器和鉴别器,通过两者的博弈来实现逼真数据的生成。受生成对抗网络的启发,近几年提出了一系列的文本图像合成模型,从图像质量、多样性、语义一致性方面不断取得突破。为推动文本图像合成领域的研究发展,对现有文本图像合成技术进行了全面概述。从文本编码、文本直接合成图像、文本引导图像合成方面对文本图像合成模型进行了分类整理,并详细探讨了各类基于生成对抗网络的代表性模型的模型框架和关键性贡献。分析了现有的评估指标和常用的数据集,提出了现有方法在复杂场景和文本、多模态、轻量化模型、模型评价方法等方面的不足和未来的发展趋势。总结了目前生成对抗网络在各领域的发展,重点关注了在文本图像合成领域的应用,可以作为一个研究人员进行图像合成研究时选择深度学习相关方法的权衡和参考。相似文献

6.

基于单阶段GANs的文本生成图像模型

胡涛李金龙《信息技术与网络安全》2021,(6):50-55

针对目前生成以文本为条件的图像通常会遇到生成质量差、训练不稳定的问题,提出了通过单阶段生成对抗网络(GANs)生成高质量图像的模型.具体而言,在GANs的生成器中引入注意力机制生成细粒度的图像,同时通过在判别器中添加局部-全局语言表示,来精准地鉴别生成图像和真实图像;通过生成器和判别器之间的相互博弈,最终生成高质量图像... 相似文献

7.

基于多层次分辨率递进生成对抗网络的文本生成图像方法

许一宁何小海张津卿粼波《计算机应用》2020,40(12):3612-3617

针对文本生成图像任务存在生成图像有目标结构不合理、图像纹理不清晰等问题,在注意力生成对抗网络（AttnGAN）的基础上提出了多层次分辨率递进生成对抗网络（MPRGAN）模型。首先,在低分辨率层采用语义分离-融合生成模块,将文本特征在自注意力机制引导下分离为3个特征向量,并用这些特征向量分别生成特征图谱;然后,将特征图谱融合为低分辨率图谱,并采用mask图像作为语义约束以提高低分辨率生成器的稳定性;最后,在高分辨率层采用分辨率递进残差结构,同时结合词注意力机制和像素混洗来进一步改善生成图像的质量。实验结果表明,在数据集CUB-200-2011和Oxford-102上,所提模型的IS分别达到了4.70和3.53,与AttnGAN相比分别提高了7.80%和3.82%。MPRGAN模型能够在一定程度上解决结构生成不稳定的问题,同时其生成的图像也更接近真实图像。相似文献

8.

基于多层次分辨率递进生成对抗网络的文本生成图像方法

许一宁何小海张津卿粼波《计算机应用》2005,40(12):3612-3617

针对文本生成图像任务存在生成图像有目标结构不合理、图像纹理不清晰等问题，在注意力生成对抗网络（AttnGAN）的基础上提出了多层次分辨率递进生成对抗网络（MPRGAN）模型。首先，在低分辨率层采用语义分离-融合生成模块，将文本特征在自注意力机制引导下分离为3个特征向量，并用这些特征向量分别生成特征图谱；然后，将特征图谱融合为低分辨率图谱，并采用mask图像作为语义约束以提高低分辨率生成器的稳定性；最后，在高分辨率层采用分辨率递进残差结构，同时结合词注意力机制和像素混洗来进一步改善生成图像的质量。实验结果表明，在数据集CUB-200-2011和Oxford-102上，所提模型的IS分别达到了4.70和3.53，与AttnGAN相比分别提高了7.80%和3.82%。MPRGAN模型能够在一定程度上解决结构生成不稳定的问题，同时其生成的图像也更接近真实图像。相似文献

9.

基于场景图的段落生成序列图像方法

张玮琪汤轶丰李林燕胡伏原《计算机科学》2022,49(1):233-240

通过生成对抗网络进行段落生成序列图像的任务已经可以生成质量较高的图像.然而当输入的文本涉及多个对象和关系时,文本序列的上下文信息难以提取,生成图像的对象布局容易产生混乱,生成的对象细节不足.针对该问题,文中在Sto-ryGAN的基础上,提出了一种基于场景图的段落生成序列图像方法.首先,通过图卷积将段落转换为多个场景图,... 相似文献

10.

耦合单词与句子级文本特征的图像对抗级联生成

白志远杨智翔栾鸿康孙玉宝《计算机工程与科学》2023,(12):2186-2196

文本生成图像旨在根据自然语言描述生成逼真的图像，是一个涉及文本与图像的跨模态分析任务。鉴于生成对抗网络具有生成图像逼真、效率高等优势，已经成为文本生成图像任务的主流模型。然而，当前方法往往将文本特征分为单词级和句子级单独训练，文本信息利用不充分，容易导致生成的图像与文本不匹配的问题。针对该问题，提出了一种耦合单词级与句子级文本特征的图像对抗级联生成模型(Union-GAN),在每个图像生成阶段引入了文本图像联合感知模块(Union-Block),使用通道仿射变换和跨模态注意力相结合的方式，充分利用了文本的单词级语义与整体语义信息，促使生成的图像既符合文本语义描述又能够保持清晰结构。同时联合优化鉴别器，将空间注意力加入到对应的鉴别器中，使来自文本的监督信号促使生成器生成更加相关的图像。在CUB-200-2011数据集上将其与AttnGAN等多个当前的代表性模型进行了对比，实验结果表明，Union-GAN的FID分数达到了13.67,与AttnGAN相比，提高了42.9%,IS分数达到了4.52,提高了0.16。相似文献

11.

使用模糊竞争Hopfield网络进行图像分割 总被引：4，自引：0，他引：4

张星明李凤森《软件学报》2000,11(7):953-956

针对传统自组织竞争学习方法的不足,将模糊竞争学习引入竞争Hopfield网络中,由此设计了一个用于图像分割的模糊竞争Hopfield网络,通过将图像空间映射到灰度特征空间,实现灰度特征集的模糊聚类,进而实现图像分割.实验结果表明:对于二值分割,与Ostu方法相比,此算法在分割效果和对噪声的自适应能力方面具有明显的优点.对于多类分割,此算法比目前的FCM(fuzzy C mean)算法的处理速度要快. 相似文献

12.

基于权重量化与信息压缩的车载图像超分辨率重建

许德智孙季丰罗莎莎《计算机应用》2019,39(12):3644-3649

针对智能驾驶领域中需要在内存受限的情况下得到高质量的超分辨率图像的问题,提出一种基于权重八位二进制量化的车载图像超分辨率重建算法。首先,基于八位二进制量化卷积设计信息压缩模块,减少内部冗余,增强网络内信息流动,提高重建速率;然后,整个网络由一个特征提取模块、多个堆叠的信息压缩模块和一个图像重建模块构成,并利用插值后超分辨率空间的信息与低分辨率空间重建后的图像融合,在不增加模型复杂度的基础上,提高网络表达能力;最后,算法中整个网络结构基于对抗生成网络（GAN）框架进行训练,使得到的图片有更好主观视觉效果。实验结果表明,所提算法的车载图像重建结果的峰值信噪比（PSNR）比基于GAN的超分辨率重建（SRGAN）算法提高了0.22 dB,同时其生成模型大小缩小为LapSRN的39%,重建速度提高为LapSRN的7.57倍。相似文献

13.

多监督损失函数光滑化图像超分辨率重建

下载免费PDF全文

孟志青张晶邱健数《中国图象图形学报》2022,27(10):2972-2983

目的将低分辨率(low-resolution,LR)图像映射到高分辨率(high-resolution,HR)图像是典型的不适定恢复问题,即输出的HR图像和输入的LR图像之间的映射是多对一的,这意味着仅通过增加网络深度来确定HR图像与LR图像之间的特定映射关系是非常困难的。针对该问题,本文提出一种基于多监督光滑化损失函数的图像超分辨率方法。方法该方法主体由LR图像上采样通道和HR图像下采样通道两部分组成。各通道分为两个阶段,每个阶段均包括浅层特征提取模块、基于迭代采样错误反馈机制的采样模块、全局特征融合模块和图像重建模块。将LR图像上采样通道第1阶段结果与HR图像下采样通道第1阶段结果对比,然后将HR原图像和HR图像下采样通道第2阶段结果作为约束构成多监督,使映射函数空间尽可能精确,并将多监督损失函数光滑化保证梯度在全局范围内传递。结果在基准测试集Set5、Set14、BSD100(Berkeley segmentation dataset)、Urban100(urban scenes dataset)、Manga109(109 manga volumes dataset)数据集... 相似文献

14.

基于条件生成对抗网络与知识蒸馏的单幅图像去雾方法

何涛俞舒曼徐鹤《计算机工程》2022,48(4):165-172

生成对抗网络广泛应用于图像去雾领域,但通常需要较大的计算量和存储空间,从而限制了其在移动设备上的应用。针对该问题,提出一种基于条件生成对抗网络与知识蒸馏的去雾方法KD-GAN。将频率信息作为去雾的附加约束条件,通过傅里叶变换、拉普拉斯算子、高斯滤波器分别滤除原始图像的高频或低频信息,生成对应的高频和低频图像,并将融合得到的图像作为判别器的输入,以改进雾天图像的去雾效果。在此基础上,将原重型教师网络的知识迁移到具有较少权值参数的轻量型学生网络生成器中,并对轻量型学生网络进行训练,使其以更快的收敛速度达到与教师网络相近的去雾性能。在OTS和HSTS数据集上的实验结果验证了该方法的有效性,在学生网络的参数规模仅为教师网络1/2的条件下,学生网络在迭代第3×10⁴次时,生成器输出图像的峰值信噪比和结构相似性已接近于教师网络迭代第5×10⁴次时的数值,训练速度加快了约1.67倍。相似文献

15.

基于空间特征变换与反投影的渐进式图像超分辨

秦玉谢超宇王晓明陈子鎏《计算机应用研究》2021,38(12):3814-3819

基于深度网络的单帧图像超分辨(SISR)方法为目前SR研究热点,但是多数该类方法在特征提取时主要侧重在网络深度结构的探索,忽略了中间空间特征层之间的相似性,并且在重构时忽略了特征层之间的特征差异性.针对上述问题,提出了基于空间特征变换与反投影重构的渐进式网络.该方法的主要特征是,在图像特征提取时对特征空间进行特征仿射变换,从而获得渐进式特征和空间变换特征,增加特征层间的不同相似性.在图像重构阶段,重构模块采用多尺度反投影的策略融合了图像多源特征,从而使得其模块更加注重特征之间的差异性.实验结果表明,相比大多数超分辨算法,所提方法在图像超分辨重建时PSNR/SSIM等评估指标均有较大提升,且重构图像的纹理信息也更加丰富. 相似文献

16.

基于进化ResNet的交通标志识别

谢艺蓉马永杰《计算机工程》2022,48(10):262-269

卷积神经网络具有较优的图像特征提取性能,被广泛应用于交通标志识别领域。然而,现有交通标志识别算法通常基于专家经验设计改进的图像特征提取网络,需经历图像预处理和模型调参过程,导致模型的复杂度增大。提出一种基于进化ResNet的交通标志识别算法。将ResNet的构建参数嵌入到进化算法中,在架构搜索空间中以构建块作为基本单位,并将网络深度、卷积层通道数、池化层类型和模块构建顺序作为搜索空间的可变参数,利用交叉、变异等遗传算子执行自适应优化搜索,以确保进化搜索的有效性,同时设计适用于交通标志识别的轻量化网络。在德国交通标志数据集上的实验结果表明,该算法的识别精度达到99.41%,而参数量仅为2.37×10⁶,相比Multi-column DNN、MFC、MFC+ELM等算法,在保证识别精度的同时减少网络参数量。相似文献

17.

基于对象位置线索的弱监督图像语义分割方法

李阳刘扬刘国军郭茂祖《软件学报》2020,31(11):3640-3656

深度卷积神经网络使用像素级标注,在图像语义分割任务中取得了优异的分割性能.然而,获取像素级标注是一项耗时并且代价高的工作.为了解决这个问题,提出一种基于图像级标注的弱监督图像语义分割方法.该方法致力于使用图像级标注获取有效的伪像素标注来优化分割网络的参数.该方法分为3个步骤：（1）首先,基于分类与分割共享的网络结构,通过空间类别得分（图像二维空间上像素点的类别得分）对网络特征层求导,获取具有类别信息的注意力图;（2）采用逐次擦除法产生显著图,用于补充注意力图中缺失的对象位置信息;（3）融合注意力图与显著图来生成伪像素标注并训练分割网络.在PASCAL VOC 2012分割数据集上的一系列对比实验,证明了该方法的有效性及其优秀的分割性能. 相似文献

18.

Face recognition: a convolutional neural-network approach 总被引：46，自引：0，他引：46

Lawrence S. Giles C.L. Ah Chung Tsoi Back A.D. 《Neural Networks, IEEE Transactions on》1997,8(1):98-113

We present a hybrid neural-network for human face recognition which compares favourably with other methods. The system combines local image sampling, a self-organizing map (SOM) neural network, and a convolutional neural network. The SOM provides a quantization of the image samples into a topological space where inputs that are nearby in the original space are also nearby in the output space, thereby providing dimensionality reduction and invariance to minor changes in the image sample, and the convolutional neural network provides partial invariance to translation, rotation, scale, and deformation. The convolutional network extracts successively larger features in a hierarchical set of layers. We present results using the Karhunen-Loeve transform in place of the SOM, and a multilayer perceptron (MLP) in place of the convolutional network for comparison. We use a database of 400 images of 40 individuals which contains quite a high degree of variability in expression, pose, and facial details. We analyze the computational complexity and discuss how new classes could be added to the trained recognizer. 相似文献

19.

一种面向机器视觉感知的暗光图像增强网络

下载免费PDF全文

冯欣王思平张智先焦晓宁薛明龙《计算机应用研究》2024,41(6)

低光照等恶劣环境下的目标检测一直都是难点,低光照和多雾因素往往会导致图像出现可视度低、噪声大等情况,严重干扰目标检测的检测精度。针对上述问题,提出了一个面向机器视觉感知的低光图像增强网络MVP-Net,并与YOLOv3目标检测网络整合,构建了端到端的增强检测框架MVP-YOLO。MVP-Net采用了逆映射网络技术,将常规RGB图像转换为伪RAW图像特征空间,并提出了伪ISP增强网络DOISP进行图像增强。MVP-Net旨在发挥RAW图像在目标检测中的潜在优势,同时克服其在直接应用时所面临的限制。模型在多个真实场景暗光数据上取得了优于先前工作效果并且能够适应多种不同架构的检测器。其端到端检测框mAP（50%）指标达到了78.3%,比YOLO检测器提高了1.85%。相似文献

20.

用DOG函数进行边缘检测的硬件网络模型

刘子立王翔张少吾《自动化学报》1992,18(2):239-243

根据视觉计算理论,如果用一组不同大小的运算子对成象在视网膜上外界场景的二维图象进行光强度变化的检测可以获得原始图象的零交叉表象,即原始要素图.本文在讨论这一方法的基础上,提出了一种基于DOG函数的网络模型.模型满足了空间平移不变性,可实时并且平行地对输入信号进行边缘检测.模型中引入了时间维来构成尺度空间的零交叉表象的图谱,使得网络在简单有效的基础上实现. 相似文献