共查询到20条相似文献,搜索用时 15 毫秒
1.
王军;高放;省海先;张宇 《小型微型计算机系统》2024,(1):241-248
针对图像生成算法中生成对抗网络训练效率低且不稳定的问题,本文提出了一种改进生成对抗网络的图像生成算法(STGAN),该算法首先在判别器中引入Swin Transformer机制,来增强网络的判别能力;其次改进了生成器,使用自注意力代替卷积神经并且加入谱范数规范化,来达到平衡生成器和判别器的效果;最后使用Wasserstein距离作为损失函数,以提高网络的训练稳定性.实验数据表明,在CelebA和LSUN两种不同数据集上STGAN比自注意力生成对抗网络所生成图像的FID值分别降低了2.5266和5.4476,IS值分别提高了0.0941和0.0343.从实验结果可以看出,STGAN模型生成的图片具有非常高的自然度和逼真度,有效地提升了生成图像的质量和真实性. 相似文献
2.
图像盲去运动模糊一直是计算机视觉领域的一个经典问题,它的目的是在模糊核未知的情况下恢复清晰图像。考虑到更大的感受野以及多尺度信息对恢复清晰图像中的全局信息以及局部细节信息具有重要作用,因此提出的方法对DeblurGAN方法进行改进,提出一种基于条件生成对抗网络的GR-DeblurGAN(granular resi-dual DeblurGAN)的单图像盲去运动模糊方法,采用细粒度残差模块(granular residual block)作为骨干网络,以此在不增加参数量的情况下,扩大感受野,获得多尺度信息。最后在两个广泛使用的数据集:GoPro数据集以及Kohler数据集上进行算法性能评估,并与代表性算法进行对比。从实验结果可以看出,提出的方法改进效果明显,并且在计算开销上面优于其他算法。 相似文献
3.
符号音乐的生成在人工智能领域中仍然是一个尚未解决的问题,面临着诸多挑战。经研究发现,现有的多音轨音乐生成方法在旋律、节奏及和谐度上均达不到市场所要求的效果,并且生成的音乐大多不符合基础的乐理知识。为了解决以上问题,提出一种新颖的基于Transformer的多音轨音乐生成对抗网络(Transformer-GAN),以乐理规则为指导来产生具有高音乐性的音乐作品。首先,采用Transformer的译码部分与在Transformer基础之上改编的Cross-Track Transformer(CT-Transformer)分别对单音轨内部及多音轨之间的信息进行学习;然后,使用乐理规则和交叉熵损失相结合的方法引导生成网络的训练,并在训练鉴别网络的同时优化精心设计的目标损失函数;最后,生成具有旋律性、节奏性及和谐性的多音轨音乐作品。实验结果表明,与其他多乐器音乐生成模型相比,在钢琴轨、吉他轨及贝斯轨上,Transformer-GAN的预测精确度(PA)最低分别提升了12%、11%及22%,序列相似度(SS)最低分别提升了13%、6%及10%,休止符指标最低分别提升了8%、4%及17%。由此可见,Transformer-GAN在加入了CT-Transformer及音乐规则奖励模块之后能有效提升音乐的PA、SS等指标,使生成的音乐质量整体上有较大的提升。 相似文献
4.
针对相机抖动或物体运动引起的图像模糊问题,提出了一种Mamba与频域融合的网络MFNet。该网络采用翻转解码器架构,将视觉Transformer的非因果建模能力与Mamba模型框架结合,通过融合频域信息提升图像去模糊性能。设计了一种非因果像素交互方法,利用注意力状态空间方程有效建模未扫描序列中语义相似像素,并通过傅里叶变换模块缓解长距离信息衰减问题。实验结果表明,MFNet在GoPro数据集上的性能超越现有主流方法,PSNR为33.43 dB,FLOPs为66.7 G,恢复精度更高且计算开销更低,能够有效去除图像模糊并恢复细节。 相似文献
5.
针对现有图像去模糊算法在处理边缘丢失时出现弥散和伪影以及在视频处理中使用全帧去模糊方式导致不满足实时性需求的问题,提出一种基于主动判别机制的自适应生成对抗网络图像去模糊(ADBGAN)算法。首先,提出一种自适应模糊判别机制,开发了自适应模糊处理网络模块对输入图像进行模糊先验判断。在采集到输入时提前判断输入图像的模糊程度,从而剔除足够清晰的输入帧以提升算法运行效率。然后,在精细特征提取过程中引入注意力机制中的激励环节,从而在特征提取的流程中进行权重归一化来提升网络对精细特征的恢复能力。最后,在生成器架构中改进了特征金字塔精细特征恢复结构,并采用更轻量化的特征融合流程提高运行效率。为验证算法的有效性,在开源数据集GoPro和Kohler上进行了详细的对比实验。实验结果显示,在GoPro数据集中ADBGAN的视觉保真度是尺度循环网络(SRN)算法的2.1倍,并在峰值信噪比(PSNR)上较SRN算法提升了0.762 dB,具有良好的图像信息恢复能力;在视频数据处理时间上ADBGAN大幅超越了测试的所有算法,实测处理时间较SRN减少了85.9%。ADBGAN能够高效生成信息质量更高的去模糊图像。 相似文献
6.
生成对抗网络是图像合成的重要方法,也是目前实现文字生成图像任务最多的手段。随着跨模态生成研究不断地深入,文字生成图像的真实度与语义相关性得到了巨大提升,无论是生成花卉、鸟类、人脸等自然图像,还是生成场景图和布局,都取得了较好的成果。同时,文字生成图像技术也存在面临着一些挑战,如难以生成复杂场景中的多个物体,以及现有的评估指标不能准确地评估新提出的文字生成图像算法,需要提出新的算法评价指标。回顾了文字生成图像方法自提出以来的发展状况,列举了近年提出的文字生成图像算法、常用数据集和评估指标。最后从数据集、指标、算法和应用方面探讨了目前存在的问题,并展望了今后的研究方向。 相似文献
7.
计算机视觉中的许多问题可以抽象为将输入图像“转换”成对应的输出图像,图像转换算法是许多计算机视觉问题的通用解决方案,例如语义分割、风格转换等。本文将以遥感图像去云作为图像转换的特例,研究基于生成对抗网络的图像转换算法。提出基于残差模块的生成模型可以对单幅遥感图像进行厚云和薄云的去除;同时提出的多尺度判别网络以及VGG损失函数,有效地解决了复杂场景的云雾遮挡问题。实验结果表明,本文提出的图像转换算法在遥感图像薄云数据集上峰值信噪比提升了1.64 dB,在厚云数据集上峰值信噪比提升了1.92 dB,同时生成的无云遥感图像和真实的无云图像具有较高的结构相似性。 相似文献
8.
9.
针对相机成像时相机抖动、物体运动等导致图像产生运动模糊这一十分具有挑战性的问题;提出基于生成对抗网络的深度卷积神经网络来复原模糊图像的解决方案。该方案省略了模糊核估计的过程;采用端对端的方式直接获取复原图像;通过引入生成对抗网络思想的对抗损失和对残差网络进行改进;有效地复原了图像的细节信息。最后通过训练此深度卷积神经网络模型并在相关模糊复原基准数据集上测试;证明了该方案取得了较好的结果。 相似文献
10.
生成对抗网络(Generative Adversarial Network,GAN)是一种深度学习模型,自2014年提出以来备受关注。它在短短几年内发展迅速,并在众多应用场景中取得了显著成果。虽然相关综述论文对生成对抗网络在各个领域的应用进行了介绍与总结,但缺乏针对性。文章以GAN在图像生成领域的应用需求为背景,分析了GAN的基本原理,对其发展历程中具有重要意义且广受关注的改进方法进行了介绍与分析,并总结了生成图像的评价方法。 相似文献
11.
光场图像新视图生成算法在视点内插和外插方面已经取得了良好的研究成果,但在视点位置平移和旋转一定角度情形下的透视视图生成仍然是一项具有挑战性的任务。针对上述问题,提出了一种基于条件生成对抗网络的光场图像透视视图生成算法LFIPTNet(light field image perspective transformation network),利用相机的位姿信息作为条件来引导条件生成对抗网络学习新视图的内容。提出了多个模块,充分利用相机位姿信息和光场宏像素图像(macro pixel image,MPI)记录空间信息、角度信息、深度信息来生成预测视图。提出的方法在构建的数据集上与最新的三种方法进行了比较,相比于性能第二的StereoMag模型,PSNR提高了7.77 dB,SSIM提高了0.35。消融实验部分对提出的模块进行了评估,验证了创新点的有效性。充分的实验结果表明LFIPTNet相比于现有算法,生成的预测视图更加准确。 相似文献
12.
文本生成图像算法对生成图像的质量和文本匹配度有很高的要求. 为了提高生成图像的清晰度, 在现有算法的基础上改进生成对抗网络模型. 加入动态记忆网络、细节校正模块(DCM)、文本图像仿射组合模块(ACM)来提高生成图片的质量. 其中动态记忆网络可以细化模糊图像并选择重要的文本信息存储, 以提高下一阶段生成图像的质量. DCM纠正细节, 完成合成图像中缺失部分. ACM编码原始图像特征, 重建与文本描述无关的部分. 改进后的模型实现了两个目标, 一是根据给定文本生成高质量的图片, 同时保留与文本无关的内容. 二是使生成图像不再较大程度依赖于初始图像的生成质量. 通过在CUB-200-2011鸟类数据集进行研究实验, 结果表明相较之前的算法模型, FID (Frechet inception)有了显著的改善, 结果由16.09变为10.40. 证明了算法的可行性和先进性. 相似文献
13.
李慧;贾炳志;王晨曦;董子宇;李纪龙;仲兆满;陈艳艳 《计算机应用》2025,(5):1439-1446
针对水下图像对比度低、噪声大和存在色彩偏差等问题,以生成对抗网络(GAN)为核心框架,提出一种基于Swin Transformer的生成对抗网络水下图像增强模型SwinGAN(GAN based on Swin Transformer)。首先,生成网络部分遵循编码器-瓶颈层-解码器的结构设计,在瓶颈层将输入的特征图分割成多个不重叠的局部窗口;其次,引入双路窗口多头自注意力机制(DWMSA),在加强捕获全局信息和长距离依赖关系的同时,增强局部注意力;最后,在解码器中将下采样后的特征图经过多个上采样窗口重新组合成原始尺寸的特征图,判别网络则采用马尔可夫判别器。实验结果表明,与URSCT-SESR模型相比,在UFO-120数据集上,SwinGAN的峰值信噪比(PSNR)提升了0.837 2 dB,结构相似度(SSIM)提高了0.003 6;在EUVP-515数据集上,SwinGAN的PSNR提升了0.843 9 dB,SSIM提高了0.005 1,水下图像质量评价指标(UIQM)增加了0.112 4,水下彩色图像质量评估指标(UCIQE)略有上升,增加了0.001 0。可见,SwinGAN的主观评价以及客观评价指标都表现出色,在改善水下图像的色彩偏差问题上取得了不错的效果。 相似文献
14.
提出一种带出血病症的眼底图像生成方法,该方法可以丰富眼底图像样本,提升眼底出血检测系统的准确率。该方法用图像分割技术从现有图像中分割出血管树和出血块,利用GAN生成大量血管树和出血块,并经过预处理合并,把合并后的图片和真实眼底图片一起输入到改进的CycleGAN中,生成大量眼底图片。其中对CycleGAN进行改进:改进模型结构,引入Wassertein距离,并加入同一映射损失和感知损失。实验表明,用该方法生成图像的PSNR值比现有技术提高9.82%,SSIM值提高4.17%且收敛速度更快。把生成图像添加到出血检测系统的训练集中,系统的AUC值提升3.51%,证明该方法优于现有技术。 相似文献
15.
生成对抗网络(generative adversarial network, GAN)已成为图像生成问题中常用的模型之一,但是GAN的判别器在训练过程中易出现梯度消失而导致训练不稳定,以致无法获得最优化的GAN而影响生成图像的质量。针对该问题,设计满足Lipschitz条件的谱归一化卷积神经网络(CNN with spectral normalization, CSN)作为判别器,并采用具有更强表达能力的Transformer作为生成器,由此提出图像生成模型TCSNGAN。CSN判别器网络结构简单,解决了GAN模型的训练不稳定问题,且能依据数据集的图像分辨率配置可调节的CSN模块数,以使模型达到最佳性能。在公共数据集CIFAR-10和STL-10上的实验结果表明,TCSNGAN模型复杂度低,生成的图像质量优;在火灾图像生成中的实验结果表明,TCSNGAN可有效解决小样本数据集的扩充问题。 相似文献
16.
17.
18.
19.
与基于图像增强的去雾算法和基于物理模型的去雾算法相比,基于深度学习的图像去雾方法在一定程度上提高计算效率,但在场景复杂时仍存在去雾不彻底及颜色扭曲的问题.针对人眼对全局特征和局部特征的感受不同这一特性,文中构建基于生成对抗网络的图像去雾算法.首先设计多尺度结构的生成器网络,分别以全尺寸图像和分割后的图像块作为输入,提取图像的全局轮廓信息和局部细节信息.然后设计一个特征融合模块,融合全局信息和局部信息,通过判别网络判断生成无雾图像的真假.为了使生成的去雾图像更接近对应的真实无雾图像,设计多元联合损失函数,结合暗通道先验损失函数、对抗损失函数、结构相似性损失函数及平滑L1损失函数训练网络.在合成数据集和真实图像上与多种算法进行实验对比,结果表明,文中算法的去雾效果较优. 相似文献
20.
针对已有的动漫人物头像生成方法中生成结果的多样性较差,且难以准确地按照用户想法按类生成或按局部细节生成的问题,基于含辅助分类器的对抗生成网络(ACGAN),结合互信息理论、多尺度判别等提出了一种改进模型LMV-ACGAN(Latent label attached Multi scale ACGAN with impr... 相似文献