首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
目的 生成式对抗网络(GAN)的出现为计算机视觉应用提供了新的技术和手段,它以独特零和博弈与对抗训练的思想生成高质量的样本,具有比传统机器学习算法更强大的特征学习和特征表达能力。目前在机器视觉领域尤其是样本生成领域取得了显著的成功,是当前研究的热点方向之一。方法 以生成式对抗网络的不同模型及其在计算机视觉领域的应用为研究对象,在广泛调研文献特别是GAN的最新发展成果基础上,结合不同模型的对比试验,对每种方法的基本思想、方法特点及使用场景进行分析,并对GAN的优势与劣势进行总结,阐述了GAN研究的现状、在计算机视觉上的应用范围,归纳生成式对抗网络在高质量图像生成、风格迁移与图像翻译、文本与图像的相互生成和图像的还原与修复等多个计算机视觉领域的研究现状和发展趋势,并对每种应用的理论改进之处、优点、局限性及使用场景进行了总结,对未来可能的发展方向进行展望。结果 GAN的不同模型在生成样本质量与性能上各有优劣。当前的GAN模型在图像的处理上取得较大的成就,能生成以假乱真的样本,但是也存在网络不收敛、模型易崩溃、过于自由不可控的问题。结论 GAN作为一种新的生成模型具有很高的研究价值与应用价值,但目前存在一些理论上的桎梏亟待突破,在应用方面生成高质量的样本、逼真的场景是值得研究的方向。  相似文献   

2.
目的 生成式对抗网络(generative adversarial network,GAN)是一种无监督生成模型,通过生成模型和判别模型的博弈学习生成图像。GAN的生成模型是逐级直接生成图像,下级网络无法得知上级网络学习的特征,以至于生成的图像多样性不够丰富。另外,随着网络层数的增加,参数变多,反向传播变得困难,出现训练不稳定和梯度消失等问题。针对上述问题,基于残差网络(residual network,ResNet)和组标准化(group normalization,GN),提出了一种残差生成式对抗网络(residual generative adversarial networks,Re-GAN)。方法 Re-GAN在生成模型中构建深度残差网络模块,通过跳连接的方式融合上级网络学习的特征,增强生成图像的多样性和质量,改善反向传播过程,增强生成式对抗网络的训练稳定性,缓解梯度消失。随后采用组标准化(GN)来适应不同批次的学习,使训练过程更加稳定。结果 在Cifar10、CelebA和LSUN数据集上对算法的性能进行测试。Re-GAN的IS (inception score)均值在批次为64时,比DCGAN (deep convolutional GAN)和WGAN (Wasserstein-GAN)分别提高了5%和30%,在批次为4时,比DCGAN和WGAN分别提高了0.2%和13%,表明无论批次大小,Re-GAN生成图像具有很好的多样性。Re-GAN的FID (Fréchet inception distance)在批次为64时比DCGAN和WGAN分别降低了18%和11%,在批次为4时比DCGAN和WGAN分别降低了4%和10%,表明Re-GAN生成图像的质量更好。同时,Re-GAN缓解了训练过程中出现的训练不稳定和梯度消失等问题。结论 实验结果表明,在图像生成方面,Re-GAN的生成图像质量高、多样性强;在网络训练方面,Re-GAN在不同批次下的训练具有更好的兼容性,使训练过程更加稳定,梯度消失得到缓解。  相似文献   

3.
目的 目前大多数深度图像修复方法可分为两类:色彩图像引导的方法和单个深度图像修复方法。色彩图像引导的方法利用色彩图像真值,或其上一帧、下一帧提供的信息来修复深度图像。若缺少相应信息,这类方法是无效的。单个深度图像修复方法可以修复数据缺失较少的深度图像。但是,无法修复带有孔洞(数据缺失较大)的深度图像。为解决以上问题,本文将生成对抗网络(generative adversarial network,GAN)应用于深度图像修复领域,提出了一种基于GAN的单个深度图像修复方法,即Edge-guided GAN。方法 首先,通过Canny算法获得待修复深度图像的边界图像,并将此两个单通道图像(待修复深度图像和边界图像)合并成一个2通道数据;其次,设计Edge-guided GAN高性能的生成器、判别器和损失函数,将此2通道数据作为生成器的输入,训练生成器,以生成器生成的深度图像(假值)和深度图像真值为判别器的输入,训练判别器;最终得到深度图像修复模型,完成深度图像修复。结果 在Apollo scape数据集上与其他4种常用的GAN、不带边界信息的Edge-guided GAN进行实验分析。在输入尺寸为256×256像素,掩膜尺寸为32×32像素情况下,Edge-guided GAN的峰值信噪比(peak signal-to-noise ratio,PSN)比性能第2的模型提高了15.76%;在掩膜尺寸为64×64像素情况下,Edge-guided GAN的PSNR比性能第2的模型提高了18.64%。结论 Edge-guided GAN以待修复深度图像的边界信息为其修复的约束条件,有效地提取了待修复深度图像特征,大幅度地提高了深度图像修复的精度。  相似文献   

4.
目的 现有基于对抗图像的隐写算法大多只能针对一种隐写分析器设计对抗图像,且无法抵御隐写分析残差网络(steganalysis residual network,SRNet)、Zhu-Net等最新基于卷积神经网络隐写分析器的检测。针对这一现状,提出了一种联合多重对抗与通道注意力的高安全性图像隐写方法。方法 采用基于U-Net结构的生成对抗网络生成对抗样本图像,利用对抗网络的自学习特性实现多重对抗隐写网络参数迭代优化,并通过针对多种隐写分析算法的对抗训练,生成更适合内容隐写的载体图像。同时,通过在生成器中添加多个轻量级通道注意力模块,自适应调整对抗噪声在原始图像中的分布,提高生成对抗图像的抗隐写分析能力。其次,设计基于多重判别损失和均方误差损失相结合的动态加权组合方案,进一步增强对抗图像质量,并保障网络快速稳定收敛。结果 实验在BOSS Base 1.01数据集上与当前主流的4种方法进行比较,在使用原始隐写图像训练后,相比于基于U-Net结构的生成式多重对抗隐写算法等其他4种方法,使得当前性能优异的5种隐写分析器平均判别准确率降低了1.6%;在使用对抗图像和增强隐写图像再训练后,相比其他4种方法,仍使得当前性能优异的5种隐写分析器平均判别准确率降低了6.8%。同时也对对抗图像质量进行分析,基于测试集生成的2 000幅对抗图像的平均峰值信噪比(peak signal-tonoise ratio,PSNR)可达到39.925 1 dB,实验结果表明本文提出的隐写网络极大提升了隐写算法的安全性。结论 本文方法在隐写算法安全性领域取得了较优秀的性能,且生成的对抗图像具有很高的视觉质量。  相似文献   

5.
目的 为解决真实环境中由类内差距引起的面部表情识别率低及室内外复杂环境对类内差距较大的面部表情识别难度大等问题,提出一种利用生成对抗网络(generative adversarial network,GAN)识别面部表情的方法。方法 在GAN生成对抗的思想下,构建一种IC-GAN(intra-class gap GAN)网络结构,使用卷积组建编码器、解码器对自制混合表情图像进行更深层次的特征提取,使用基于动量的Adam(adaptive moment estimation)优化算法进行网络权重更新,重点针对真实环境面部表情识别过程中的类内差距较大的表情进行识别,使其更好地适应类内差异较大的任务。结果 基于Pytorch环境,在自制的面部表情数据集上进行训练,在面部表情验证集上进行测试,并与深度置信网络(deep belief network,DBN)和GoogLeNet网络进行对比实验,最终IC-GAN网络的识别结果比DBN网络和GoogLeNet网络分别提高11%和8.3%。结论 实验验证了IC-GAN在类内差距较大的面部表情识别中的精度,降低了面部表情在类内差距较大情况下的误识率,提高了系统鲁棒性,为面部表情的生成工作打下了坚实的基础。  相似文献   

6.
目的 域自适应分割网(AdaptSegNet)在城市场景语义分割中可获得较好的效果,但是该方法直接采用存在较大域差异(domain gap)的源域数据集GTA(grand theft auto)5与目标域数据集Cityscapes进行对抗训练,并且在网络的不同特征层间的对抗学习中使用固定的学习率,所以分割精度仍有待提高。针对上述问题,提出了一种新的域自适应的城市场景语义分割方法。方法 采用SG-GAN(semantic-aware grad-generative adversarial network(GAN))方法对虚拟数据集GTA5进行预处理,生成新的数据集SG-GTA5,其在灰度、结构以及边缘等信息上都更加接近现实场景Cityscapes,并用新生成的数据集代替原来的GTA5数据集作为网络的输入。针对AdaptSegNet加入的固定学习率问题,在网络的不同特征层引入自适应的学习率进行对抗学习,通过该学习率自适应地调整不同特征层的损失值,达到动态更新网络参数的目标。同时,在对抗网络的判别器中增加一层卷积层,以增强网络的判别能力。结果 在真实场景数据集Cityscapes上进行验证,并与相关的域自适应分割模型进行对比,结果表明:提出的网络模型能更好地分割出城市交通场景中较复杂的物体,对于sidewalk、wall、pole、car、sky的平均交并比(mean intersection over union, mIoU)分别提高了9.6%、5.9%、4.9%、5.5%、4.8%。结论 提出方法降低了源域和目标域数据集之间的域差异,减少了训练过程中的对抗损失值,规避了网络在反向传播训练过程中出现的梯度爆炸问题,从而有效地提高了网络模型的分割精度;同时提出基于该自适应的学习率进一步提升模型的分割性能;在模型的判别器网络中新添加一个卷积层,能学习到图像的更多高层语义信息,有效地缓解了类漂移的问题。  相似文献   

7.
随着多传感器的普及,多模态数据获得科研和产业面的持续关注,通过深度学习来处理多源模态信息的技术是核心所在。文本生成图像是多模态技术的方向之一,由于生成对抗网络(GAN)生成图像更具有真实感,使得文本图像生成取得卓越进展。它可用于图像编辑和着色、风格转换、物体变形、照片增强等多个领域。将基于图像生成功能的GAN网络分为四大类:语义增强GAN、可增长式GAN、多样性增强GAN、清晰度增强GAN,并根据分类法提供的方向将基于功能的文本图像生成模型进行整合比较,厘清脉络;分析了现有的评估指标以及常用的数据集,阐明了对复杂文本的处理等方面的可行性以及未来的发展趋势;系统性地补充了生成对抗网络在文本图像生成方面的分析,将有助于研究者进一步推进这一领域。  相似文献   

8.
生成对抗网络(generative adversarial network, GAN)已成为图像生成问题中常用的模型之一,但是GAN的判别器在训练过程中易出现梯度消失而导致训练不稳定,以致无法获得最优化的GAN而影响生成图像的质量。针对该问题,设计满足Lipschitz条件的谱归一化卷积神经网络(CNN with spectral normalization, CSN)作为判别器,并采用具有更强表达能力的Transformer作为生成器,由此提出图像生成模型TCSNGAN。CSN判别器网络结构简单,解决了GAN模型的训练不稳定问题,且能依据数据集的图像分辨率配置可调节的CSN模块数,以使模型达到最佳性能。在公共数据集CIFAR-10和STL-10上的实验结果表明,TCSNGAN模型复杂度低,生成的图像质量优;在火灾图像生成中的实验结果表明,TCSNGAN可有效解决小样本数据集的扩充问题。  相似文献   

9.
目的 现有的医学图像配准算法在处理较大非刚性形变的医学图像时,存在配准精度低和泛化能力不足的问题。针对该问题,提出结合密集残差块和生成对抗网络(generative adversarial network,GAN)的图像配准方法,用于多模态医学图像的非刚性配准。方法 将密集残差块引入到生成器,提取待配准图像对的更多高层特征,从而提高配准精度;在GAN中采用最小二乘损失代替逻辑回归构造的交叉熵损失,由于最小二乘损失的收敛条件更严格,同时能缓解梯度消失和过拟合,从而提高配准模型的稳定性;在判别器网络中引入相对平均GAN(relative average GAN,RaGAN),即在标准判别器的基础上增加一项梯度惩罚因子,降低判别器的判别误差,从而相对减少配准模型的配准误差,有助于稳定配准精度。结果 在DRIVE(digital retinal images for vessel extraction)数据集上进行训练和验证,在Sunybrook Cardiac数据集和Brain MRI数据集上进行泛化性能测试,并与几种主流医学图像非刚性配准算法进行对比实验,表明,本文配准模型在精度和泛化能力上均有一定程度的提升,相比其他方法,视网膜图像、心脏图像和脑部图像的配准Dice值分别提升了3.3%、3.0%、1.5%。结论 提出的配准方法能够获取更多高层特征信息,从而提升配准精度;同时基于最小二乘法构建损失函数并对判别器进行加强,能够使得配准模型在训练阶段快速收敛,提高了配准模型的稳定性和泛化能力,适合存在较大非刚性形变的医学图像的配准。  相似文献   

10.
目的 将半监督对抗学习应用于图像语义分割,可以有效减少训练过程中人工生成标记的数量。作为生成器的分割网络的卷积算子只具有局部感受域,因此对于图像不同区域之间的远程依赖关系只能通过多个卷积层或增加卷积核的大小进行建模,但这种做法也同时失去了使用局部卷积结构获得的计算效率。此外,生成对抗网络(generative adversarial network,GAN)中的另一个挑战是判别器的性能控制。在高维空间中,由判别器进行的密度比估计通常是不准确且不稳定的。为此,本文提出面向图像语义分割的半监督对抗学习方法。方法 在生成对抗网络的分割网络中附加两层自注意模块,在空间维度上对语义依赖关系进行建模。自注意模块通过对所有位置的特征进行加权求和,有选择地在每个位置聚合特征。因而能够在像素级正确标记值数据的基础上有效处理输入图像中广泛分离的空间区域之间的关系。同时,为解决提出的半监督对抗学习方法的稳定性问题,在训练过程中将谱归一化应用到对抗网络的判别器中,这种加权归一化方法不仅可以稳定判别器网络的训练,并且不需要对唯一的超参数进行密集调整即可获得满意性能,且实现简单,计算量少,即使在缺乏互补的正则化技术的情况下,谱归一化也可以比权重归一化和梯度损失更好地改善生成图像的质量。结果 实验在Cityscapes数据集及PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes)数据集上与9种方法进行比较。在Cityscapes数据集中,相比基线模型,性能提高了2.3%~3.2%。在PASCAL VOC 2012数据集中,性能比基线模型提高了1.4%~2.5%。同时,在PASCAL VOC 2012数据集上进行消融实验,可以看出本文方法的有效性。结论 本文提出的半监督对抗学习的语义分割方法,通过引入的自注意力机制捕获特征图上各像素之间的依赖关系,应用谱归一化增强对抗生成网络的稳定性,表现出了较好的鲁棒性和有效性。  相似文献   

11.
近年来,生成对抗网络在约束图像生成方面表现出了较好的潜力,使其适用于图像超分辨率重建。针对基于卷积神经网络的图像超分辨率重建算法存在的特征信息利用率低的问题,基于生成对抗网络框架,提出了残差密集生成对抗网络的超分辨率重建算法。该算法定义生成器网络、判别器网络,通过构建残差密集网络作为生成器网络及PatchGAN作为判别器网络,以解决基于卷积神经网络的超分辨率算法中特征信息利用率低以及生成对抗网络收敛慢的问题。该重建算法在Set5等标准数据集上与主流的超分辨率重建算法进行对比,实验表明,该算法能够有效地提高特征信息利用率,较好地恢复低分辨率图像的细节信息,提高图像重建的质量。  相似文献   

12.
受成像设备、传输条件等因素限制,遥感图像的清晰度难以保证。图像超分辨率技术旨在从低分辨率图像中恢复出高分辨率图像,对遥感图像的高质量解译具有重要意义。针对传统方法依赖多帧图像序列、重建结果过于平滑等问题,提出一种基于边界平衡生成对抗网络的单帧遥感图像超分辨方法。生成器与判别器均设计成带跳跃连接的端到端自编码器结构,为增强生成图像质量及加速网络收敛,使用了一种基于判别器重构误差的损失函数。在NWPU-RESISC45数据集上的实验结果表明,该方法能够提供更多的高频信息,重建结果最接近真实图像,相较于邻近插值和双三次插值方法,PSNR提升约2.70 dB,相较于其他基于深度卷积神经网络的方法,PSNR提升约0.72 dB。  相似文献   

13.
目的 由MRI(magnetic resonance imaging)得到的影像具有分辨率高、软组织对比好等优点,使得医生能更精确地获得需要的信息,精确的前列腺MRI分割是计算机辅助检测和诊断算法的必要预处理阶段。因此临床上需要一种自动或半自动的前列腺分割算法,为各种各样的临床应用提供具有鲁棒性、高质量的结果。提出一种多尺度判别条件生成对抗网络对前列腺MRI图像进行自动分割以满足临床实践的需求。方法 提出的分割方法是基于条件生成对抗网络,由生成器和判别器两部分组成。生成器由类似U-Net的卷积神经网络组成,根据输入的MRI生成前列腺区域的掩膜;判别器是一个多尺度判别器,同一网络结构,输入图像尺寸不同的两个判别器。为了训练稳定,本文方法使用了特征匹配损失。在网络训练过程中使用对抗训练机制迭代地优化生成器和判别器,直至判别器和生成器同时收敛为止。训练好的生成器即可完成前列腺MRI分割。结果 实验数据来自PROMISE12前列腺分割比赛和安徽医科大学第一附属医院,以Dice相似性系数和Hausdorff距离作为评价指标,本文算法的Dice相似性系数为88.9%,Hausdorff距离为5.3 mm,与U-Net、DSCNN(deeply-supervised convolutional neured network)等方法相比,本文算法分割更准确,鲁棒性更高。在测试阶段,每幅图像仅需不到1 s的时间即可完成分割,超出了专门医生的分割速度。结论 提出了一种多尺度判别条件生成对抗网络来分割前列腺,从定量和定性分析可以看出本文算法的有效性,能够准确地对前列腺进行分割,达到了实时分割要求,符合临床诊断和治疗需求。  相似文献   

14.
为方便非专业用户修图,提出一种基于Transformer的图像编辑模型TMGAN,使用户可通过自然语言描述自动修改图像属性。TMGAN整体框架采用生成对抗网络,生成器采用Transformer编码器结构提取全局上下文信息,解决生成图像不够真实的问题;判别器包含基于Transformer的多尺度判别器和词级判别器两部分,给生成器细粒度的反馈,生成符合文本描述的目标图像且保留原始图像中与文本描述无关的内容。实验表明,此模型在CUB Bird数据集上,IS(inception score)、FID(Fréchet inception distance)以及MP(manipulation precision)度量指标分别达到了9.07、8.64和0.081。提出的TMGAN模型对比现有模型效果更好,生成图像既满足了给定文本的属性要求又具有高语义性。  相似文献   

15.
针对肠胃镜诊疗系统存在图像关键信息模糊和适应性差等问题, 提出一种结合改进注意力机制的循环生成对抗网络, 以实现对消化道深度信息的准确估计. 该网络以CycleGAN为基础网络, 结合双重注意力机制, 并引入残差门控机制和非局部模块来更全面地捕捉和理解输入数据的特征结构和全局相关性, 从而提高深度图像生成的质量和适应性; 同时采用双尺度特征融合网络作为判别器, 以提升其判别能力并平衡与生成器之间的工作性能. 实验结果表明, 在肠胃镜场景中预测效果良好, 相比其他无监督方法, 在胃道、小肠和结肠数据集上平均准确度分别提升了7.39%、10.17%和10.27%. 同时, 在实验室人体胃道器官模型上也能够准确地估计出相对深度信息, 并提供精确的边界信息.  相似文献   

16.
林泓  任硕  杨益  张杨忆 《自动化学报》2021,47(9):2226-2237
无监督图像翻译使用非配对训练数据能够完成图像中对象变换、季节转移、卫星与路网图相互转换等多种图像翻译任务.针对基于生成对抗网络(Generative adversarial network, GAN)的无监督图像翻译中训练过程不稳定、无关域改变较大而导致翻译图像细节模糊、真实性低的问题, 本文基于对偶学习提出一种融合自注意力机制和相对鉴别的无监督图像翻译方法.首先, 生成器引入自注意力机制加强图像生成过程中像素间远近距离的关联关系, 在低、高卷积层间增加跳跃连接, 降低无关图像域特征信息损失.其次, 判别器使用谱规范化防止因鉴别能力突变造成的梯度消失, 增强训练过程中整体模型的稳定性.最后, 在损失函数中基于循环重构增加自我重构一致性约束条件, 专注目标域的转变, 设计相对鉴别对抗损失指导生成器和判别器之间的零和博弈, 完成无监督的图像翻译.在Horse & Zebra、Summer & Winter以及AerialPhoto & Map数据集上的实验结果表明:相较于现有GAN的图像翻译方法, 本文能够建立更真实的图像域映射关系, 提高了生成图像的翻译质量.  相似文献   

17.
生成对抗网络的出现对解决深度学习领域样本数据不足的研究起到了极大的促进作用。为解决生成对抗网络生成的图像出现轮廓模糊、前景背景分离等细节质量问题,提出一种改进梯度惩罚的Wasserstein生成对抗网络算法(PSWGAN-GP)。该算法在WGAN-GP的Wasserstein距离损失和梯度惩罚的基础上,在判别器中使用从VGG-16网络的3个池化层中提取的特征,并通过这些特征计算得出风格损失(Style-loss)和感知损失(Perceptual-loss)作为原损失的惩罚项,提升判别器对深层特征的获取和判别能力,对生成图像的细节进行修正和提升。实验结果表明,在生成器和判别器网络结构相同,并保证超参数相同的情况下,PSWGAN-GP的IS评分和FID评分相对于参与对比的其他图像生成算法有所提升,且可有效改善生成图片的细节质量。  相似文献   

18.
为解决机载遥感图像质量易受环境影响的问题,对其进行超分辨率重建,对现有深度学习机载遥感图像超分辨率重建方法存在的特征提取能力差、重建图像边缘平滑、模型训练困难的问题进行改进,增强图像重建效果。将生成对抗网络作为模型的整体框架,使用密集剩余残差块增强模型特征提取能力,增加跳跃连接,有效提取机载遥感图像的浅层和深层特征,引入沃瑟斯坦式生成对抗网络优化模型训练。该方法能够有效对机载遥感图像进行4倍重建,在峰值信噪比评价上较对比方法约有2 dB增益,重建出的机载遥感图像在视觉上更清晰、细节更丰富、边缘更锐利。实验结果表明,该方法有效提升了模型特征提取能力,优化了训练过程,重建的机载遥感图像效果较好。  相似文献   

19.
针对传统目标检测算法在环境多变、背景复杂、目标聚集、小目标过多的航空遥感影像目标检测上效果不理想的问题, 本文提出了一种基于注意力机制及生成对抗网络的遥感影像目标检测模型Attention-GAN-Mask R-CNN. 该模型将注意力、生成对抗网络和Mask R-CNN结合起来, 用以解决遥感影像目标检测中存在的问题. 实验结果表明, 在复杂的遥感影像数据集中, 该方法提升了目标检测的效率和准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号