共查询到19条相似文献,搜索用时 62 毫秒
1.
晋嘉利;余璐 《计算机工程与应用》2025,(4):176-191
基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑战性。目前针对图像字幕生成的多模态任务的持续学习研究较少,缺乏更适用于基于自注意力模型的持续图像字幕生成方法。针对以上挑战提出了一种应用动态Token的融合特征的持续图像字幕生成方法。在Transformer中对图像字幕生成任务所涉及的不同模态的数据特征进行融合,并对融合特征进行正则化计算;为每一个子任务定义一个Token,Token将随着子任务的切换而变化,这种Token即为动态Token,相比于整个训练阶段只定义一个且被所有子任务共用的静态Token而言,动态Token更能保存每个子任务特有的信息和特点。利用这些动态任务Token和任务标识融合特征注意力模块进一步获得具有任务标识信息的融合特征,并在每个子任务训练结束后保存其对应的Token,以保持模型对旧任务的记忆和表达能力,减少模型对旧任务的灾难性遗忘。在MS-COCO和Flickr30k数据集上的实验结果表明,应用动态Token的融合特征的持续图像字幕生成方法在Transformer架构上优于所有基线方法。以CIDEr指标为例,所有训练任务结束后CIDEr指标的平均分数相较于微调和所有基线方法中的最优方法分别提高了31.06%和13.94%。 相似文献
2.
文本到图像生成方法旨在生成与文本描述在语义上一致的高质量图像。先前生成对抗性网络通常首先生成具有粗略形状和颜色的初始图像,然后将初始图像细化为高分辨率图像。大多数堆叠式体系结构仍然存在两个主要问题:(1)这些方法在很大程度上取决于初始图像的质量。如果初始图像没有很好地初始化,那么最终合成的图像看起来像是来自不同图像尺度的视觉特征的简单组合。(2)以往工作广泛采用的跨模态文本图像融合方法在文本图像融合过程中受到限制。提出了一种新的文本到图像生成模型,该模型引入了一个无需多生成器即可直接生成高质量图像的单阶段主干,以及一个新的语义布局深度融合网络,以实现文本和视觉特征的充分融合。在具有挑战性的CUB和COCO Stuff数据集上的实验证明了模型在生成图像方面的能力,包括视觉逼真度和与输入文本描述的一致性。 相似文献
3.
生成对抗网络(Generative Adversarial Network,GAN)是一种深度学习模型,自2014年提出以来备受关注。它在短短几年内发展迅速,并在众多应用场景中取得了显著成果。虽然相关综述论文对生成对抗网络在各个领域的应用进行了介绍与总结,但缺乏针对性。文章以GAN在图像生成领域的应用需求为背景,分析了GAN的基本原理,对其发展历程中具有重要意义且广受关注的改进方法进行了介绍与分析,并总结了生成图像的评价方法。 相似文献
4.
多聚焦图像融合是一种以软件方式有效扩展光学镜头景深的技术,该技术通过综合同一场景下多幅部分聚焦图像包含的互补信息,生成一幅更加适合人类观察或计算机处理的全聚焦融合图像,在数码摄影、显微成像等领域具有广泛的应用价值。传统的多聚焦图像融合方法往往需要人工设计图像的变换模型、活跃程度度量及融合规则,无法全面充分地提取和融合图像特征。深度学习由于强大的特征学习能力被引入多聚焦图像融合问题研究,并迅速发展为该问题的主流研究方向,多种多样的方法不断提出。鉴于国内鲜有多聚焦图像融合方面的研究综述,本文对基于深度学习的多聚焦图像融合方法进行系统综述,将现有方法分为基于深度分类模型和基于深度回归模型两大类,对每一类中的代表性方法进行介绍;然后基于3个多聚焦图像融合数据集和8个常用的客观质量评价指标,对25种代表性融合方法进行了性能评估和对比分析;最后总结了该研究方向存在的一些挑战性问题,并对后续研究进行展望。本文旨在帮助相关研究人员了解多聚焦图像融合领域的研究现状,促进该领域的进一步发展。 相似文献
5.
随着多传感器的普及;多模态数据获得科研和产业面的持续关注;通过深度学习来处理多源模态信息的技术是核心所在。文本生成图像是多模态技术的方向之一;由于生成对抗网络(GAN)生成图像更具有真实感;使得文本图像生成取得卓越进展。它可用于图像编辑和着色、风格转换、物体变形、照片增强等多个领域。将基于图像生成功能的GAN网络分为四大类:语义增强GAN、可增长式GAN、多样性增强GAN、清晰度增强GAN;并根据分类法提供的方向将基于功能的文本图像生成模型进行整合比较;厘清脉络;分析了现有的评估指标以及常用的数据集;阐明了对复杂文本的处理等方面的可行性以及未来的发展趋势;系统性地补充了生成对抗网络在文本图像生成方面的分析;将有助于研究者进一步推进这一领域。 相似文献
6.
7.
提出一种带出血病症的眼底图像生成方法,该方法可以丰富眼底图像样本,提升眼底出血检测系统的准确率。该方法用图像分割技术从现有图像中分割出血管树和出血块,利用GAN生成大量血管树和出血块,并经过预处理合并,把合并后的图片和真实眼底图片一起输入到改进的CycleGAN中,生成大量眼底图片。其中对CycleGAN进行改进:改进模型结构,引入Wassertein距离,并加入同一映射损失和感知损失。实验表明,用该方法生成图像的PSNR值比现有技术提高9.82%,SSIM值提高4.17%且收敛速度更快。把生成图像添加到出血检测系统的训练集中,系统的AUC值提升3.51%,证明该方法优于现有技术。 相似文献
8.
近年来,生成对抗网络(GAN)在从文本描述到图像的生成中已经取得了显著成功,但仍然存在图像边缘模糊、局部纹理不清晰以及生成样本方差小等问题。针对上述不足,在叠加生成对抗网络模型(StackGAN++)基础上,提出了一种多层次结构生成对抗网络(MLGAN)模型,该网络模型由多个生成器和判别器以层次结构并列组成。首先,引入层次结构编码方法和词向量约束来改变网络中各层次生成器的条件向量,使图像的边缘细节和局部纹理更加清晰生动;然后,联合训练生成器和判别器,借助多个层次的生成图像分布共同逼近真实图像分布,使生成样本方差变大,增加生成样本的多样性;最后,从不同层次的生成器生成对应文本的不同尺度图像。实验结果表明,在CUB和Oxford-102数据集上MLGAN模型的Inception score分别达到了4.22和3.88,与StackGAN++相比,分别提高了4.45%和3.74%。MLGAN模型在解决生成图像的边缘模糊和局部纹理不清晰方面有了一定提升,其生成的图像更接近真实图像。 相似文献
9.
多聚焦图像融合能够融合同一场景下具有不同聚焦部分的一系列图像.为了克服多聚焦图像融合模糊特征提取中存在的不足,提出一种基于U-Net的生成对抗网络模型.首先,生成器采用U-Net和SSE对多聚焦图像的特征进行提取,并完成图像融合;其次,判别器采用卷积层对已知的融合结果和生成器生成的融合图像进行分辨;然后,损失函数采用生成器的对抗损失、映射损失、梯度损失、均方误差损失和判别器对抗损失对生成网络进行参数调节;最后,将生成器、判别器和损失函数组成生成对抗网络模型,并进行实验.Pascal VOC2012数据集作为生成对抗网络的训练集,包括近焦图像、远焦图像、映射图像和融合图像.实验结果证明,该生成对抗网络模型能够有效地提取多聚焦图像中的模糊特征,且融合图像在互信息、相位一致性和感知相似性等方面表现优异. 相似文献
10.
天文台天气监测系统对天气云图存在巨大需求。为解决传统的生成对抗网络在扩充天气云图数据集时模型不稳定以及图像特征丢失等问题,提出一种基于SAU-NetDCGAN的双层嵌入式对抗网络天气云图生成方法,该方法由两层网络相互嵌套组成。首先,第一层嵌入式网络是将U型网络添加到生成对抗式网络的生成器中,该网络作为基础架构,利用编码器与解码器之间的跳跃连接增强图像的边缘特征恢复能力;接着,第二层嵌入式网络是将简化参数注意力机制(simplify-attention,SA)添加到U型网络中,该注意力机制通过简化参数降低了模型复杂度,有效地改善了图像暗部特征丢失的问题;最后设计了一种新的权重计算方式,加强了各特征之间的联系,增加了对图像细节纹理特征的提取。实验结果表明,该方法生成的图像在清晰度、色彩饱和度上与传统的生成对抗网络相比图像质量更好,在峰值信噪比、结构相似性的评价指标下分别提高了27.06 dB和 0.606 5。 相似文献
11.
针对有监督的深度神经网络文本生成模型容易造成错误累积的问题,提出一种基于强化对抗思想训练的文本生成模型。通过将生成对抗网络鉴别器作为强化学习的奖励函数及时指导生成模型优化,尽量避免错误累积;通过在生成过程中加入目标指导特征帮助生成模型获取更多文本结构知识,提升文本生成模型真实性。在合成数据和真实数据集上的实验结果表明,该方法在文本生成任务中,较之前的文本生成模型在准确率和真实性上有了进一步的提高,验证了加入目标指导的强化对抗文本生成方法的有效性。 相似文献
12.
近年来,深度学习技术的不断发展为图像修复研究提供了新的思路,通过对海量图像数据的学习,使得图像修复方法能够理解图像的语义信息.虽然现有的图像修复方法已能够生成较好的图像修复结果,但遇到结构缺失较为复杂的图像时,对缺失部分细节处理能力较差,所生成的结果会过度平滑或模糊,不能很好地修复图像缺失的复杂结构信息.针对此问题,基... 相似文献
13.
行人重识别技术在实际应用中易受行人姿态变化的干扰, 由于行人姿态的变化不仅丢失部分行人信息, 而且还会引起大于身份差异的外观变化, 导致现有工作难以学到鲁棒的行人特征. 为了解决上述问题, 本文提出一种基于变分对抗与强化学习的生成式对抗网络(RL-VGAN)用于多姿态行人重识别任务. 该方法的核心思想是在不受姿态变化干扰的情况下通过外观编码器和姿态编码器将行人属性分解为外观特征和姿态特征, 用以学习鲁棒的身份视觉特征. 首先, 设计的变分生成网络利用Kullback-Leibler散度损失促进外观编码器推断与身份信息相关的连续隐变量. 其次, 为了使生成式对抗网络逐步收敛到稳定状态, 采用强化学习策略平衡变分生成网络和判别网络的性能. 此外, 针对基于姿态引导图像生成任务, 提出一种新的Inception Score损失用于规范变分生成网络生成图像质量的过程. 实验结果证明, 所提出的RL-VGAN方法在多个基准数据集上优于其他方法. 相似文献
14.
数据作为深度学习的驱动力,对于模型的训练至关重要。充足的训练数据不仅可以缓解模型在训练时的过拟合问题,而且可以进一步扩大参数搜索空间,帮助模型进一步朝着全局最优解优化。然而,在许多领域或任务中,获取到充足训练样本的难度和代价非常高。因此,数据增广成为一种常用的增加训练样本的手段。本文对目前深度学习中的图像数据增广方法进行研究综述,梳理了目前深度学习领域为缓解模型过拟合问题而提出的各类数据增广方法,按照方法本质原理的不同,将其分为单数据变形、多数据混合、学习数据分布和学习增广策略等4类方法,并以图像数据为主要研究对象,对各类算法进一步按照核心思想进行细分,并对方法的原理、适用场景和优缺点进行比较和分析,帮助研究者根据数据的特点选用合适的数据增广方法,为后续国内外研究者应用和发展研究数据增广方法提供基础。针对图像的数据增广方法,单数据变形方法主要可以分为几何变换、色域变换、清晰度变换、噪声注入和局部擦除等5种;多数据混合可按照图像维度的混合和特征空间下的混合进行划分;学习数据分布的方法主要基于生成对抗网络和图像风格迁移的应用进行划分;学习增广策略的典型方法则可以按照基于元学习和基于强化学习进行分类。目前,数据增广已然成为推进深度学习在各领域应用的一项重要技术,可以很有效地缓解训练数据不足带来的深度学习模型过拟合的问题,进一步提高模型的精度。在实际应用中可根据数据和任务的特点选择和组合最合适的方法,形成一套有效的数据增广方案,进而为深度学习方法的应用提供更强的动力。在未来,根据数据和任务基于强化学习探索最优的组合策略,基于元学习自适应地学习最优数据变形和混合方式,基于生成对抗网络进一步拟合真实数据分布以采样高质量的未知数据,基于风格迁移探索多模态数据互相转换的应用,这些研究方向十分值得探索并且具有广阔的发展前景。 相似文献
15.
训练基于深度学习的计算机辅助诊断系统可以有效地从肺部CT图像中检测出是否受到COVID-19感染, 但目前面临的主要问题是缺乏高质量带标注的CT图像用于训练. 为了有效的解决该问题, 本文提出了一种基于生成对抗网络来扩增肺部CT图像的方法. 新方法通过生成不同感染区域的标签并通过泊松融合以增加生成图像的多样性; 通过训练对抗网络模型实现图像的转换生成, 以达到扩增CT图像的目的. 为验证生成数据的有效性, 基于扩增数据进一步做了分割实验. 通过图像生成实验和分割实验, 结果都表明, 本文提出的图像生成方法取得了较好的效果. 相似文献
16.
自能源(We-energy,WE)作为能源互联网的子单元旨在实现能量间的双向传输及灵活转换.由于自能源在不同工况下运行特性存在很大差异,现有方法还不能对其参数精确地辨识.为了解决上述问题,本文根据自能源网络结构提出了一种基于GAN技术的数据——机理混合驱动方法对自能源模型参数辨识.将GAN(Generative adversarial networks)模型中训练数据与专家经验结合进行模糊分类,解决了自能源在不同运行工况下的模型切换问题.通过应用含策略梯度反馈的改进GAN技术对模型进行训练,解决了自能源中输出序列离散的问题.仿真结果表明,提出的模型具有较高的辨识精度和更好的推广性,能有效地拟合系统不同工况下各节点的状态变化. 相似文献
17.
在实际应用中,为分类模型提供大量的人工标签越来越困难,因此,近几年基于半监督的图像分类问题获得了越来越多的关注.而大量实验表明,在生成对抗网络(Generative adversarial network, GANs)的训练过程中,引入少量的标签数据能获得更好的分类效果,但在该类模型的框架中并没有考虑用于提取图像特征的结构,为了进一步利用其模型的学习能力,本文提出一种新的半监督分类模型.该模型在原生成对抗网络模型中添加了一个编码器结构,用于直接提取图像特征,并构造了一种新的半监督训练方式,获得了突出的分类效果.本模型分别在标准的手写体识别数据库MNIST、街牌号数据库SVHN和自然图像数据库CIFAR-10上完成了数值实验,并与其他半监督模型进行了对比,结果表明本文所提模型在使用少量带标数据情况下得到了更高的分类精度. 相似文献
18.
对话生成是自然语言处理的重点研究方向,对抗生成网络GAN最近在对话生成领域得到了较好的应用。为了进一步改善对话生成的质量,并且解决GAN训练过程中判别模型返回奖励重复利用率低从而导致模型训练效率低的问题,提出一种基于近端策略优化PPO的对话生成算法PPO_GAN。该算法通过GAN模型生成对话,通过判别模型区分生成的对话与真实的对话。并采用近端策略优化的方法训练GAN,能处理GAN在对话生成时导致的反向传播不可微分的情况,在保证生成模型单调非减训练的同时,通过限制生成模型迭代的梯度使判别模型得到的奖励可以重复利用。实验结果表明,对比于极大似然估计与Adver-REGS等对话生成算法,PPO_GAN算法提高了对话训练的效率并且改善了对话生成的质量。 相似文献
19.
针对现有的图像修复方法在面对大规模图像缺损和不规则破损区域修复时,修复结果出现生成结构与原图像语义不符以及纹理细节模糊等问题,本文提出一种利用生成边缘图的多尺度特征融合图像修复算法——MSFGAN(multi-scale feature network model based on edge condition).模型采用两阶段网络设计,使用边缘图作为修复条件对修复结果进行结构约束.首先,使用Canny算子提取待修复图像的边缘图进行完整边缘图生成;然后利用完整的边缘图结合待修复图像进行图像修复.为了弥补图像修复算法中经常出现的问题,提出一种融入了注意力机制的多尺度特征融合模块(attention mechanism multi-fusion convolution block, AM block),实现受损图像的特征提取和特征融合.在图像修复网络解码器部分引入跳跃链接,将高级语义提取和底层特征进行融合实现高质量细节纹理修复.在CelebA和Places2数据集上的测试结果显示, MSFGAN修复质量上比当前修复方法有一定提升,其中在20%–30%掩码比例中, SSIM平均提升0.029... 相似文献