首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
为了解决传统文本生成图像方法生成图像质量差和文本描述与生成图像不一致问题,以多种损失函数为约束,提出深度融合注意力的生成对抗网络方法(DFA-GAN).采用两阶段图像生成,以单级生成对抗网络(GAN)为主干,将第一阶段生成的初始模糊图像输入第二阶段,对初始图像进行高质量再生成,以提升图像的生成质量.在图像生成的第一阶段,设计视觉文本融合模块,深度融合文本特征与图像特征,将文本信息充分融合在不同尺度的图像采样过程中.在图像生成的第二阶段,为了充分融合图像特征与文本描述词特征,提出以改进后的Vision Transformer为编码器的图像生成器.定量与定性实验结果表明,对比其他主流模型,所提方法提高了生成图像的质量,与文本描述更加符合.  相似文献   

2.
针对水下图像在生成过程中会受到水下杂质污染以及光的吸收等问题,提出了一种双注意力融合生成对抗网络的水下图像增强模型。该模型使用了最新的Pix2Pix网络架构,并通过构建的双注意力机制结构建立丰富的上下文信息来处理水下图像,在模型生成器UNet网络首部增加了改进型Non-local模块,从多尺度角度获取更多全局特征,从而得到更加清晰的图像,在生成器尾部引入了Transformer模块,通过其优异的多头注意力块和多层感知机等结构来提升模型综合性能,从而进一步提升模型语义信息提取能力。实验结果表明,该模型在基准数据集EUVP上的峰值信噪比、结构相似性、水下图像质量评价指标相比其他模型平均提升了5.83%、4.88%和18.02%,而在基准数据集EUVP上的相应指标平均提升了6.21%、17.33%和15.96%。在主观可视化结果下,该模型也能适当处理图像退化问题,使图像呈现更好的清晰度和对比度。  相似文献   

3.
人脸图像修复技术为近年来图像处理领域的研究热点。该文提出一种基于级联生成对抗网络的人脸图像修复方法,从生成器、判别器、损失函数三个方面进行改良。生成器采用由粗到精的级联式模型,并结合密集连接模块使所修复区域更加精细;判别器采用局部与全局特征相融合的双重判别式模型以提升判别准确性;损失函数采用最小化重构损失和对抗网络损失相结合以获得更好训练效果。基于CelebA数据集的实验显示,该方法可实现面部区域丢失50%以上的人脸图像修复,在客观评价指标PSNR和SSIM上,较现有方法分别提高了1.1~7.5 dB和0.02~0.15。从主观效果来看,该方法修复的人脸图像拥有更丰富的细节、更显自然。  相似文献   

4.
图像经过JEPG格式压缩后易存在方块伪影。针对此类有损压缩车牌图像,给出一种基于卷积神经网络的重建方法,据以通过非线性映射和重建减少压缩伪影。卷积神经网络分为特征提取层、特征增强层、非线性映射层和重建层。其中,特征提取层采用三个不同尺寸的卷积核提取特征,并对其进行融合,由此可捕捉更多图像细节信息。实验结果表明,采用该网络结构重建有损压缩车牌图像的效果较好,能明显减少重建后的方块伪影。  相似文献   

5.
针对不同流速类类间差异小而造成的分类困难问题,提出条件边界平衡生成对抗网络和多特征融合的卷积分类网络,分别进行流速图像的生成和分类. 为了达到数据增强效果,引入标签机制和验证模块实现相应类别图像数据的拟合与生成;为了加强图像不同纹理特征信息对流速估测的影响,引入多特征融合机制对所有真实样本和生成伪样本进行特征提取和流速识别,实现对差异性较小的图像的分类. 将该方法应用于实际的河流表面流速估测,结果表明,在图像生成模块中,引入的标签信息和验证机制在一定程度上能强制引导模型的数据生成方向;在图像识别模块中,引入的多特征融合机制使所提出方法相较于其他方法,在差异性较小的水流图像的识别上更具鲁棒性.  相似文献   

6.
针对轻量级面部表情识别算法泛化能力的不足,提出了一种结合多特征融合和注意力机制的表情识别方法。使用局部二值模式(Local Binary Pattern, LBP)算子减少面部图像中无关信息的干扰,双分支神经网络提取原始人脸图像和LBP图像的特征,融合两个网络提取的中高层特征,并通过注意力机制加强重要特征,在保持较少参数量的同时生成大量的有效特征信息提高算法的识别效果。实验结果表明,该方法在Fer2013和CK+数据集上的识别率分别为70.21%和95.59%,有效地提高了轻量级表情识别算法的性能。  相似文献   

7.
针对现有经典图像修复算法修复结果存在的语义信息不合理、修复边界处易产生伪影等问题,本文结合注意力机制对其进行改进。第一层生成模型对图像进行编码解码操作,完成粗略修复;第二层生成模型结合感知注意力,完成具有更合理语义信息的精细修复;采用局部鉴别器和全局鉴别器对修复内容进行反馈优化。与其他两种主流修复算法基于CelebA数据集进行对比,PSNR值最大程度提升了1.34 dB,SSIM值最大程度提升了0.007。实验结果表明,用结合注意力机制算法修复后图像的语义结构以及纹理的完整性与原图更加接近。  相似文献   

8.
古诗插图自动生成是非常具有挑战性的任务。提出了一种新的方法,通过使用注意力机制的生成对抗网络,输入古诗文字和草绘图,经由网络输出古诗插图。该模型在利用编码与解码的图片生成结构的同时,结合注意力机制,将图像色彩及轮廓特征进行了提取,生成器中加入了残差网络模块,增加了网络深度,同时提高了网络模型的效果,最终生成图像质量更高的古诗插图。实验结果表明,所提方法相较于对比方法,在图像质量和色彩渲染方面均有优势,输入的古诗和草图经过网络模型,生成了较为符合古诗意境的插图。  相似文献   

9.
生成对抗网络(Generative Adversarial Network, GAN)可以生成和真实图像较接近的生成图像.作为深度学习中较新的一种图像生成模型,GAN在图像风格迁移中发挥着重要作用.针对当前生成对抗网络模型中存在的生成图像质量较低、模型较难训练等问题,提出了新的风格迁移方法,有效改进了BicycleGAN模型实现图像风格迁移.为了解决GAN在训练中容易出现的退化现象,将残差模块引入GAN的生成器,并引入自注意力机制,获得更多的图像特征,提高生成器的生成质量.为了解决GAN在训练过程中的梯度爆炸现象,在判别器每一个卷积层后面加入谱归一化.为了解决训练不够稳定、生成图像质量低的现象,引入感知损失.在Facades和AerialPhoto&Map数据集上的实验结果表明,该方法的生成图像的PSNR值和SSIM值高于同类比较方法.  相似文献   

10.
人脸超分辨网络(FSRNet)使用人脸几何先验信息优化人脸超分辨率,可以从低分辨率人脸图像生成逼真的高分辨率人脸图像,但FSRNet生成的超分辨率图像存在伪影.对其关键模块进行了改进,并引入了新的损失函数.直接输入16×16像素的低分辨率图像,最后使用转置卷积函数放大图像,降低了计算复杂度,提升了粗略超分辨网络的性能.通过两步训练法,解决网络训练时调参困难的问题.引入热图损失、面部注意力损失和对抗性损失训练,提高超分辨率人脸图像的质量.实验结果证明,采用改进后的方法,可以生成面部细节更加清晰的高质量人脸图像.  相似文献   

11.
针对单阶段多边框检测算法(SSD)存在对小目标检测误差较大的问题,提出基于特征优化与深层次融合的目标检测算法,通过空间通道特征增强(SCFE)模块和深层次特征金字塔网络(DFPN)改进SSD. SCFE模块基于局部空间特征增强和全局通道特征增强机制优化特征层,注重特征层的细节信息;DFPN基于残差空间通道增强模块改进特征金字塔网络,使不同尺度特征层进行深层次特征融合,提升目标检测精度. 在训练阶段添加样本加权训练策略,使网络注重训练定位良好的样本和置信度高的样本. 实验结果表明,在PASCAL VOC数据集上,所提算法在保证速度的同时检测精度由SSD的77.2%提升至79.7%;在COCO数据集上,所提算法的检测精度由SSD的25.6%提升至30.1%,对小目标的检测精度由SSD的6.8%提升至13.3%.  相似文献   

12.
基于孪生网络视觉跟踪的进化和深层网络目标跟踪算法在目标被遮挡和外观形变时的跟踪成功率不高,鲁棒性不强,对此,提出了一种结合双注意力与特征融合的孪生网络目标跟踪算法。首先,采用通道和空间注意力模块增强目标信息,抑制图像中的干扰信息,提高模型的准确度;然后,对注意力层输出的浅层和深层特征信息进行多层特征融合,得到表现力更好的目标特征,提高跟踪成功率;最后,引入在线模板更新机制,减少了跟踪漂移,提高了跟踪鲁棒性。使用OTB100测试集进行实验,实验结果表明,改进后算法的跟踪成功率比改进前算法的跟踪成功率提高了1.3%;在具有遮挡和形变属性的4个测试序列下,改进后算法的平均重叠率提高了3%,中心位置的平均误差降低了0.37个像素点,针对遮挡和外观形变时的鲁棒性更好。  相似文献   

13.
基于注意力机制和多层次特征融合的目标检测算法   总被引:1,自引:0,他引:1  
为了提高目标检测的准确率,提出一种基于注意力机制和多层次特征融合的图像目标检测算法。该算法在Cascade R-CNN模型的基础上,以RseNet50为主干网络,通过嵌入简单的注意力模块(SAM)来提高网络的判别能力;其次,利用深度可分离卷积改进特征金字塔网络(FPN),设计了多层次特征融合模块(MFFM),对多尺度特征进行融合,以丰富特征图的信息量,并对不同层次的特征图赋予相应的权重以平衡不同尺度的特征信息;最后,结合目标检测方法中的区域建议网络(RPN)结构获取目标的候选区域进行分类和回归处理,确定检测目标的位置和类别。实验结果表明,相较于Cascade R-CNN目标检测算法,该算法的检测精度提升了约2.0%。  相似文献   

14.
Aiming at the low definition and poor details of synchronous multi-band image fusion, a novel method based on attention generative adversarial networks is proposed. First, the attention weight map is constructed using the difference between the multi-band feature map and its mean, then the feature enhancement map is obtained by the point multiplication and addition of the feature map and the attention weight map to construct the feature enhancement module. Second, the feature-level fusion module is designed, which connects the multi-band feature enhancement map and reconstructs the fused image through normalization, upsampling, convolution, etc. Finally, the feature enhancement module and the feature-level fusion module are cascaded to build the generator, and the VGG-16 is used as a discriminator to establish a Generative Adversarial Network, thereby implementing multi-band image end-to-end fusion. Experimental results show that the proposed fusion method can lead to the most prominent average gradient compared with classical fusion methods, and that the effectiveness of the proposed method is verified.  相似文献   

15.
To address the problems that the pedestrian interaction feature of the Social GAN is simple and that it cannot make full use of the most of pedestrian interaction information, this paper proposes a pedestrian trajectory prediction model with social features and attention mechanism. This model adapts the structure of generative adversarial networks. The generator adapts an encoder-decoder model and the attention model is put between encoder and decoder. Three social features are set to enrich pedestrian interaction information which assists the attention module to make full use of the most of pedestrian interaction information by allocating the influence of pedestrians in the scene, so that the accuracy of the model is improved. Experimental results on multiple datasets show that the accuracy of this model in the pedestrian trajectory prediction task is increased by 15% compared with the previous pedestrian trajectory prediction model based on the pooling module. The improvement effect is most obvious in scenes with dense pedestrians and lots of non-straight tracks, with the accuracy increased by 34%.  相似文献   

16.
A multimodal fusion classifier is presented based on neural networks (NNs) learned with hints for automatic spontaneous affect recognition. In case that different channels can provide com- plementary information, features are utilized from four behavioral cues: frontal-view facial expres- sion, profile-view facial expression, shoulder movement, and vocalization (audio). NNs are used in both single cue processing and multimodal fusion. Coarse categories and quadrants in the activation- evaluation dimensional space are utilized respectively as the heuristic information (hints) of NNs during training, aiming at recognition of basic emotions. With the aid of hints, the weights in NNs could learn optimal feature groupings and the subtlety and complexity of spontaneous affective states could be better modeled. The proposed method requires low computation effort and reaches high recognition accuracy, even if the training data is insufficient. Experiment results on the Semaine nat- uralistic dataset demonstrate that our method is effective and promising.  相似文献   

17.
针对脑功能连接数据维度过高、冗余特征过多影响神经网络分类准确率的问题,提出一种基于显著稀疏强关联的脑功能连接分类方法. 该方法利用显著特征稀疏模块对原始特征进行筛选增强;采用稀疏强关联特征上下文融合模块对不同感受野内的显著特征信息进行聚合;使用全连接神经网络进行分类预测. 在ABIDE以及ADHD-200数据集上的实验结果表明,所提方法相较于现有的脑功能连接分类算法在准确率上分别提升了10.41%和12.50%. 重要特征的可视化结果表明所提方法能准确定位与疾病相关的脑区,具有一定实际应用价值.  相似文献   

18.
在无人机航拍视频烟雾检测领域中,由于不同检测场景差异大,导致现有烟雾检测算法经常出现检测精度低、速度慢等问题。为了解决以上问题,建立了一个基于无人机视角的多类场景下的烟雾数据集(UAV smoke dataset,USD),并提出了一种改进YOLOx的多类场景下无人机视频烟雾检测算法。首先,在YOLOx网络模型中引入改进的注意力机制,分别改进通道特征和空间特征的提取过程,提取更加具有表征能力的烟雾特征;然后,提出一种双向特征融合模块,增强多尺度特征融合模块对小目标烟雾特征的融合能力;最后,引入Focal-EIOU损失函数,解决训练过程中出现正负样本不平衡,以及预测框和真实框不相交时无法反映两个框的距离远近和重合度大小等问题。实验结果表明,所提算法在应用于多类场景下无人机视频烟雾检测任务时具有较好的鲁棒性,对比多个经典烟雾检测算法,本文算法在不同数据集上的烟雾检测准确率均有不同的提升,比如对比原有的YOLOx-s模型,准确率提升2.7%,召回率提升3%,速度达到73.6帧/s。  相似文献   

19.
RGB-D显著性目标检测是计算机视觉领域的研究任务之一,很多模型在简单场景下取得了较好的检测效果,却无法有效地处理多目标、深度图质量低下以及显著性目标色彩与背景相似等复杂场景。因此,本文提出一种三分支多层次Transformer特征交互的RGB-D显著性目标检测模型。首先,本文采用坐标注意力模块抑制RGB和深度图的噪声信息,提取出更为显著的特征用于后续解码。其次,通过特征融合模块将高层的三层特征图调整到相同的分辨率送入Transformer层,有效获取远距离显著性目标之间的关联关系和整幅图像的全局信息。然后,本文提出一个多层次特征交互模块,该模块通过有效地利用高层特征和低层特征对显著性目标的位置和边界进行细化。最后,本文设计一个密集扩张特征细化模块,利用密集扩张卷积获取丰富的多尺度特征,有效地应对显著性目标数量和尺寸变化。通过在5个公开的基准数据集与19种主流模型相比,实验结果表明:本文方法在多个测评指标上有较好的提升效果,提高了在特定复杂场景下的检测精度,从P-R曲线、F-measure曲线和显著图也可以直观看出本文方法实现了较好的检测结果,生成的显著图更完整、更清晰,相比其他模型更加接近真值图。  相似文献   

20.
尚文倩    曹原   《南京师范大学学报》2022,(2):029-34
群组推荐问题的关键在于如何对组内各成员不同的偏好进行融合来适应所有成员的需求. 基于神经协同过滤框架和注意力机制的群组推荐算法从数据中动态地学习融合策略,相较于传统基于预定义策略的方法明显提升了推荐效果,但模型训练及推理时间较长. 本文在此基础上重构了群组偏好融合模块,引入卷积神经网络来提取群组成员的特征,从而实现偏好融合:在公开数据集上的实验表明,本文算法比现有的算法具有更优的精度,训练速度提高了14倍.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号