首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
张皓  周凤 《计算机与数字工程》2021,49(8):1642-1646,1701
人脸图像生成是计算机图形学与计算机视觉领域中的重要研究方向.但在多属性人脸生成问题上,传统模型存在两个不足,一是控制生成人脸图片的属性时,不能有效地保持图片特征;二是现有的条件式生成对抗网络由于数据集应用不灵活,造成在不平衡数据上进行多属性人脸生成时表现不佳.针对这些不足,论文提出基于特征保持的条件生成对抗网络,针对第一类问题提出基于类激活映射的损失惩罚项,针对第二类问题提出了通过改变潜在空间表示来控制图片属性的方法.通过实验验证,该模型可以有效的生成多属性的人脸,和传统模型相比,在生成不同属性人脸时更有效地保持了特征,并且可以更灵活地利用无标记数据.  相似文献   

2.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图片的重要特征信息,将其送入解码器长短期记忆网络(LSTM)中,生成对应图片的描述语句.采用MSCOCO2014数据集中训练集和验证集进行训练和测试,使用多个评价准则评估模型的准确性.实验结果表明,改进后模型的评价准则得分优于其他模型,其中Model2实验能够更好地提取到图像特征,生成更加准确的描述.  相似文献   

3.
目的 图像美学属性评价可以提供丰富的美学要素,极大地增强图像美学的可解释性。然而现有的图像美学属性评价方法并没有考虑到图像场景类别的多样性,导致评价任务的性能不够理想。为此,本文提出一种深度多任务卷积神经网络(multi task convolutional neural network, MTCNN)模型,利用场景信息辅助图像的美学属性预测。方法 本文模型由双流深度残差网络组成,其中一支网络基于场景预测任务进行训练,以提取图像的场景特征;另一支网络提取图像的美学特征。然后融合这两种特征,通过多任务学习的方式进行训练,以预测图像的美学属性和整体美学分数。结果 为了验证模型的有效性,在图像美学属性数据集(aesthetics and attributes database, AADB)上进行实验验证。结果显示,在斯皮尔曼相关系数(Spearman rank-order correlation coefficient, SRCC)指标上,本文方法各美学属性预测的结果较其他方法的最优值平均提升了6.1%,本文方法整体美学分数预测的结果较其他方法的最优值提升了6.2%。结论 提出的图像美学属性...  相似文献   

4.
针对民族服装图像属性信息复杂、类间相似度高且语义属性与视觉信息关联性低,导致图像描述生成结果不准确的问题,提出民族服装图像描述生成的局部属性注意网络.首先构建包含55个类别、30 000幅图像,约3 600 MB的民族服装图像描述生成数据集;然后定义民族服装208种局部关键属性词汇和30 089条文本信息,通过局部属性学习模块进行视觉特征提取和文本信息嵌入,并采用多实例学习得到局部属性;最后基于双层长短期记忆网络定义包含语义、视觉、门控注意力的注意力感知模块,将局部属性、基于属性的视觉特征和文本编码信息进行融合,优化得到民族服装图像描述生成结果.在构建的民族服装描述生成数据集上的实验结果表明,所提出的网络能够生成包含民族类别、服装风格等关键属性的图像描述,较已有方法在精确性指标BLEU和语义丰富程度指标CIDEr上分别提升1.4%和2.2%.  相似文献   

5.
针对生成的图像结构单一,细节特征不够丰富,导致美观感不足等问题,提出了一种嵌入自注意力机制的美学特征图像生成方法.为了增加生成图像的美学特征,研究图像美学评价标准与生成模型之间的关联性,定义了基于美学分数的美学损失函数;为保证生成图像与真实图像在语义内容上的一致性,加入VGG网络,构造内容损失函数,采用Charbonnier损失代替L1损失,并将美学损失、内容损失和进化生成对抗网络的对抗损失以加权形式组合,引导与优化图像的生成.在生成器和判别器中引入自注意力机制模块,并将密集卷积块加入生成器自注意力机制模块之前,充分提取特征,有利于自注意力机制高效获取更多特征内部的全局依赖关系,促使生成图像细节清晰,纹理特征丰富.在Cifar10、CUHKPQ两个数据集上的实验结果表明该方法在提升图像美学效果方面是有效的,其弗雷歇距离值相较于进化生成对抗网络分别提高了3.21和5.44,图像美学分数值相较于进化生成对抗网络分别提高了0.75和0.88.  相似文献   

6.
新视角图像生成任务指通过多幅参考图像,生成场景新视角图像。然而多物体场景存在物体间遮挡,物体信息获取不全,导致生成的新视角场景图像存在伪影、错位问题。为解决该问题,提出一种借助场景布局图指导的新视角图像生成网络,并标注了全新的多物体场景数据集(multi-objects novel view Synthesis,MONVS)。首先,将场景的多个布局图信息和对应的相机位姿信息输入到布局图预测模块,计算出新视角下的场景布局图信息;然后,利用场景中标注的物体边界框信息构建不同物体的对象集合,借助像素预测模块生成新视角场景下的各个物体信息;最后,将得到的新视角布局图和各个物体信息输入到场景生成器中构建新视角下的场景图像。在MONVS和ShapeNet cars数据集上与最新的几种方法进行了比较,实验数据和可视化结果表明,在多物体场景的新视角图像生成中,所提方法在两个数据集上都有较好的效果表现,有效地解决了生成图像中存在伪影和多物体在场景中位置信息不准确的问题。  相似文献   

7.
申朕  崔超然  董桂鑫  余俊  黄瑾  尹义龙 《软件学报》2023,34(5):2494-2506
图像美学评价和情感分析任务旨在使计算机可以辨认人类由受到图像视觉刺激而产生的审美和情感反应.现有研究通常将它们当作两个相互独立的任务.但是,人类的美感与情感反应并不是孤立出现的;相反,在心理认知层面上,两种感受的出现应是相互关联和相互影响的.受此启发,采用深度多任务学习方法在统一的框架下处理图像美学评价和情感分析任务,深入探索两个任务间的内在关联.具体来说,提出一种自适应特征交互模块将两个单任务的基干网络进行关联,以完成图像美学评价和情感分析任务的联合预测.该模块中引入了一种特征动态交互机制,可以根据任务间的特征依赖关系自适应地决定任务间需要进行特征交互的程度.在多任务网络结构的参数更新过程中,根据美学评价与情感分析任务的学习复杂度和收敛速度等差异,提出一种任务间梯度平衡策略,以保证各个任务可以在联合预测的框架下平衡学习.此外,构建了一个大规模的图像美学情感联合数据集UAE.据已有研究,该数据集是首个同时包含美感和情感标签的图像集合.本模型代码以及UAE数据集已经公布在https://github.com/zhenshen-mla/Aesthetic-Emotion-Dataset.  相似文献   

8.
目的 图像字幕生成是一个涉及计算机视觉和自然语言处理的热门研究领域,其目的是生成可以准确表达图片内容的句子。在已经提出的方法中,生成的句子存在描述不准确、缺乏连贯性的问题。为此,提出一种基于编码器-解码器框架和生成式对抗网络的融合训练新方法。通过对生成字幕整体和局部分别进行优化,提高生成句子的准确性和连贯性。方法 使用卷积神经网络作为编码器提取图像特征,并将得到的特征和图像对应的真实描述共同作为解码器的输入。使用长短时记忆网络作为解码器进行图像字幕生成。在字幕生成的每个时刻,分别使用真实描述和前一时刻生成的字幕作为下一时刻的输入,同时生成两组字幕。计算使用真实描述生成的字幕和真实描述本身之间的相似性,以及使用前一时刻的输出生成的字幕通过判别器得到的分数。将二者组合成一个新的融合优化函数指导生成器的训练。结果 在CUB-200数据集上,与未使用约束器的方法相比,本文方法在BLEU-4、BLEU-3、BLEI-2、BLEU-1、ROUGE-L和METEOR等6个评价指标上的得分分别提升了0.8%、1.2%、1.6%、0.9%、1.8%和1.0%。在Oxford-102数据集上,与未使用约束器的方法相比,本文方法在CIDEr、BLEU-4、BLEU-3、BLEU-2、BLEU-1、ROUGE-L和METEOR等7个评价指标上的得分分别提升了3.8%、1.5%、1.7%、1.4%、1.5%、0.5%和0.1%。在MSCOCO数据集上,本文方法在BLEU-2和BLEU-3两项评价指标上取得了最优值,分别为50.4%和36.8%。结论 本文方法将图像字幕中单词前后的使用关系纳入考虑范围,并使用约束器对字幕局部信息进行优化,有效解决了之前方法生成的字幕准确度和连贯度不高的问题,可以很好地用于图像理解和图像字幕生成。  相似文献   

9.
当前图像美学质量评估的研究主要基于图像的视觉内容来给出评价结果,忽视了美感是人的认知活动的事实,在评价时没有考虑用户对图像语义信息的理解。为了解决这一问题,提出了一种基于语义感知的图像美学质量评估方法,将图像的物体类别信息以及场景类别信息也用于图像美学质量评估。运用迁移学习的思想,构建了一种可以融合图像多种特征的混合网络。对于每一幅输入图像,该网络可以分别提取出其物体类别特征、场景类别特征以及美学特征,并将这三种特征进行高质量的融合,以达到更好的图像美学质量评估效果。该方法在AVA数据集上的分类准确率达到89.5%,相对于传统方法平均提高了19.9%,在CUHKPQ数据集上的泛化性能也有了很大提升。实验结果表明,所提方法在图像美学质量评估问题上,能够取得更好的分类性能。  相似文献   

10.
近几年艺术作品的计算美学评估已成为一个热门的研究方向.但现有工作主要研究照片和油画,关于水墨画的定量审美评估却鲜有尝试.水墨画通过水墨相调和笔法变化来表现画面,因而在视觉特征、语义特征和审美准则上与照片和油画有显著不同.针对此问题,采用深度学习技术,提出一种自适应的水墨画计算美学评估框架.该框架首先构建水墨画图像美学评价基准数据集;然后根据水墨画审美标准提取全局与局部图像块作为多路输入,并设计一种多视角并行深度卷积神经网络来提取深度审美特征;最后基于水墨画的题材查询机制,构建自适应深度审美评估模型.实验结果表明,文中包含6个并行题材卷积组的多视角网络架构相较基础VGG16架构有较高的审美评估性能,提取的深度审美特征明显优于传统手工设计特征,其自适应模型评估结果与人工审美评价之间达到0.823的皮尔森高度显著相关,且均方误差为0.161.此外,干扰实验表明,文中的网络对构图、墨色和纹理3个绘画要素较为敏感.该研究将不仅为国画计算美学评估提供了一个基于深度学习的参考框架,而且有助于进一步探索人类审美感知与水墨画中深度学习特征之间的关系.  相似文献   

11.
广告语是广告传播中不可或缺的一部分,凝练着品牌的核心价值。该文以古代诗词为基础,通过多特征融合的方式,提出谐音广告语群的生成及评估模型。在生成模型中,首先利用语音模板,获取候选广告语群。同时分别通过语音、形状、语义和情境四个维度,计算广告语的九大特征,得到候选广告语群的特征矩阵。最后采用基于主成分分析和权重的双序评估算法,筛选出高分广告语群。实验结果表明,四个维度的特征细致地刻画了广告语,在生成的特征矩阵基础上,双序评估算法能够准确地评估广告语的质量,与人工评估结果基本接近,有一定的实用价值。  相似文献   

12.
目的 目前文本到图像的生成模型仅在具有单个对象的图像数据集上表现良好,当一幅图像涉及多个对象和关系时,生成的图像就会变得混乱。已有的解决方案是将文本描述转换为更能表示图像中场景关系的场景图结构,然后利用场景图生成图像,但是现有的场景图到图像的生成模型最终生成的图像不够清晰,对象细节不足。为此,提出一种基于图注意力网络的场景图到图像的生成模型,生成更高质量的图像。方法 模型由提取场景图特征的图注意力网络、合成场景布局的对象布局网络、将场景布局转换为生成图像的级联细化网络以及提高生成图像质量的鉴别器网络组成。图注意力网络将得到的具有更强表达能力的输出对象特征向量传递给改进的对象布局网络,合成更接近真实标签的场景布局。同时,提出使用特征匹配的方式计算图像损失,使得最终生成图像与真实图像在语义上更加相似。结果 通过在包含多个对象的COCO-Stuff图像数据集中训练模型生成64×64像素的图像,本文模型可以生成包含多个对象和关系的复杂场景图像,且生成图像的Inception Score为7.8左右,与原有的场景图到图像生成模型相比提高了0.5。结论 本文提出的基于图注意力网络的场景图到图像生成模型不仅可以生成包含多个对象和关系的复杂场景图像,而且生成图像质量更高,细节更清晰。  相似文献   

13.
文本到图像生成方法采用自然语言与图像集特征的映射方式,根据自然语言描述生成相应图像,利用语言属性智能地实现视觉图像的通用性表达.基于卷积神经网络的深度学习技术是当前文本到图像生成的主流方法,为系统地了解该领域的研究现状和发展趋势,按照模型构建及技术实现形式的不同,将已有的技术方法分为直接图像法、分层体系结构法、注意力机...  相似文献   

14.
图像质量客观评价广泛应用在图像处理任务中,参考深度学习技术的研究成果,提出了一种基于并行小规模卷积神经网络的无参考图像质量评估算法。卷积操作和并行的多尺度输入能学习到丰富和细微的图像失真特征,首先利用高斯图像金字塔获取不同尺度的失真图像做为4路小规模单层卷积神经网络的输入,经过卷积和池化处理后,输出4路特征矢量,把学习到的特征矢量融合后,通过全连接回归映射为图像质量预测分数。参数优化分2个阶段完成,提高了模型精度。实验测试结果表明,设计的网络模型简单有效,提出的算法性能高于当前主流算法,具有很好的稳定性和较强的泛化能力。   相似文献   

15.
基于并行深度卷积神经网络的图像美感分类   总被引:1,自引:0,他引:1  
随着计算机和社交网络的飞速发展, 图像美感的自动评价产生了越来越大的需求并受到了广泛关注. 由于图像美感评价的主观性和复杂性, 传统的手工特征和局部特征方法难以全面表征图像的美感特点, 并准确量化或建模. 本文提出一种并行深度卷积神经网络的图像美感分类方法, 从同一图像的不同角度出发, 利用深度学习网络自动完成特征学习, 得到更为全面的图像美感特征描述; 然后利用支持向量机训练特征并建立分类器, 实现图像美感分类. 通过在两个主流的图像美感数据库上的实验显示, 本文方法与目前已有的其他算法对比, 获得了更好的分类准确率.  相似文献   

16.
天文台天气监测系统对天气云图存在巨大需求。为解决传统的生成对抗网络在扩充天气云图数据集时模型不稳定以及图像特征丢失等问题,提出一种基于SAU-NetDCGAN的双层嵌入式对抗网络天气云图生成方法,该方法由两层网络相互嵌套组成。首先,第一层嵌入式网络是将U型网络添加到生成对抗式网络的生成器中,该网络作为基础架构,利用编码器与解码器之间的跳跃连接增强图像的边缘特征恢复能力;接着,第二层嵌入式网络是将简化参数注意力机制(simplify-attention,SA)添加到U型网络中,该注意力机制通过简化参数降低了模型复杂度,有效地改善了图像暗部特征丢失的问题;最后设计了一种新的权重计算方式,加强了各特征之间的联系,增加了对图像细节纹理特征的提取。实验结果表明,该方法生成的图像在清晰度、色彩饱和度上与传统的生成对抗网络相比图像质量更好,在峰值信噪比、结构相似性的评价指标下分别提高了27.06 dB和 0.606 5。  相似文献   

17.
语音驱动人脸生成旨在挖掘语音片段和人脸之间的静动态关联性,进而由给定的语音片段生成对应的人脸图像。然而已有的研究方法大多只考虑其中的一种关联性,且对静态人脸生成的研究严格依赖于时序对齐的音视频数据,在一定程度上限制了静态模型的使用范围。提出了一种基于条件生成对抗网络的语音驱动静动态人脸生成模型(SDVF-GAN)。该模型基于自注意力机制构建语音编码器网络以获得更为准确的听觉特征表达,并将其作为静态生成网络和动态生成网络的输入;静态生成网络利用基于投影层的图像判别器合成出属性一致(年龄、性别)且高质量的静态人脸图像,动态生成网络利用基于注意力思想的嘴唇判别器和图像判别器合成出嘴唇同步的动态人脸序列。实验利用所构建的属性对齐的Voice-Face数据集和公共的LRW数据集分别训练静态人脸生成网络和动态人脸生成网络。结果表明,该模型综合研究了语音和人脸之间的属性对应和嘴唇同步关系,实现了质量更高且关联性和同步性更强的人脸图像生成。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号