首页 | 本学科首页   官方微博 | 高级检索  
     

基于自注意力机制的文本生成单目标图像方法
引用本文:鞠思博,徐晶,李岩芳.基于自注意力机制的文本生成单目标图像方法[J].计算机工程与应用,2022,58(3):249-258.
作者姓名:鞠思博  徐晶  李岩芳
作者单位:长春理工大学 计算机科学技术学院,长春 130022
基金项目:中国工程院院地合作项目(2019-JL-4-2);吉林省科技发展计划项目(20170307002GX)。
摘    要:基于自然语言描述的图像合成已成为人工智能领域中的研究热点。借助生成对抗网络,该领域在高分辨率图像合成方面取得了长足的发展。然而,合成单目标图像在真实性上仍存在一定缺陷,如针对鸟类图形合成时,会出现“多头”“多嘴”等异常情况。针对此类问题,提出基于自注意力机制的文本生成单目标模型SA-AttnGAN。SA-AttnGAN将文本特征细化为单词特征与句子特征,提高文本-图像的语义对齐性;在AttnGAN初始化阶段,使用自注意力机制,提升文本生成图像模型的稳定性;利用多阶段GAN网络叠加,最终合成高分辨图像。实验数据表明,SA-AttnGAN在Inception Score与Frechet Inception Distance指标得分上优于其他对比模型;合成图像分析表明,本模型不仅可以学习到背景与颜色信息,也能够正确捕捉鸟类头部、嘴部等组成部分的结构性信息,改善AttnGAN模型生成“多头”“多嘴”等错误图像情况。此外,SA-AttnGAN成功地应用于基于中文描述的服装图像合成,具有良好的泛化能力。

关 键 词:文本生成图像  生成对抗网络  深度学习  计算机视觉  人工智能  

Text-to-Single Image Method Based on Self-Attention
JU Sibo,XU Jing,LI Yanfang.Text-to-Single Image Method Based on Self-Attention[J].Computer Engineering and Applications,2022,58(3):249-258.
Authors:JU Sibo  XU Jing  LI Yanfang
Affiliation:School of Computer Science and Technology, Changchun University of Science and Technology, Changchun 130022, China
Abstract:
Keywords:text-to-image  generative adversarial networks(GAN)  deep learning  computer vision  artificial intelligence(AI)
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号