首页 | 本学科首页   官方微博 | 高级检索  
     

基于自编码器生成对抗网络的可配置文本图像编辑
引用本文:吴福祥,程俊.基于自编码器生成对抗网络的可配置文本图像编辑[J].软件学报,2022,33(9):3139-3151.
作者姓名:吴福祥  程俊
作者单位:中国科学院深圳先进技术研究院, 广东省机器人与智能系统重点实验室, 深圳 518055
基金项目:国家自然科学基金(U21A20487);深圳市基础研究项目(JCYJ20200109113416531,JCYJ20180507182610734);中国科学院关键技术人才项目
摘    要:基于文本的图像编辑是多媒体领域的一个研究热点并具有重要的应用价值。由于它是根据给定的文本编辑源图像,而文本和图像的跨模态差异很大,因此它是一项很具有挑战的任务。在对编辑过程的直接控制和修正上,目前方法难以有效地实现,但图像编辑是用户喜好导向的,提高可控性可以绕过或强化某些编辑模块以获得用户偏爱的结果。针对该问题,本文提出一种新颖的基于自动编码器的文本图像编辑模型。为了提供便捷且直接的交互配置和编辑接口,该模型在多层级生成对抗网络中引入自动编码器,该自动编码器统一多层级间高维特征空间为颜色空间,从而可以对该颜色空间下的中间编辑结果进行直接修正。其次,为了增强编辑图像细节及提高可控性,本文构造了对称细节修正模块,它以源图像和编辑图像为对称可交换输入,融合文本特征以对前面输入编辑图像进行修正。在MS-COCO和CUB200数据集上的实验表明,该模型可以有效地基于语言描述自动编辑图像,同时可以便捷且友好地修正编辑效果。

关 键 词:基于文本的图像编辑  生成对抗网络  交互编辑
收稿时间:2021/6/30 0:00:00
修稿时间:2021/8/15 0:00:00

Configurable Text-based Image Editing by Autoencoder-based Generative Adversarial Networks
WU Fu-Xiang,CHENG Jun.Configurable Text-based Image Editing by Autoencoder-based Generative Adversarial Networks[J].Journal of Software,2022,33(9):3139-3151.
Authors:WU Fu-Xiang  CHENG Jun
Affiliation:Guangdong Provincial Key Laboratory of Robotics and Intelligent System, Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055, China
Abstract:
Keywords:text-based image manipulation  generative adversarial net  interactive manipulation
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号