融合XLnet与DMGAN的文本生成图像方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

融合XLnet与DMGAN的文本生成图像方法

作者姓名：	赵泽纬车进吕文涵

作者单位：	宁夏大学物理与电子电气工程学院

基金项目：	国家自然科学基金（No.61861037）~~；

摘要：	针对文本生成图像任务中的文本编码器不能深度挖掘文本信息，导致后续生成的图像存在语义不一致的问题，本文提出了一种改进DMGAN模型的文本生成图像方法。首先使用XLnet的预训练模型对文本进行编码，该模型在大规模语料库的预训练之下能够捕获大量文本的先验知识，实现对上下文信息的深度挖掘；然后在DMGAN模型生成图像的初始阶段和图像细化阶段均加入通道注意力模块，突出重要的特征通道，进一步提升生成图像的语义一致性和空间布局合理性，以及模型的收敛速度和稳定性。实验结果表明，所提出模型在CUB数据集上生成的图像相比原DMGAN模型，IS指标提升了0.47,FID指标降低了2.78，充分说明该模型具有更好的跨模态生成能力。
关键词：	文本生成图像 XLnet模型生成对抗网络通道注意力