首页 | 本学科首页   官方微博 | 高级检索  
     

基于跨媒体解纠缠表示学习的风格化图像描述生成
作者姓名:蔺泽浩  李国趸  曾祥极  邓悦  张寅  庄越挺
作者单位:浙江大学计算机科学与技术学院 杭州 310027
基金项目:中国工程科技知识中心、数字图书馆教育部工程研究中心、中国工程科技数据和知识技术研究中心、中央高校基本科研业务费和百度人工智能课题
摘    要:风格化图像描述生成的文本不仅被要求在语义上与给定的图像一致,而且还要与给定的语言风格保持一致.随着神经网络在计算机视觉和自然语言生成领域的技术发展,有关这个主题的最新研究取得了显著进步.但是,神经网络模型作为一种黑盒系统,人类仍然很难理解其隐层空间中参数所代表的风格、事实及它们之间的关系.为了提高对隐层空间中包含的事实内容和语言风格属性的理解以及增强对两者的控制能力,提高神经网络的可控性和可解释性,本文提出了一种使用解纠缠技术的新型风格化图像描述生成模型Disentangled Stylized Image Caption(DSIC).该模型分别从图像和描述文本中非对齐地学习解纠缠表示,具体使用了两个解纠缠表示学习模块——D-Images和D-Captions来分别学习图像和图像描述中解纠缠的事实信息和风格信息.在推理阶段,DSIC模型利用图像描述生成解码器以及一种特别设计的基于胶囊网络的信息聚合方法来充分利用先前学习的跨媒体信息表示,并通过直接控制隐层向量来生成目标风格的图像描述.本文在SentiCap数据集和FlickrStyle10K数据集上进行了相关实验.解纠缠表示学习的实验结...

关 键 词:跨媒体  机器学习  解纠缠表示学习  风格化图像描述生成  自然语言生成
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号