首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
2.
通过生成对抗网络进行段落生成序列图像的任务已经可以生成质量较高的图像.然而当输入的文本涉及多个对象和关系时,文本序列的上下文信息难以提取,生成图像的对象布局容易产生混乱,生成的对象细节不足.针对该问题,文中在Sto-ryGAN的基础上,提出了一种基于场景图的段落生成序列图像方法.首先,通过图卷积将段落转换为多个场景图,...  相似文献   

3.
4.
由于时间、地点、摄影设备等因素的限制,导致在真实世界中很难获得内容相同而场景不同的图像,一种可行方式是利用生成对抗网络(GAN)在没有成对数据集的情况下对图片中的场景进行转换,但是已有基于GAN的图像场景转换方法主要关注单个类别、单向、结构简单的场景。为了解决具有丰富类别和高度复杂语义结构的图像场景转换问题,提出一种基于GAN的图像场景转换模型,以实现晴天、雨天、雾天等不同场景之间的转换。将GAN、注意力模块和场景分割模块相结合,使模型正确识别并转换感兴趣区域同时保持其他区域不变。为了进一步提高输出的多样性,提出一种新型的正则化损失来抑制潜在噪声。此外,为了避免因缺乏噪声约束而出现的模态崩溃问题,在鉴别器中嵌入噪声分离模块。实验结果表明,相较CycleGAN、UNIT、MUNIT、NICE-GAN等6种对比模型,该模型所生成图像的FID得分和KID得分平均分别提高约7.25%和19%,其能够在不同场景下生成视觉效果更佳的图像。  相似文献   

5.
针对图像描述方法中对图像文本信息的遗忘及利用不充分问题,提出了基于场景图感知的跨模态交互网络(SGC-Net)。首先,使用场景图作为图像的视觉特征并使用图卷积网络(GCN)进行特征融合,从而使图像的视觉特征和文本特征位于同一特征空间;其次,保存模型生成的文本序列,并添加对应的位置信息作为图像的文本特征,以解决单层长短期记忆(LSTM)网络导致的文本特征丢失的问题;最后,使用自注意力机制提取出重要的图像信息和文本信息后并对它们进行融合,以解决对图像信息过分依赖以及对文本信息利用不足的问题。在Flickr30K和MSCOCO (MicroSoft Common Objects in COntext)数据集上进行实验的结果表明,与Sub-GC相比,SGC-Net在BLEU1(BiLingualEvaluationUnderstudywith1-gram)、BLEU4 (BiLingualEvaluationUnderstudywith4-grams)、METEOR(Metric for Evaluation of Translation with Explicit ORdering)、ROU...  相似文献   

6.
目的 图像修复是指用合理的内容来填补图像缺失或损坏的部分。尽管生成对抗网络(generative adversarial network,GAN)取得了巨大的进步,但当缺失区域很大时,现有的大多数方法仍然会产生扭曲的结构和模糊的纹理。其中一个主要原因是卷积操作的局域性,它不考虑全局或远距离结构信息,只是扩大了局部感受野。方法 为了克服上述问题,提出了一种新的图像修复网络,即混合注意力生成对抗网络(hybrid dual attention generativeadversarial network,HDA-GAN),它可以同时捕获全局结构信息和局部细节纹理。具体地,HDA-GAN将两种级联的通道注意力传播模块和级联的自注意力传播模块集成到网络的不同层中。对于级联的通道注意力传播模块,将多个多尺度通道注意力块级联在网络的高层,用于学习从低级细节到高级语义的特征。对于级联的自注意力传播模块,将多个基于分块的自注意力块级联在网络的中低层,以便在保留更多的细节的同时捕获远程依赖关系。级联模块将多个相同的注意力块堆叠成不同的层,能够增强局部纹理传播到全局结构。结果 本文采用客观评价指标:均方差(mean squared error,MSE)、峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性指数(structural similarityindex,SSIM)在Paris Street View数据集和CelebA-HQ(CelebA-high quality)数据集上进行了大量实验。定量比较中,HDA-GAN在Paris Street View数据集上相比于Edge-LBAM(edge-guided learnable bidirectional attention maps)方法,在掩码不同的比例上,PSNR提升了1.28 dB、1.13 dB、0.93 dB和0.80 dB,SSIM分别提升了5.2%、8.2%、10.6%和13.1%。同样地,在CelebA-HQ数据集上相比于AOT-GAN(aggregated contextual transformations generative adversarialnetwork)方法,在掩码不同的比例上,MAE分别降低了2.2%、5.4%、11.1%、18.5%和28.1%,PSNR分别提升了0.93 dB、0.68 dB、0.73 dB、0.84 dB和0.74 dB。通过可视化实验可以明显观察到修复效果优于以上方法。结论 本文提出的图像修复方法,充分发挥了深度学习模型进行特征学习和图像生成的优点,使得修复图像缺失或损坏的部分更加准确。  相似文献   

7.
8.
本文提出一个新的无监督图像翻译模型,该模型结合了生成对抗网络和多角度注意力,称为MAGAN.多角度注意力引导翻译模型将注意力集中在不同域间最具有判别性的区域.与现存的注意力方法不同的是,空间激活映射一方面捕获通道间的依赖,减少翻译图像的特征扭曲;另一方面决定网络对最具判别性区域的空间位置的关注程度,使翻译的图像更具有目标域风格.在空间激活映射的基础上,结合类激活映射,可以获得图像的全局语义信息.此外,根据空间激活程度对图像特征信息的影响,设计不同的注意力结构分别训练生成器和判别器.实验结果表明,本文模型在selfie2anime、cat2dog、horse2zebra和vangogh2photo这4个数据集上的KID分数分别达到9.48、6.32、6.42和4.28,性能优于大部分主流模型,并且与基线模型UGATIT相比,在selfie2anime、cat2dog和horse2zebra这3个数据集上的距离值分别减少了2.13、0.75和0.64,具有明显的性能优势.  相似文献   

9.
针对卷积神经网络(CNN)平等地对待输入图像中潜在的对象信息和背景信息,而遥感图像场景又存在许多小对象和背景复杂的问题,提出一种基于注意力机制和多尺度特征变换的尺度注意力网络模型。首先,开发一个快速有效的注意力模块,基于最优特征选择生成注意力图;然后,在ResNet50网络结构的基础上嵌入注意力图,增加多尺度特征融合层,并重新设计全连接层,构成尺度注意力网络;其次,利用预训练模型初始化尺度注意力网络,并使用训练集对模型进行微调;最后,利用微调后的尺度注意力网络对测试集进行分类预测。该方法在实验数据集AID上的分类准确率达到95.72%,与ArcNet方法相比分类准确率提高了2.62个百分点;在实验数据集NWPU-RESISC上分类准确率达到92.25%,与IORN方法相比分类准确率提高了0.95个百分点。实验结果表明,所提方法能够有效提高遥感图像场景分类准确率。  相似文献   

10.
下雨是一种常见的天气现象,而滞留在图像上的雨条纹降低了图像的清晰度以及影响了基于该图像的后续图像处理.从图像中去除雨的关键是如何准确、鲁棒地识别图像中的雨区域.使用导向滤波器和Haar小波变换组成的雨线提取模块来增强雨条纹特征提取,然后通过空间关注模块生成雨线注意力图,以准确定位雨条纹的位置.两者结合后,获得降雨条纹的...  相似文献   

11.
现有的大多数利用知识图谱的推荐算法在探索用户的潜在偏好时没有有效解决知识图谱中存在的不相关实体的问题,导致推荐结果准确率不高。针对这一问题,提出了基于知识图谱和图注意网络的推荐算法KG-GAT(knowledge graph and graph attention network)。该算法将知识图谱作为辅助信息,在图注意网络中使用分层注意力机制嵌入与实体相关的近邻实体的信息来重新定义实体的嵌入,得到更有效的用户和项目的潜在表示,生成更精确的top-N推荐列表,并带来了可解释性。最后利用两个公开数据集将所提算法和其他算法进行实验对比,得出所提算法KG-GAT能够有效解决沿着知识图谱中的关系探索用户的潜在偏好时存在的不相关实体的问题。  相似文献   

12.
Entity linking is a fundamental task in natural language processing. The task of entity linking with knowledge graphs aims at linking mentions in text to their correct entities in a knowledge graph like DBpedia or YAGO2. Most of existing methods rely on hand‐designed features to model the contexts of mentions and entities, which are sparse and hard to calibrate. In this paper, we present a neural model that first combines co‐attention mechanism with graph convolutional network for entity linking with knowledge graphs, which extracts features of mentions and entities from their contexts automatically. Specifically, given the context of a mention and one of its candidate entities' context, we introduce the co‐attention mechanism to learn the relatedness between the mention context and the candidate entity context, and build the mention representation in consideration of such relatedness. Moreover, we propose a context‐aware graph convolutional network for entity representation, which takes both the graph structure of the candidate entity and its relatedness with the mention context into consideration. Experimental results show that our model consistently outperforms the baseline methods on five widely used datasets.  相似文献   

13.
目的 场景图能够简洁且结构化地描述图像。现有场景图生成方法重点关注图像的视觉特征,忽视了数据集中丰富的语义信息。同时,受到数据集长尾分布的影响,大多数方法不能很好地对出现概率较小的三元组进行推理,而是趋于得到高频三元组。另外,现有大多数方法都采用相同的网络结构来推理目标和关系类别,不具有针对性。为了解决上述问题,本文提出一种提取全局语义信息的场景图生成算法。方法 网络由语义编码、特征编码、目标推断以及关系推理等4个模块组成。语义编码模块从图像区域描述中提取语义信息并计算全局统计知识,融合得到鲁棒的全局语义信息来辅助不常见三元组的推理。目标编码模块提取图像的视觉特征。目标推断和关系推理模块采用不同的特征融合方法,分别利用门控图神经网络和门控循环单元进行特征学习。在此基础上,在全局统计知识的辅助下进行目标类别和关系类别推理。最后利用解析器构造场景图,进而结构化地描述图像。结果 在公开的视觉基因组数据集上与其他10种方法进行比较,分别实现关系分类、场景图元素分类和场景图生成这3个任务,在限制和不限制每对目标只有一种关系的条件下,平均召回率分别达到了44.2%和55.3%。在可视化实验中,相比...  相似文献   

14.
15.
为解决目前众包任务推荐存在未考虑任务文本信息和数据稀疏的问题,提出一种基于知识图谱与图注意力的众包任务推荐模型。该模型首先利用自然语言处理技术提取任务文本信息中的关键要素,用于丰富图谱信息和缓解数据稀疏性;通过融合用户—任务交互图中的协同信息来构建协同知识图谱,在协同知识图谱中按协同邻居的类型分别运用图注意力网络;为获取用户准确的偏好,聚合邻居信息时按注意力得分从高到低采样固定数目的邻居;最后通过聚合不同类型的协同信息生成用户和任务的嵌入表示并得到交互概率。在构建的众包数据集上进行实验的结果表明,该模型在AUC、精准率、召回率和NDCG四个指标上均优于基线模型,验证了模型的可行性和有效性。  相似文献   

16.
图像标题生成利用机器自动产生描述图像的句子,属于计算机视觉与自然语言处理的交叉领域.传统基于注意力机制的算法侧重特征图不同区域,忽略特征图通道,易造成注意偏差.该模型通过当前嵌入单词与隐藏层状态的耦合度来赋予特征图不同通道相应权重,并将其与传统方法结合为融合注意力机制,准确定位注意位置.实验结果均在指定的评估方法上有一定的提升,表明该模型可以生成更加流利准确的自然语句.  相似文献   

17.
针对近海船舶监测系统中自动化情报生成的空缺,为了构建智能化船舶监测系统,提出基于多空间混合注意力的图像描述生成方法,对近海船舶图像进行描述。图像描述生成方法就是让计算机通过符合语言学的文字描述出图像中的内容。首先使用图像的感兴趣区域的编码特征预训练出多空间混合注意力模型,然后加入策略梯度改造损失函数对预训练好的解码模型继续进行微调,得到最终的模型。在MSCOCO(MicroSoft Common Objects in COntext)图像描述数据集上的实验结果表明,所提模型较以往的注意力模型提升了图像描述生成的评价指标,比如CIDEr分数。使用该模型在自建船舶描述数据集中能够自动描述出船舶图像的主要内容,说明所提方法能为自动化情报生成提供数据支持。  相似文献   

18.
目的 从大量数据中学习时空目标模型对于半监督视频目标分割任务至关重要,现有方法主要依赖第1帧的参考掩膜(通过光流或先前的掩膜进行辅助)估计目标分割掩膜。但由于这些模型在对空间和时域建模方面的局限性,在快速的外观变化或遮挡下很容易失效。因此,提出一种时空部件图卷积网络模型生成鲁棒的时空目标特征。方法 首先,使用孪生编码模型,该模型包括两个分支:一个分支输入历史帧和掩膜捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩膜。其次,构建时空部件图,使用图卷积网络学习时空特征,增强目标的外观和运动模型,并引入通道注意模块,将鲁棒的时空目标模型输出到解码模块。最后,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。结果 在DAVIS(densely annotated video segmentation)-2016和DAVIS-2017两个数据集上与最新的12种方法进行比较,在DAVIS-2016数据集上获得了良好性能,Jacccard相似度平均值(Jaccard similarity-mean,J-M)和F度量平均值(F measure-mean,F-M)得分达到了85.3%,比性能最高的对比方法提高了1.7%;在DAVIS-2017数据集上,J-MF-M得分达到了68.6%,比性能最高的对比方法提高了1.2%。同时,在DAVIS-2016数据集上,进行了网络输入与后处理的对比实验,结果证明本文方法改善了多帧时空特征的效果。结论 本文方法不需要在线微调和后处理,时空部件图模型可缓解因目标外观变化导致的视觉目标漂移问题,同时平滑精细模块增加了目标边缘细节信息,提高了视频目标分割的性能。  相似文献   

19.
陈东洋  郭进利 《计算机应用研究》2023,40(4):1095-1100+1136
为了更好地学习网络中的高阶信息和异质信息,基于单纯复形提出单纯复形—异质图注意力神经网络方法—SC-HGANN。首先,用单纯复形提取网络高阶结构,将单纯复形转换为单纯复形矩阵;其次,使用注意力机制从特征单纯复形中得到异质节点的特征;再次,对同质和异质单纯复形矩阵进行卷积操作后,得到同质特征与异质特征,通过注意力算子进行特征融合;最后,得到目标节点的特征并将其输入到节点分类模块完成分类。与GCN、HGNN、HAN等基线方法相比,提出的方法在三个数据集上的macro-F1、micro-F1、precision和recall均有所提升。表明该方法能有效地学习网络中的高阶信息和异质信息,并能提升网络节点分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号