期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

石琇赟李顺勇韩翔《计算机系统应用》2023,32(6):286-292

多标签图像分类是多标签数据分类问题中的研究热点.针对目前多标签图像分类方法只学习图像的视觉表示特征,忽略了图像标签之间的相关信息以及标签语义与图像特征的对应关系等问题,提出了一种基于多头图注意力网络与图模型的多标签图像分类模型(ML-M-GAT).该模型利用标签共现关系与标签属性信息构建图模型,使用多头注意力机制学习标签的注意力权重,并利用标签权重将标签语义特征与图像特征进行融合,从而将标签相关性与标签语义信息融入到多标签图像分类模型中.为验证本文所提模型的有效性,在公开数据集VOC-2007和COCO-2014上进行实验,实验结果表明, ML-M-GAT模型在两个数据集上的平均均值精度(mAP)分别为94%和82.2%,均优于CNN-RNN、ResNet101、MLIR、MIC-FLC模型,比ResNet101模型分别提高了4.2%和3.9%.因此,本文所提的ML-M-GAT模型能够利用图像标签信息提高多标签图像分类性能. 相似文献

2.

遥感图像语义分割的多特征注意力融合网络

徐翔徐杨《计算机应用与软件》2023,40(8):187-192+213

针对高分辨率遥感图像中存在背景复杂、目标大小不一、类间具有相似性的问题,提出一种用于遥感图像语义分割的多特征注意力融合网络(Multi-feature Attention Fusion, MAFNet)。MAFNet基于编码和解码结构,在编码阶段,采用空间金字塔池化获取多尺度的上下文信息,同时融合特征通道之间的关联信息,提高特征图的语义表征能力;在解码阶段,基于注意力机制将高层特征与低层特征自适应地融合,逐级恢复目标的细节特征。在公开的数据集Potsdam和Vaihingen上设计了对比实验,PA值分别达到了89.6%和89.1%,验证了该方法的有效性。相似文献

3.

基于图结构的级联注意力视觉问答模型

下载免费PDF全文

张昊雨张德《计算机工程与应用》2023,59(6):155-161

视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合。目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法。提出一种基于图结构的级联注意力学习模型,该模型结合了图学习模块（学习输入图像问题的特定图表示）、图卷积层和级联注意力层,目的是捕捉不同候选框区域图像的空间信息,以及其与问题之间的更高层次的关系。在大规模数据集VQA v2.0上进行了实验,结果表明,跟主流算法相比较,是/否、计数和其他类型问题的回答准确率均有明显提升,总体准确率达到了68.34%,从而验证了提出模型的有效性。相似文献

4.

基于渐进式多光谱图像的行人检测算法

张波;赵云鹏《计算机工程与设计》2024,45(10):3042-3050

针对现有单光谱图像的行人检测算法在全天候环境下工作效率差的问题,提出一种基于渐进式多光谱图像的行人检测算法。设计一种差分位置注意增强模块,嵌入到不同层次的双流CSP-Darknet53特征主干提取网络中,渐进式增强不同光谱之间的全局互补信息;采用跨模态互补信息融合策略对现有融合方法进行改进,利用全局特征引导多尺度特征融合,进行更鲁棒性的行人检测。实验结果表明,该算法在LLVIP数据集上mAP50值为97.2%,在FLIR数据集上获得84.6%的mAP50值,具有良好的检测性能。相似文献

5.

语义及句法特征多注意力交互的医疗自动问答

下载免费PDF全文

张华丽康晓东李小军刘汉卿王笑天《计算机工程与应用》2022,58(18):233-240

针对中文医疗自动问答任务,为了捕捉问答句中重要的句法信息和语义信息,提出引入图卷积神经网络捕捉句法信息,并添加多注意力池化模块实现问答句的语序特征和句法特征联合学习的方法。在BERT模型学习问答句的高阶语义特征基础上,利用双向门控循环单元描述句子的全局语义特征,以及引入图卷积神经网络编码句子的语法结构信息,以与双向门控循环单元所获取的序列特征呈现互补关系;通过多注意力池化模块对问答对的不同语义空间上的编码向量进行两两交互,并着重突出问答对的共现特征;通过衡量问答对的匹配分数,找出最佳答案。实验结果表明,在cMedQA v1.0和cMedQA v2.0数据集上,相比于主流的深度学习方法,所提方法的ACC@1有所提高。实验证明引入图卷积神经网络和多注意力池化模块的集成算法能有效提升自动问答模型的性能。相似文献

6.

多特征融合的图像自动变形

肖红光肖树根刘京李淳芃陈立福《中国图象图形学报》2014,19(7):1012-1020

目的图像变形算法中特征基元提取和匹配方式大部分都是采用人机交互的方式进行,并且在遮挡区域变形时出现较多的鬼影和模糊现象,使得针对同一场景图像变形实现繁琐且效果不佳,针对这些问题提出一种基于多特征融合的自动图像变形算法。方法该算法提取多种图像特征信息（如Surf特征算子、Harris算子、Canny算子等）并进行多特征融合匹配,得到一个分布适当且对应关系正确的三角网格,再结合图像变形,实现自动图像插值。结果实验结果显示,自动的提取特征基元有效地减少了人工操作,而多特征融合匹配有效地抑制了图像变形时边缘或遮挡区域鬼影的产生。结论提出的融合匹配方法,将不同的特征信息有效地融合匹配从而改善了图像变形算法。通过对多组实验结果进行问卷调查,91%的参与者认为该算法有效地改进图像变形结果。相似文献

7.

基于多特征融合与PLSA-GMM的图像自动标注

孙君顶李海华靳姣林张毅《测控技术》2017,36(4):31-35

为减少图像检索中图像信息的缺失与语义鸿沟的影响,提出了一种基于多特征融合与PLSA-GMM的图像自动标注方法.首先,提取图像的颜色特征、形状特征和纹理特征,三者融合作为图像的底层特征;然后,基于概率潜在语义分析(PLSA)与高斯混合模型(GMM)建立图像底层特征、视觉语义主题与标注关键词间的联系,并基于该模型实现对图像的自动标注.采用Corel 5k数据库进行验证,实验结果证明了本文方法的有效性. 相似文献

8.

基于多语义特征融合的图像检索

曹建芳陈俊杰赵青杉《计算机技术与发展》2014,(5):134-137,141

多媒体技术的发展导致数字图像迅速增长,如何根据语义特征高效检索出满足用户要求的图像,已成为当前各行业迫切需要解决的问题。为此提出一种基于颜色、纹理和形状三种语义特征的图像检索方法,建立了颜色和纹理特征的语义描述,使用BP神经网络实现了低层视觉特征到高层语义特征的映射。选取Corel图像库作为测试图像库,实验通过与基于颜色语义特征的检索方法相比较,取得了良好的实验效果。相似文献

9.

基于跨尺度特征融合自注意力的图像描述方法

王鸣展冀俊忠贾奥哲张晓丹《计算机科学》2022,(10):191-197

近年来,基于自注意力机制的编码器-解码器框架已经成为主流的图像描述模型。然而,编码器中的自注意力只建模低尺度特征的视觉关系,忽略了高尺度视觉特征中的一些有效信息,从而影响了生成描述的质量。针对该问题,文中提出了一种基于跨尺度特征融合自注意力的图像描述方法。该方法在进行自注意力运算时,将低尺度和高尺度的视觉特征进行跨尺度融合,从视觉角度上提高自注意力关注的范围,增加有效视觉信息,减少噪声,从而学习到更准确的视觉语义关系。在MS COCO数据集上的实验结果表明,所提方法能够更精确地捕获跨尺度视觉特征间的关系,生成更准确的描述。特别地,该方法是一种通用的方法,通过与其他基于自注意力的图像描述方法相结合,能进一步提高模型性能。相似文献

10.

基于多尺度注意力融合网络的胃癌病理图像分割方法

张婷秦涵书赵若璇《电子技术应用》2023,49(9):46-52

近年来,随着深度学习技术的发展,基于编解码的图像分割方法在病理图像自动化分析上的研究与应用也逐渐广泛,但由于胃癌病灶复杂多变、尺度变化大,加上数字化染色图像时易导致的边界模糊,目前仅从单一尺度设计的分割算法往往无法获得更精准的病灶边界。为优化胃癌病灶图像分割准确度,基于编解码网络结构,提出一种基于多尺度注意力融合网络的胃癌病灶图像分割算法。编码结构以EfficientNet作为特征提取器,在解码器中通过对多路径不同层级的特征进行提取和融合,实现了网络的深监督,在输出时采用空间和通道注意力对多尺度的特征图进行注意力筛选,同时在训练过程中应用综合损失函数来优化模型。实验结果表明,该方法在SEED数据集上Dice系数得分达到0.806 9,相比FCN和UNet系列网络一定程度上实现了更精细化的胃癌病灶分割。相似文献

11.

基于层次注意力机制的高效视觉问答模型

吝博强田文洪《计算机应用研究》2021,38(2):636-640

视觉问答(visual question answering,VQA)是深度学习领域的一个新挑战,需要模型同时根据问题的语义和图片的内容进行推理并给出正确答案。针对视觉问答图片输入的多样性,设计了一种由两层注意力机制堆叠组成的层次注意力机制,帮助模型定位图片中与问题相关的信息,其中第一层注意力机制使用目标检测网络提取图片中物体的特征,第二层注意力机制引入问题特征。同时改进了现有的特征融合方式,消除对输入特征尺寸的限制。VQA数据集的测试结果显示,层次注意力机制使计数类问题的回答准确率提升了4%~5%,其他类型的问题回答准确率也有小幅提升。相似文献

12.

联合知识和视觉信息推理的视觉问答研究

下载免费PDF全文

苏振强苟刚《计算机工程与应用》2024,60(5):95-102

视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答中发挥着重要的作用,能够很好地辅助问答。基于知识的开放性视觉问答需要关联外部知识,才能实现跨模态的场景理解。为了更好地融合视觉信息和相关联的外部知识,提出联合知识和视觉信息推理双线性结构,设计了图像特征联合问题特征,对知识表征进行双引导的注意力模块。该模型利用预训练的视觉-语言模型获取问题和图像的特征表示以及视觉推理信息;利用相似性矩阵计算问题语义对齐下的图像对象区域;问题特征联合对齐后的区域特征,对知识表征进行协同引导获得知识推理信息;视觉推理信息和知识推理信息进行融合得到最终的答案。在开放的OK-VQA数据集上的实验结果表明,该模型的准确率相比两种基线方法分别有1.97个百分点和4.82个百分点的提升,从而验证了该模型的有效性。相似文献

13.

《Information Fusion》2021

VQA attracts lots of researchers in recent years. It could be potentially applied to the remote consultation of COVID-19. Attention mechanisms provide an effective way of utilizing visual and question information selectively in visual question and answering (VQA). The attention methods of existing VQA models generally focus on spatial dimension. In other words, the attention is modeled as spatial probabilities that re-weights the image region or word token features. However, feature-wise attention cannot be ignored, as image and question representations are organized in both spatial and feature-wise modes. Taking the question “What is the color of the woman’s hair” for example, identifying the hair color attribute feature is as important as focusing on the hair region. In this paper, we propose a novel neural network module named “multimodal feature-wise attention module” (MulFA) to model the feature-wise attention. Extensive experiments show that MulFA is capable of filtering representations for feature refinement and leads to improved performance. By introducing MulFA modules, we construct an effective union feature-wise and spatial co-attention network (UFSCAN) model for VQA. Our evaluation on two large-scale VQA datasets, VQA 1.0 and VQA 2.0, shows that UFSCAN achieves performance competitive with state-of-the-art models. 相似文献

14.

基于复合图文特征的视觉问答模型研究

邱南顾玉宛石林李宁庄丽华徐守坤《计算机应用研究》2021,38(8):2293-2298

针对当前主流视觉问答(visual question answering,VQA)任务使用区域特征作为图像表示而面临的训练复杂度高、推理速度慢等问题,提出一种基于复合视觉语言的卷积网络(composite visionlinguistic convnet,CVlCN)来对视觉问答任务中的图像进行表征.该方法将图像特征和问题语义通过复合学习表示成复合图文特征,然后从空间和通道上计算复合图文特征的注意力分布,以选择性地保留与问题语义相关的视觉信息.在VQA-v2数据集上的测试结果表明,该方法在视觉问答任务上的准确率有明显的提升,整体准确率达到64.4％.模型的计算复杂度较低且推理速度更快. 相似文献

15.

结合模态表征学习的多模态情感分析

下载免费PDF全文

刘若尘冯广罗良语林浩泽《计算机系统应用》2024,33(5):280-287

在当前视频多模态情感分析研究中,存在着未充分考虑模态之间的动态独立性和模态融合缺乏信息流控制的问题.为解决这些问题,本文提出了一种结合模态表征学习的多模态情感分析模型.首先,通过使用BERT和LSTM分别挖掘文本、音频和视频的内在信息,其次,引入模态表征学习,以获得更具信息丰富性的单模态特征.在模态融合阶段,融合了门控机制,对传统的Transformer融合机制进行改进,以更精确地控制信息流.在公开数据集CMU-MOSI和CMU-MOSEI的实验结果表明,与传统模型相比,准确性和F1分数都有所提升,验证了模型的有效性. 相似文献

16.

融合基本特征和词袋绑定特征的问句特征模型

杨思春高超秦锋戴新宇陈家骏《中文信息学报》2012,26(5):46-53

针对当前问句分类研究中特征提取的处理开销较大,提出一种融合基本特征和词袋绑定特征的问句特征模型。在分别提取问句中的词袋、词性、词义等基本特征及其对应的词袋绑定特征的基础上,通过将基本特征与词袋绑定特征进行融合,以获取更加高效的问句特征集合。在哈尔滨工业大学中文问句集上的实验结果表明,这种新的问句特征模型不仅具有实现简单、处理开销小的优点,而且有效弥补了单纯基本特征或词袋绑定特征在句法语义表达方面的不足,进一步提高了问句分类的准确率。相似文献

17.

关联首尾段落与首尾语句的多特征融合段落相似度计算

蒋宗礼赵洁《计算机与现代化》2016,(9):10

首尾段落和首尾语句对语义有着较大的贡献,应该作为判别段落相似度的主要因素。本文将其以恰当权重融入SiteQ算法,提出关联首尾段落和首尾语句的多特征融合段落相似度计算算法Topic-SiteQ。该算法采用多特征融合的算法计算首尾语句的语义相似度,并以一定的权值体现它们对段落相似度的贡献,同时提高首尾段落的评分值,并根据这次评分值进行推荐排序。实验表明,采用该算法,相关段落排序的MRR值提高了0.032,F测度值平均提高了1.4%,说明该算法的改进是有效的。相似文献

18.

基于跨模态多维关系增强的多模态模型研究

成曦杨关《计算机应用研究》2023,40(6)

针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型（multi-dimensional relationship enhancement model,MRE）,用于提取潜层结构下图像各要素之间的空间关系信息,并推理出视觉—语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征,从而增强图像空间关系特征表示;并设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系,实现跨模态关系对齐。在MSCOCO数据集上的实验表明所提模型获得了更好的性能,其中BLEU-4和CIDEr分数分别提升了0.5%和1.3%。将这种方法应用到视觉问答任务中,在VQA 2.0数据集上性能得到了0.62%的提升,证明该方法在多模态任务方面的广泛适用性。相似文献

19.

基于答案模式和语义特征融合的答案抽取方法

下载免费PDF全文

田卫东祖永亮《计算机工程与应用》2011,47(13):127-130

答案抽取是问答系统的关键技术。根据对问题-答案的分析可知,它们之间不仅存在语义上的相似性,而且还有句法上的关联性。提出了一种基于问题-答案之间句法模式和句子语义二元特征融合的答案抽取方法。通过对不同的特征赋予不同的权值来调节各特征对答案抽取准确率计算的贡献。与其他方法相比,描述答案的信息更加全面,答案抽取更加准确。相似文献