首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
经典的视觉注意力模型缺乏视觉对象间空间关系的推理能力,忽略了图像和问题文本之间的密集语义交互,导致在预测答案过程中对噪声的处理能力不足。针对上述问题,提出了一种基于门控图卷积网络和协同注意力的视觉问答模型。该模型基于图像中视觉对象之间的相对空间位置构建空间关系图;同时以问题为引导,在图卷积网络的基础上增加门控机制,能够动态控制具有不同空间关系的邻居对节点的贡献程度;然后将问题的词特征和带有空间关系感知能力的视觉特征输入双向引导的协同注意力模块,共同学习它们之间的密集语义交互。在VQA2.0数据集进行实验,结果表明:该模型具有较强的显式关系推理能力,在test-std测试集的总体准确率为70.90%,优于该数据集上的经典模型,有效地提升了视觉问答的准确率。  相似文献   

2.
目前大多数图像标题生成模型都是由一个基于卷积神经网络(Convolutional Neural Network,CNN)的图像编码器和一个基于循环神经网络(Recurrent Neural Network,RNN)的标题解码器组成。其中图像编码器用于提取图像的视觉特征,标题解码器基于视觉特征通过注意力机制来生成标题。然而,使用基于注意力机制的RNN的问题在于,解码端虽然可以对图像特征和标题交互的部分进行注意力建模,但是却忽略了标题内部交互作用的自我注意。因此,针对图像标题生成任务,文中提出了一种能同时结合循环网络和自注意力网络优点的模型。该模型一方面能够通过自注意力模型在统一的注意力区域内同时捕获模态内和模态间的相互作用,另一方面又保持了循环网络固有的优点。在MSCOCO数据集上的实验结果表明,CIDEr值从1.135提高到了1.166,所提方法能够有效提升图像标题生成的性能。  相似文献   

3.
随着图像修复技术的发展,现有的图像修复方法在平坦图像上的修复表现良好,然而针对于复杂纹理图像的修复效果不佳。为了解决这个问题,得益于卷积神经网络处理纹理信息的强大能力,提出了一种多尺度距离注意力图像修复网络(MDAN),该网络构建了一个对称型的注意力结构来生成合适的特征。采用交互注意力机制将多头注意力各个头之间联系起来,并且引入了多距离融合的距离先验。在特征匹配的过程中不仅考虑特征是否相似,还考虑特征间距离的影响。在公开数据集DTD上进行实验,MDAN模型的效果优于当前主流的方法。  相似文献   

4.
人体关键点检测任务作为一种像素级别的检测任务,深度学习方法通常采用高分辨率特征图表征方法来回归关键点以增强检测效果。针对该方法由于始终采用高分辨率表征导致的参数量过大、运算复杂度要求过高的问题,提出了两种轻量型基础网络模块为Gattneck模块与Gattblock模块,以HRNet(High-Resolution Network)为基础框架,构建出一种轻量型人体关键点检测网络GattNet(Ghost-attention Network)。通过引入线性变换生成冗余特征图与通道注意力机制对通道权重进行重分配对HRNet进行轻量化改进,使用该方法网络参数量下降41.5%,运算复杂度降低36.7%。在MS COCO(Microsoft Common Objects in Context)2017数据集上进行验证,实验结果表明所提出GattNet网络在保留精度的前提下有效降低了参数量与运算复杂度。  相似文献   

5.
域名系统(Domain Name System,DNS)隐蔽信道在高级持续性威胁(Advanced Persistent Threat,APT)攻击中呈频发态势,对网络空间安全具有潜在威胁。文章提出基于域名语义表示(Domain Semantic Representation,DSR)和图注意力网络(Graph Attention Network,GAT)的DNS隐蔽信道检测方法 DSR-GAT,将域名级别的DNS隐蔽信道检测转化为一种无向图的节点分类任务。首先基于域名的相关性采用无向图构建域名图(Domain Graph,DG);然后利用域名的文本数据属性,采用一维卷积神经网络提取的语义表示作为DG节点的特征表示;最后通过图注意力网络的消息传播机制及多头自注意力机制,增强每个域名的特征表示。在公开数据集与基于真实APT样本Glimpse的自建数据集上进行实验,实验结果表明,文章提出的DSR-GAT方法检测效果较好,在解决上述问题的同时降低了漏报率,在一定程度上减小了安全风险。  相似文献   

6.
从图像中挖掘人物间的社会关系在刑侦、隐私防护等领域有重要的作用。现有的图建模方法通过创建人际关系图或构建知识图谱来学习人物关系,取得了良好的效果。但基于图卷积神经网络(GCN)的方法一定程度上忽略了不同特征对特定关系的不同程度的重要性。针对上述问题,提出了一种基于图注意力的双分支社会关系识别模型(GAT-DBSR),第一个分支提取人物区域以及图像全局特征作为节点,核心是通过图注意力网络和门控机制去更新这些节点以学习人物关系的特征表示。第二个分支通过卷积神经网络提取场景特征来增强对人物关系的识别。最终对两个分支的特征进行融合并分类得到所有的社会关系。该模型在PISC数据集的细粒度关系识别任务上的mAP达到了74.4%,相比基线模型提高了1.2%。在PIPA数据集上的关系识别准确率也有一定的提升。实验结果表明了该模型具有更优越的效果。  相似文献   

7.
针对肝脏分割中存在误分割及小目标漏分割的问题,文中提出基于U-Net的特征交互分割方法,采用ResNet34作为主干网络.为了实现不同尺度间的非局部交互,设计基于转换器机制的特征交互金字塔模块作为网络的桥接器,获得具有丰富上下文信息的特征图.设计多尺度注意力机制替代U-Net中的跳跃连接,关注图像中的小目标,充分获取目标层的上下文信息.在公开数据集LiTS及3Dircadb和CHAOS组成的数据集上的实验证实文中方法能取得较好的分割效果.  相似文献   

8.
提出融合卷积通道注意力机制、堆叠通道注意力机制和空间注意力机制的孪生网络跟踪器(ThrAtt-Siam)来提升跟踪性能。ThrAtt-Siam跟踪器以SiameseFC为基础,通过在低卷积层融合卷积通道注意力机制、两个特征图与两个卷积块,加强目标物体特征提取,提高跟踪器对背景特征抗干扰能力和辨别能力;在目标图像分支融合堆叠通道注意力机制与空间注意力机制,其中堆叠通道注意力机制可有效区分有用特征与无用特征,同时针对不同通道的有用特征进行提取,空间注意力机制可有效地补充目标物体特征在通道空间中的信息,能够更好地对目标进行定位。在OTB2015和VOT2017数据集上的实验结果表明,ThrAtt-Siam跟踪器对目标物体形变、低分辨率和遮挡问题都取得了较好的跟踪准确率和成功率。  相似文献   

9.
为了减少显著性物体检测对像素级标签的依赖,提出了一种基于图像语义的弱监督显著性物体检测方法.利用鱼网络和注意力机制的组合模型,在图像语义热力映射图的基础上,对弱标签采用余弦相似度进行训练更新,同时在网络训练初期采用训练诱导策略,利用简单数据集对整个网络进行诱导训练,使其具有一定的能力.然后,经过不断地增加数据集的复杂性...  相似文献   

10.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

11.
杜雨奇  郑津  王杨  黄诚  李平 《计算机应用》2022,42(12):3692-3699
文本分割的主要任务是将文本按照主题相关的原则划分为若干个相对独立的文本块。针对现有文本分割模型提取文本段落结构信息、语义相关性及上下文交互等细粒度特征的不足,提出了一种基于图卷积网络(GCN)的文本分割模型TS-GCN。首先,基于文本段落的结构信息与语义逻辑构建出文本图;然后,引入语义相似性注意力来捕获文本段落节点间的细粒度相关性,并借助GCN实现文本段落节点高阶邻域间的信息传递,以此增强模型多粒度提取文本段落主题特征表达的能力。将所提模型与目前常用作文本分割任务基准的代表模型CATS及其基础模型TLT-TS进行对比。实验结果表明在Wikicities数据集上,TS-GCN在未增加任何辅助模块的情况下比TLT-TS的评价指标Pk值下降了0.08个百分点;在Wikielements数据集上,相较于CATS和TLT-TS,所提模型的Pk值分别下降了0.38个百分点和2.30个百分点,可见TLT-TS取得了较好的分割效果。  相似文献   

12.
事件检测(ED)是信息抽取领域中最重要的任务之一,旨在识别文本中特定事件类型的实例。现有的ED方法通常采用邻接矩阵来表示句法依存关系,然而邻接矩阵往往需要借助图卷积网络(GCN)进行编码来获取句法信息,由此增加了模型的复杂度。为此,提出了融合句法信息的无触发词事件检测方法。通过将依赖父词及其上下文转换为位置标记向量,并在模型源端以无参数的方式融入依赖子词的单词嵌入来加强上下文的语义表征,而不需要经过GCN进行编码;此外,针对触发词的标注费时费力的问题,设计了基于多头注意力机制的类型感知器,以对句子中潜在的触发词进行建模,实现无触发词的事件检测。为了验证所提方法的性能,在ACE2005数据集以及低资源越南语数据集上进行了实验。其中,在ACE2005数据集上与图变换网络事件检测(GTN-ED)方法相比,所提方法的F1值提升了3.7%;在越南语数据集上,与二分类的方法类型感知偏差注意机制神经网络(TBNNAM)相比,所提方法的F1值提升了9%。结果表明,通过在Transformer中融入句法信息能有效地连接句子中分散的事件信息来提高事件检测的准确性。  相似文献   

13.
为了提高视觉问答(VQA)模型回答复杂图像问题的准确率,提出了面向视觉问答的跨模态交叉融合注意网络(CCAN).首先,提出了一种改进的残差通道自注意方法对图像进行注意,根据图像整体信息来寻找重要区域,从而引入一种新的联合注意机制,将单词注意和图像区域注意结合在一起;其次,提出一种"跨模态交叉融合"网络生成多个特征,将两...  相似文献   

14.
刘博  卿粼波  王正勇  刘美  姜雪 《计算机应用》2022,42(7):2052-2057
复杂场景下的群体活动识别是一项具有挑战性的任务,它涉及一组人在场景中的相互作用和相对空间位置关系。针对当前复杂场景下群组行为识别方法缺乏精细化设计以及没有充分利用个体间交互式特征的问题,提出了基于分块注意力机制和交互位置关系的网络框架,进一步考虑个体肢体语义特征,同时挖掘个体间交互特征相似性与行为一致性的关系。首先,采用原始视频序列和光流图像序列作为网络的输入,并引入一种分块注意力模块来细化个体的肢体运动特征;然后,将空间位置和交互式距离作为个体的交互特征;最后,将个体运动特征和空间位置关系特征融合为群体场景无向图的节点特征,并利用图卷积网络(GCN)进一步捕获全局场景下的活动交互,从而识别群体活动。实验结果表明,此框架在两个群组行为识别数据集(CAD和CAE)上分别取得了92.8%和97.7%的识别准确率,在CAD数据集上与成员关系图(ARG)和置信度能量循环网络(CERN)相比识别准确率分别提高了1.8个百分点和5.6个百分点,同时结合消融实验结果验证了所提算法有较高的识别精度。  相似文献   

15.
针对现有人群计数算法采用同步人工优化深度学习网络,忽略了网络学习的负面信息,导致大量冗余参数甚至过拟合,进而影响到计数准确性的问题,提出基于多列卷积神经网络MCNN(Multi-column Convolution Neural Network)的参数异步更新算法.首先将单帧图像输入网络,经过三列卷积分别提取不同尺度特...  相似文献   

16.
周金坤  王先兰  穆楠  王晨 《计算机应用》2022,42(10):3191-3199
针对现有跨视角图像匹配算法精度低的问题,提出了一种基于多视角多监督网络(MMNet)的无人机(UAV)定位方法。首先,所提方法融合卫星视角和UAV视角,在统一的网络架构下学习全局和局部特征并以多监督方式训练分类网络并执行度量任务。具体来说,MMNet主要采用了重加权正则化三元组损失(RRT)学习全局特征,该损失利用重加权和距离正则化加权策略来解决多视角样本不平衡以及特征空间结构紊乱的问题。同时,为了关注目标地点中心建筑的上下文信息,MMNet对特征图进行方形环切割来获取局部特征。然后,分别用交叉熵损失和RRT执行分类和度量任务。最终,使用加权策略聚合全局和局部特征来表征目标地点图像。通过在当前流行的UAV数据集University-1652上进行实验,可知MMNet在UAV定位任务的召回率Recall@1 (R@1)及平均精准率(AP)上分别达到83.97%和86.96%。实验结果表明,相较于LCM、SFPN等方法,MMNet显著提升了跨视角图像的匹配精度,进而增强了UAV图像定位的实用性。  相似文献   

17.
图像语义分割是图像识别中的一个经典难题,是机器视觉研究的一个热点。但在实际应用中,会出现语义标签预测不准确、所分割对象与背景之间边缘信息损失问题,这已逐渐成为了图像理解的瓶颈。据此,提出了一种基于金字塔场景分析网络(PSPNet)的网络改进结构,在特征学习模块中将输入图在原残差网络(ResNet)的基础上通过在网络内部增加卷积、池化操作,进一步学习各个层次特征,将所学习到的多个低层次特征图与高层次特征图相加,得到新的具有更多空间位置信息的特征图;为得到丰富的上下文信息,利用PSPNet的金字塔池化结构,将特征图中全局上下文信息与不同尺度局部上下文信息相结合,进行卷积和上采样,得到最终预测图。仿真实验结果表明,所改进的方法在PASCAL VOC 2012测试集中平均交并比(Mean Intersection over Union,MIoU)达到78.5%,较基准算法提升了1.7%。  相似文献   

18.
陈献  胡丽莹  林晓炜  陈黎飞 《计算机应用》2021,41(12):3447-3454
现有的有向图聚类算法大多基于向量空间中节点间的近似线性关系假设,忽略了节点间存在的非线性相关性。针对该问题,提出一种基于核非负矩阵分解(KNMF)的有向图聚类算法。首先,引入核学习方法将有向图的邻接矩阵投影到核空间,并通过特定的正则项约束原空间及核空间中节点间的相似性。其次,提出了图正则化核非对称NMF算法的目标函数,并在非负约束条件下通过梯度下降方法推导出一个聚类算法。该算法在考虑节点连边的方向性的同时利用核学习方法建模节点间的非线性关系,从而准确地揭示有向图中潜在的结构信息。最后,在专利-引文网络(PCN)数据集上的实验结果表明,簇的数目为2时,和对比算法相比,所提算法将DB值和DQF值分别提高了约0.25和8%,取得了更好的聚类质量。  相似文献   

19.
针对司法领域关系抽取任务中模型对句子上下文理解不充分、重叠关系识别能力弱的问题,提出了一种基于刑事Electra(CriElectra)的编-解码关系抽取模型.首先,参考中文Electra的训练方法,在1000000份刑事数据集上训练得到了CriElectra;然后,在双向长短期记忆网络(BiLSTM)模型上加入Cri...  相似文献   

20.
知识图谱表示学习旨在将实体和关系映射到一个低维稠密的向量空间中。现有的大多数相关模型更注重于学习三元组的结构特征,忽略了三元组内的实体关系的语义信息特征和三元组外的实体描述信息特征,因此知识表达能力较差。针对以上问题,提出了一种融合多源信息的知识表示学习模型BAGAT。首先,结合知识图谱特征来构造三元组实体目标节点和邻居节点,并使用图注意力网络(GAT)聚合三元组结构的语义信息表示;然后,使用BERT词向量模型对实体描述信息进行嵌入表示;最后,将两种表示方法映射到同一个向量空间中进行联合知识表示学习。实验结果表明,BAGAT性能较其他模型有较大提升,在公共数据集FB15K-237链接预测任务的Hits@1与Hits@10指标上,与翻译模型TransE相比分别提升了25.9个百分点和22.0个百分点,与图神经网络模型KBGAT相比分别提升了1.8个百分点和3.5个百分点。可见,融合实体描述信息和三元组结构语义信息的多源信息表示方法可以获得更强的表示学习能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号