首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 711 毫秒
1.
遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句。文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系。此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种基于金字塔池化和通道注意力机制的特征提取网络(Pyramid Pool and Channel Attention Network,PCAN),用于捕获遥感图像多尺度以及局部跨通道交互信息。将该模型提取到的图像特征作为描述生成阶段软注意力机制的输入,通过计算得到上下文信息,然后将该上下文信息输入至LSTM网络中,得到最终的输出序列。在RSICD与MSCOCO数据集上对PCAN及软注意力机制进行有效性实验,结果表明,PCAN及软注意力机制的加入能够提升生成语句的质量,实现单词与图像特征之间的对齐。通过对软注意力机制的可视化分析,提高了模型结果的可信度。此外,在语义分割数据集上进行实验,结果表明所提PCAN对于语义分割任务同样具有有效性。  相似文献   

2.
目前大多数图像标题生成模型都是由一个基于卷积神经网络(Convolutional Neural Network,CNN)的图像编码器和一个基于循环神经网络(Recurrent Neural Network,RNN)的标题解码器组成。其中图像编码器用于提取图像的视觉特征,标题解码器基于视觉特征通过注意力机制来生成标题。然而,使用基于注意力机制的RNN的问题在于,解码端虽然可以对图像特征和标题交互的部分进行注意力建模,但是却忽略了标题内部交互作用的自我注意。因此,针对图像标题生成任务,文中提出了一种能同时结合循环网络和自注意力网络优点的模型。该模型一方面能够通过自注意力模型在统一的注意力区域内同时捕获模态内和模态间的相互作用,另一方面又保持了循环网络固有的优点。在MSCOCO数据集上的实验结果表明,CIDEr值从1.135提高到了1.166,所提方法能够有效提升图像标题生成的性能。  相似文献   

3.
随着图像修复技术的发展,现有的图像修复方法在平坦图像上的修复表现良好,然而针对于复杂纹理图像的修复效果不佳。为了解决这个问题,得益于卷积神经网络处理纹理信息的强大能力,提出了一种多尺度距离注意力图像修复网络(MDAN),该网络构建了一个对称型的注意力结构来生成合适的特征。采用交互注意力机制将多头注意力各个头之间联系起来,并且引入了多距离融合的距离先验。在特征匹配的过程中不仅考虑特征是否相似,还考虑特征间距离的影响。在公开数据集DTD上进行实验,MDAN模型的效果优于当前主流的方法。  相似文献   

4.
人体关键点检测任务作为一种像素级别的检测任务,深度学习方法通常采用高分辨率特征图表征方法来回归关键点以增强检测效果。针对该方法由于始终采用高分辨率表征导致的参数量过大、运算复杂度要求过高的问题,提出了两种轻量型基础网络模块为Gattneck模块与Gattblock模块,以HRNet(High-Resolution Network)为基础框架,构建出一种轻量型人体关键点检测网络GattNet(Ghost-attention Network)。通过引入线性变换生成冗余特征图与通道注意力机制对通道权重进行重分配对HRNet进行轻量化改进,使用该方法网络参数量下降41.5%,运算复杂度降低36.7%。在MS COCO(Microsoft Common Objects in Context)2017数据集上进行验证,实验结果表明所提出GattNet网络在保留精度的前提下有效降低了参数量与运算复杂度。  相似文献   

5.
域名系统(Domain Name System,DNS)隐蔽信道在高级持续性威胁(Advanced Persistent Threat,APT)攻击中呈频发态势,对网络空间安全具有潜在威胁。文章提出基于域名语义表示(Domain Semantic Representation,DSR)和图注意力网络(Graph Attention Network,GAT)的DNS隐蔽信道检测方法 DSR-GAT,将域名级别的DNS隐蔽信道检测转化为一种无向图的节点分类任务。首先基于域名的相关性采用无向图构建域名图(Domain Graph,DG);然后利用域名的文本数据属性,采用一维卷积神经网络提取的语义表示作为DG节点的特征表示;最后通过图注意力网络的消息传播机制及多头自注意力机制,增强每个域名的特征表示。在公开数据集与基于真实APT样本Glimpse的自建数据集上进行实验,实验结果表明,文章提出的DSR-GAT方法检测效果较好,在解决上述问题的同时降低了漏报率,在一定程度上减小了安全风险。  相似文献   

6.
针对肝脏分割中存在误分割及小目标漏分割的问题,文中提出基于U-Net的特征交互分割方法,采用ResNet34作为主干网络.为了实现不同尺度间的非局部交互,设计基于转换器机制的特征交互金字塔模块作为网络的桥接器,获得具有丰富上下文信息的特征图.设计多尺度注意力机制替代U-Net中的跳跃连接,关注图像中的小目标,充分获取目标层的上下文信息.在公开数据集LiTS及3Dircadb和CHAOS组成的数据集上的实验证实文中方法能取得较好的分割效果.  相似文献   

7.
为了减少显著性物体检测对像素级标签的依赖,提出了一种基于图像语义的弱监督显著性物体检测方法.利用鱼网络和注意力机制的组合模型,在图像语义热力映射图的基础上,对弱标签采用余弦相似度进行训练更新,同时在网络训练初期采用训练诱导策略,利用简单数据集对整个网络进行诱导训练,使其具有一定的能力.然后,经过不断地增加数据集的复杂性,使得网络提取特征的能力越来越强.在4个显著性检测数据集上进行实验,并与传统监督方法进行对比分析,实验结果表明,该方法的F-MAX值在各个数据集上平均提高0.03~0.08,MAE减少0.02~0.05,在较弱的监督标签下能更精确地提取图像中的显著性特征.  相似文献   

8.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

9.
提出融合卷积通道注意力机制、堆叠通道注意力机制和空间注意力机制的孪生网络跟踪器(ThrAtt-Siam)来提升跟踪性能。ThrAtt-Siam跟踪器以SiameseFC为基础,通过在低卷积层融合卷积通道注意力机制、两个特征图与两个卷积块,加强目标物体特征提取,提高跟踪器对背景特征抗干扰能力和辨别能力;在目标图像分支融合堆叠通道注意力机制与空间注意力机制,其中堆叠通道注意力机制可有效区分有用特征与无用特征,同时针对不同通道的有用特征进行提取,空间注意力机制可有效地补充目标物体特征在通道空间中的信息,能够更好地对目标进行定位。在OTB2015和VOT2017数据集上的实验结果表明,ThrAtt-Siam跟踪器对目标物体形变、低分辨率和遮挡问题都取得了较好的跟踪准确率和成功率。  相似文献   

10.
马康哲  皮家甜  熊周兵  吕佳 《计算机应用》2022,42(12):3715-3722
在机械臂视觉抓取过程中,现有的算法在复杂背景、光照不足、遮挡等条件下,难以对目标物体进行实时、准确、鲁棒的姿态估计。针对以上问题,提出一种基于关键点方法的融合注意力特征的物体6D姿态网络。首先,在跳跃连接(Skip Connection)阶段引入能够聚焦通道空间信息的卷积注意力模块(CBAM),使编码阶段的浅层特征与解码阶段的深层特征进行有效融合,增强特征图的空间域信息和精确位置通道信息;其次,采用归一化损失函数以弱监督的方式回归每个关键点的注意力图,将注意力图作为对应像素位置上关键点偏移量的权重分数;最后,累加求和得到关键点坐标。实验结果证明,所提网络在LINEMOD数据集和Occlusion LINEMOD数据集上ADD(-S)指标分别达到了91.3%和46.3%。与基于关键点的逐像素投票网络(PVNet)相比ADD(-S)指标分别提升了5.0个百分点和5.5个百分点,验证了所提网络在遮挡场景下有更好的鲁棒性。  相似文献   

11.
杜雨奇  郑津  王杨  黄诚  李平 《计算机应用》2022,42(12):3692-3699
文本分割的主要任务是将文本按照主题相关的原则划分为若干个相对独立的文本块。针对现有文本分割模型提取文本段落结构信息、语义相关性及上下文交互等细粒度特征的不足,提出了一种基于图卷积网络(GCN)的文本分割模型TS-GCN。首先,基于文本段落的结构信息与语义逻辑构建出文本图;然后,引入语义相似性注意力来捕获文本段落节点间的细粒度相关性,并借助GCN实现文本段落节点高阶邻域间的信息传递,以此增强模型多粒度提取文本段落主题特征表达的能力。将所提模型与目前常用作文本分割任务基准的代表模型CATS及其基础模型TLT-TS进行对比。实验结果表明在Wikicities数据集上,TS-GCN在未增加任何辅助模块的情况下比TLT-TS的评价指标Pk 值下降了0.08个百分点;在Wikielements数据集上,相较于CATS和TLT-TS,所提模型的Pk 值分别下降了0.38个百分点和2.30个百分点,可见TLT-TS取得了较好的分割效果。  相似文献   

12.
事件检测(ED)是信息抽取领域中最重要的任务之一,旨在识别文本中特定事件类型的实例。现有的ED方法通常采用邻接矩阵来表示句法依存关系,然而邻接矩阵往往需要借助图卷积网络(GCN)进行编码来获取句法信息,由此增加了模型的复杂度。为此,提出了融合句法信息的无触发词事件检测方法。通过将依赖父词及其上下文转换为位置标记向量,并在模型源端以无参数的方式融入依赖子词的单词嵌入来加强上下文的语义表征,而不需要经过GCN进行编码;此外,针对触发词的标注费时费力的问题,设计了基于多头注意力机制的类型感知器,以对句子中潜在的触发词进行建模,实现无触发词的事件检测。为了验证所提方法的性能,在ACE2005数据集以及低资源越南语数据集上进行了实验。其中,在ACE2005数据集上与图变换网络事件检测(GTN-ED)方法相比,所提方法的F1值提升了3.7%;在越南语数据集上,与二分类的方法类型感知偏差注意机制神经网络(TBNNAM)相比,所提方法的F1值提升了9%。结果表明,通过在Transformer中融入句法信息能有效地连接句子中分散的事件信息来提高事件检测的准确性。  相似文献   

13.
为了提高视觉问答(VQA)模型回答复杂图像问题的准确率,提出了面向视觉问答的跨模态交叉融合注意网络(CCAN)。首先,提出了一种改进的残差通道自注意方法对图像进行注意,根据图像整体信息来寻找重要区域,从而引入一种新的联合注意机制,将单词注意和图像区域注意结合在一起;其次,提出一种“跨模态交叉融合”网络生成多个特征,将两个动态信息流整合到一起,每个模态内产生有效的注意流,其中对联合特征使用逐元素相乘的方法。此外,为了避免计算成本增加,网络之间共享参数。在VQA v1.0数据集上的实验结果表明,该模型的准确率达到67.57%,较MLAN模型提高了2.97个百分点,较CAQT模型提高了1.20个百分点。所提方法有效提高了视觉问答模型的准确率,具有有效性和鲁棒性。  相似文献   

14.
刘博  卿粼波  王正勇  刘美  姜雪 《计算机应用》2022,42(7):2052-2057
复杂场景下的群体活动识别是一项具有挑战性的任务,它涉及一组人在场景中的相互作用和相对空间位置关系。针对当前复杂场景下群组行为识别方法缺乏精细化设计以及没有充分利用个体间交互式特征的问题,提出了基于分块注意力机制和交互位置关系的网络框架,进一步考虑个体肢体语义特征,同时挖掘个体间交互特征相似性与行为一致性的关系。首先,采用原始视频序列和光流图像序列作为网络的输入,并引入一种分块注意力模块来细化个体的肢体运动特征;然后,将空间位置和交互式距离作为个体的交互特征;最后,将个体运动特征和空间位置关系特征融合为群体场景无向图的节点特征,并利用图卷积网络(GCN)进一步捕获全局场景下的活动交互,从而识别群体活动。实验结果表明,此框架在两个群组行为识别数据集(CAD和CAE)上分别取得了92.8%和97.7%的识别准确率,在CAD数据集上与成员关系图(ARG)和置信度能量循环网络(CERN)相比识别准确率分别提高了1.8个百分点和5.6个百分点,同时结合消融实验结果验证了所提算法有较高的识别精度。  相似文献   

15.
针对现有人群计数算法采用同步人工优化深度学习网络,忽略了网络学习的负面信息,导致大量冗余参数甚至过拟合,进而影响到计数准确性的问题,提出基于多列卷积神经网络MCNN(Multi-column Convolution Neural Network)的参数异步更新算法.首先将单帧图像输入网络,经过三列卷积分别提取不同尺度特...  相似文献   

16.
周金坤  王先兰  穆楠  王晨 《计算机应用》2022,42(10):3191-3199
针对现有跨视角图像匹配算法精度低的问题,提出了一种基于多视角多监督网络(MMNet)的无人机(UAV)定位方法。首先,所提方法融合卫星视角和UAV视角,在统一的网络架构下学习全局和局部特征并以多监督方式训练分类网络并执行度量任务。具体来说,MMNet主要采用了重加权正则化三元组损失(RRT)学习全局特征,该损失利用重加权和距离正则化加权策略来解决多视角样本不平衡以及特征空间结构紊乱的问题。同时,为了关注目标地点中心建筑的上下文信息,MMNet对特征图进行方形环切割来获取局部特征。然后,分别用交叉熵损失和RRT执行分类和度量任务。最终,使用加权策略聚合全局和局部特征来表征目标地点图像。通过在当前流行的UAV数据集University-1652上进行实验,可知MMNet在UAV定位任务的召回率Recall@1 (R@1)及平均精准率(AP)上分别达到83.97%和86.96%。实验结果表明,相较于LCM、SFPN等方法,MMNet显著提升了跨视角图像的匹配精度,进而增强了UAV图像定位的实用性。  相似文献   

17.
陈献  胡丽莹  林晓炜  陈黎飞 《计算机应用》2021,41(12):3447-3454
现有的有向图聚类算法大多基于向量空间中节点间的近似线性关系假设,忽略了节点间存在的非线性相关性。针对该问题,提出一种基于核非负矩阵分解(KNMF)的有向图聚类算法。首先,引入核学习方法将有向图的邻接矩阵投影到核空间,并通过特定的正则项约束原空间及核空间中节点间的相似性。其次,提出了图正则化核非对称NMF算法的目标函数,并在非负约束条件下通过梯度下降方法推导出一个聚类算法。该算法在考虑节点连边的方向性的同时利用核学习方法建模节点间的非线性关系,从而准确地揭示有向图中潜在的结构信息。最后,在专利-引文网络(PCN)数据集上的实验结果表明,簇的数目为2时,和对比算法相比,所提算法将DB值和DQF值分别提高了约0.25和8%,取得了更好的聚类质量。  相似文献   

18.
图像语义分割是图像识别中的一个经典难题,是机器视觉研究的一个热点。但在实际应用中,会出现语义标签预测不准确、所分割对象与背景之间边缘信息损失问题,这已逐渐成为了图像理解的瓶颈。据此,提出了一种基于金字塔场景分析网络(PSPNet)的网络改进结构,在特征学习模块中将输入图在原残差网络(ResNet)的基础上通过在网络内部增加卷积、池化操作,进一步学习各个层次特征,将所学习到的多个低层次特征图与高层次特征图相加,得到新的具有更多空间位置信息的特征图;为得到丰富的上下文信息,利用PSPNet的金字塔池化结构,将特征图中全局上下文信息与不同尺度局部上下文信息相结合,进行卷积和上采样,得到最终预测图。仿真实验结果表明,所改进的方法在PASCAL VOC 2012测试集中平均交并比(Mean Intersection over Union,MIoU)达到78.5%,较基准算法提升了1.7%。  相似文献   

19.
针对司法领域关系抽取任务中模型对句子上下文理解不充分、重叠关系识别能力弱的问题,提出了一种基于刑事Electra(CriElectra)的编-解码关系抽取模型.首先,参考中文Electra的训练方法,在1000000份刑事数据集上训练得到了CriElectra;然后,在双向长短期记忆网络(BiLSTM)模型上加入Cri...  相似文献   

20.
杨有  陈立志  方小龙  潘龙越 《计算机应用》2022,42(12):3900-3905
针对传统的图像描述模型不能充分利用图像信息且融合特征方式单一的问题,提出了一种融合自适应常识门(ACG)的图像描述生成模型。首先,使用基于视觉常识区域的卷积神经网络(VC R-CNN)提取视觉常识特征,并将常识特征分层输入到Transformer编码器中;然后,在编码器的每一分层中设计了ACG,从而对视觉常识特征和编码特征进行自适应融合操作;最后,将融合常识信息的编码特征送入Transformer解码器中完成训练。使用MSCOCO数据集进行训练和测试,结果表明所提模型在评价指标BLEU?4、CIDEr和SPICE上分别达到了39.2、129.6和22.7,相较于词性堆叠交叉注意网络(POS-SCAN)模型分别提升了3.2%、2.9%和2.3%。所提模型的效果明显优于使用单一显著区域特征的Transformer模型,能够对图像内容进行准确的描述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号