首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对无监督跨模态检索任务中不能充分利用单个模态内的语义关联信息的问题,提出了一种基于图卷积网络的无监督跨模态哈希检索方法。通过图像和文本编码器分别获得两个模态的特征,输入到图卷积网络中挖掘单个模态的内部语义信息,将结果通过哈希编码层进行二值化操作后,与模态间的深度语义关联相似度矩阵进行对比计算损失,不断重构优化生成的二进制编码,直到生成样本对应的健壮哈希表达。实验结果表明,与经典的浅层方法和深度学习方法对比,该方法在多个数据集上的跨模态检索准确率均有明显提升。证明通过图卷积网络能够进一步挖掘模态内的语义信息,所提模型具有更高的准确性和鲁棒性。  相似文献   

2.
刘长红  曾胜  张斌  陈勇 《计算机应用》2022,42(10):3018-3024
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法。首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性。将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析。实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度。  相似文献   

3.
在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部分有效模态信息丢失。针对该问题,提出一种通过多模态编码器来增强模态语义的跨模态食谱检索方法。首先使用预训练模型提取图像和食谱的初始语义特征,并借助对抗损失缩小模态间差异;然后利用成对跨模态注意力使来自一个模态的特征反复强化另一个模态的特征,进一步提取有效信息;接着采用自注意力机制对模态的内部特征进行建模,以捕捉丰富的模态特定语义信息和潜在关联知识;最后,引入三元组损失最小化同类样本间的距离,实现跨模态检索学习。在Recipe 1M数据集上的实验结果表明,该方法在中位数排名(MedR)和前K召回率(R@K)等方面均优于目前的主流方法,为跨模态检索任务提供了有力的解决方案。  相似文献   

4.
哈希表示能够节省存储空间,加快检索速度,所以基于哈希表示的跨模态检索已经引起广泛关注。多数有监督的跨模态哈希方法以一种回归或图约束的方式使哈希编码具有语义鉴别性,然而这种方式忽略了哈希函数的语义鉴别性,从而导致新样本不能获得语义保持的哈希编码,限制了检索准确率的提升。为了同时学习具有语义保持的哈希编码和哈希函数,提出一种语义保持哈希方法用于跨模态检索。通过引入两个不同模态的哈希函数,将不同模态空间的样本映射到共同的汉明空间。为使哈希编码和哈希函数均具有较好的语义鉴别性,引入了语义结构图,并结合局部结构保持的思想,将哈希编码和哈希函数的学习融合到同一个框架,使两者同时优化。三个多模态数据集上的大量实验证明了该方法在跨模态检索任务的有效性和优越性。  相似文献   

5.
刘芳名  张鸿 《计算机应用》2021,41(8):2187-2192
针对大多数跨模态哈希方法采用二进制矩阵表示相关程度,因此无法捕获多标签数据之间更深层的语义信息,以及它们忽略了保持语义结构和数据特征的判别性等问题,提出了一种基于多级语义的判别式跨模态哈希检索算法——ML-SDH。所提算法使用多级语义相似度矩阵发现跨模态数据中的深层关联信息,同时利用平等指导跨模态哈希表示在语义结构和判别分类中的关联关系,不仅实现了对蕴含高级语义信息的多标签数据进行编码的目的,而且构建的保留多级语义的结构能够确保最终学习的哈希码在保持语义相似度的同时又具有判别性。在NUS-WIDE数据集上,哈希码长度为32 bit时,所提算法在两个检索任务中的平均准确率(mAP)比深度跨模态哈希(DCMH)、成对关联哈希(PRDH)、平等指导判别式哈希(EGDH)算法分别高出了19.48,14.50,1.95个百分点和16.32,11.82,2.08个百分点。  相似文献   

6.
7.
针对传统情感分析中存在的模态间交互性差、时空特征融合度低的问题,建立了一种跨模态的语义时空动态交互网络。通过引入双向长短期记忆网络挖掘各模态的时间序列特征,加入自注意力机制强化模态内特征的权重赋值,将自动筛选出的特征矩阵送入图卷积神经网络进行语义交互。然后以时间戳为基础进行特征聚合,计算聚合层的相关系数,获得融合后的联合特征,实现跨模态空间交互,最终完成情感极性的分类与预测。使用公开数据集对所提出的模型进行评估验证,实验结果表明,多模态时间序列提取和跨模态语义空间交互机制可以实现模态内和模态间特征的全动态融合,有效地提升了情感分类的准确率和F1值,在CMU-MOSEI数据集上分别提高了1.7%~13.5%和2.1%~14.0%,表现出良好的健壮性和先进性。  相似文献   

8.
9.
随着互联网上多媒体数据的爆炸式增长,单一模态的检索已经无法满足用户需求,跨模态检索应运而生。跨模态检索旨在以一种模态的数据去检索另一种模态的相关数据,其核心任务是数据特征提取和不同模态间数据的相关性度量。文中梳理了跨模态检索领域近期的研究进展,从传统方法、深度学习方法、手工特征的哈希编码方法以及深度学习的哈希编码方法等角度归纳论述了跨模态检索领域的研究成果。在此基础上,对比分析了各类算法在跨模态检索常用标准数据集上的性能。最后,分析了跨模态检索研究存在的问题,并对该领域未来发展趋势以及应用进行了展望。  相似文献   

10.
对于网络中拥有的复杂信息,需要更多的方式抽取其中的有用信息,但现有的单特征图神经网络(GNN)无法完整地刻画网络中的相关特性。针对该问题,提出基于混合特征的图卷积网络(HDGCN)方法。首先,通过图卷积网络(GCN)得到节点的结构特征向量和语义特征向量;然后,通过改进基于注意力机制或门控机制的聚合函数选择性地聚合语义网络节点的特征,增强节点的特征表达能力;最后,通过一种基于双通道图卷积网络的融合机制得到节点的混合特征向量,将节点的结构特征和语义特征联合建模,使特征之间互相补充,提升该方法在后续各种机器学习任务上的表现。在CiteSeer、DBLP和SDBLP三个数据集上进行实验的结果表明,与基于结构特征训练的GCN相比,HDGCN在训练集比例为20%、40%、60%、80%时的Micro?F1值平均分别提升了2.43、2.14、1.86和2.13个百分点,Macro?F1值平均分别提升了1.38、0.33、1.06和0.86个百分点。用拼接或平均值作为融合策略时,准确率相差不超过0.5个百分点,可见拼接和平均值均可作为融合策略。HDGCN在节点分类和聚类任务上的准确率高于单纯使用结构或语义网络训练的模型,并且在输出维度为64、学习率为0.001、2层图卷积层和128维注意力向量时的效果最好。  相似文献   

11.
陈文轩  曾碧  郭植星 《计算机工程》2023,(5):277-285+294
摔倒事件严重影响老年人的生命健康,对摔倒行为进行检测可以降低老年人再次跌倒的风险,从而保证其生活能力以及提高生活质量。目前基于视觉的摔倒检测方法在实验数据集上能够取得较好的精度,但是无法很好地泛化到现实环境中,在实际应用时往往并不符合动作判断逻辑。针对该问题,对比光流法以及基于人体姿态估计的方法,在2D人体姿态估计的基础上提出一种鲁棒的摔倒检测方法。设计一种摔倒检测优化框架,构建融合多特征与语义图卷积的检测模型,采用更贴合动作判断逻辑的训练策略对该模型进行训练,以提高摔倒检测系统在现实环境中的泛化性。在Le2i Fall Detection Dataset、UP Fall Detection Dataset和Multiple Cameras Fall Detection Dataset这3个公开数据集以及自收集数据集上进行实验,结果表明,该模型的总体检测准确率达到98.3%,基于所提优化框架与训练策略的模型配合YOLOv3和Alpha_pose实现的整体摔倒检测方法在GTX1060显卡中帧率达到约25FPS,在现实场景测试中体现出较好的鲁棒性,相较以往的基于视觉的检测方法更适合部署在实...  相似文献   

12.
人类动作识别是一个极具挑战性的研究课题,广泛应用于安全监控、人机交互和自动驾驶等领域.近年来,图卷积网络在建模非欧几里德结构数据上取得了巨大成功,为骨架模态动作识别提供了新思路.由于骨架预定义图包含大量噪声,现有方法多使用高阶空域特征对空间依赖性进行建模.然而,仅关注高阶子集并不能在全局上反映顶点之间的动态相关性.此外...  相似文献   

13.
在自编码的学习过程中如何更好地保留原始特征及消除多模态数据分布的差异是一个重要的研究课题.因此,文中提出基于双对抗自编码器(DAA)的跨模态检索方法.使用全局对抗网络改进自编码器模态内重构过程,极小极大博弈的策略使模态内的原始特征和重构特征难以判别,更好地保留原始特征.隐含层对抗网络在生成模态不变表示的同时使模态间数据难以区分,有效减小多模态数据的分布差异.在Wikipedia、NUS-WIDE-10k数据集上的实验证明DAA的有效性.  相似文献   

14.
周光有  谢琦  余啸 《软件学报》2024,35(6):2863-2879
代码搜索是当下自然语言处理和软件工程交叉领域的一个重要分支. 开发高效的代码搜索算法能够显著提高代码重用的能力, 从而有效提高软件开发人员的工作效率. 代码搜索任务是以描述代码片段功能的自然语言作为输入, 在海量代码库中搜索得到相关代码片段的过程. 基于序列模型的代码搜索方法DeepCS虽然取得了很好的效果, 但这种方法不能捕捉代码的深层语义. 基于图嵌入的代码搜索方法GraphSearchNet能缓解这个问题, 但没有对代码与文本进行细粒度匹配, 也忽视了代码图和文本图的全局关系. 为了解决以上局限性, 提出基于关系图卷积网络的代码搜索方法, 对构建的文本图和代码图编码, 从节点层面对文本查询和代码片段进行细粒度匹配, 并应用神经张量网络捕捉它们的全局关系. 在两个公开数据集上的实验结果表明, 所提方法比先进的基线模型DeepCS和GraphSearchNet搜索精度更高.  相似文献   

15.
16.
比特币作为匿名的加密数字资产逐渐成为部分非法地下交易的选择.为了净化金融市场、打击非法交易,需要对比特币网络中的非法交易活动进行识别.在相关工作的基础上,文章提出一种基于多层感知器与图卷积网络结合的检测比特币网络中非法交易的方法(Multi-layer Perceptrons+Graph Convolutional N...  相似文献   

17.
针对大多数跨模态哈希检索方法仅通过分解相似矩阵或标签矩阵,从而导致标签语义信息利用不充分、标签矩阵分解过程语义信息丢失以及哈希码鉴别能力差的问题,提出了一种语义嵌入重构的跨模态哈希检索方法。该方法首先通过最小化标签成对距离和哈希码成对距离之间的距离差,从而将标签矩阵的成对相似性嵌入哈希码;接着对标签矩阵分解并重构学得共同子空间,共同子空间再回归生成哈希码,从而将标签矩阵的类别信息嵌入哈希码,并有效地控制标签矩阵分解过程的语义信息丢失情况,进一步提高哈希码的鉴别能力。在公开的三个基准数据集上进行了多个实验,实验结果验证了该方法的有效性。  相似文献   

18.
现实世界中的很多场景都能用多种节点类型和边类型组成的异构网络表示。网络中蕴含着丰富语义关系,并具有实际应用价值,引起了学术界和工业界的关注。传统的方法都是基于浅层模型进行异构网络挖掘。近几年,由于图卷积网络在同构网络中表现优越,有许多学者将图卷积网络应用到异构网络的挖掘,在各个任务中都取得了优异的成绩。通过对异构图卷积网络的研究进展进行评述,来了解相关领域的发展状况。介绍了异构图卷积网络的发展,将异构图卷积网络分为基于元路径和自适应异构信息的模型进行详细介绍及归纳,并综合分析了不同的聚合方法。介绍了异构图卷积网络在推荐系统、生物化学、异常检测和自然语言处理中的应用。分析了异构图卷积网络未来面临的挑战以及值得研究的问题。  相似文献   

19.
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,本文提出了一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,本文提出了一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出了一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法.  相似文献   

20.
针对基于公开新闻数据的重大事件趋势预测研究在文本特征提取上语义理解不足问题,提出基于图卷积网络的重大事件趋势预测方法.利用结构化事件信息构建以事件为中心的语义关联图;按时间片粒度分割出局部事件语义关联图,利用预训练词向量对节点文本初始化特征表示;将带有节点特征的局部事件语义关联图输入图卷积网络,聚合节点邻域信息计算图特征表示并输入到分类器,训练预测模型并输出预测结果.以朝鲜核行为趋势预测问题验证所提出方法的有效性,对测试集(2017年3月~2018年3月)预测准确率达到76.92%,全时间段预测准确率为89.58%.预测结果表明,该方法增强了对文本的语义理解,预测精度优于基于专家知识构建特征的方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号