首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 79 毫秒
1.
多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F3模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F3  相似文献   

2.
针对单模态细粒度分类方法难以区分图像间细微差异的问题,将多模态融合方法引入到细粒度分类任务中,充分利用多模态数据的相关性和互补性,提出了一种基于模态相关性学习的细粒度分类方法。该方法分为两个阶段,首先考虑到图像和文本数据之间的对应关系,利用它们的匹配程度作为约束来进行模型的预训练;接着,加载上一步得到的网络参数,先提取多模态特征,再利用文本特征指导图像特征的生成;最后,基于融合后的特征进行细粒度分类。该方法在UPMC-Food101、MEP-3M-MEATS和MEP-3M-OUTDOORS数据集上进行训练测试,分别达到91.13%、82.39%和93.17%的准确率。实验结果表明,该方法相对于传统的多模态融合方法具有更好的性能,是一种有效的细粒度分类方法。  相似文献   

3.
深度跨模态哈希算法(deep cross-modal Hash,DCMH)可以结合哈希算法存储成本低、检索速度快的优点,以及深度神经网络提取特征的强大能力,得到了越来越多的关注。它可以有效地将模态的特征和哈希表示学习集成到端到端框架中。然而在现有的DCMH方法的特征提取中,基于全局表示对齐的方法无法准确定位图像和文本中有语义意义的部分,导致在保证检索速度的同时无法保证检索的精确度。针对上述问题,提出了一种基于多模态注意力机制的跨模态哈希网络(HX_MAN),将注意力机制引入到DCMH方法中来提取不同模态的关键信息。利用深度学习来提取图像和文本模态的全局上下文特征,并且设计了一种多模态交互门来将图像和文本模态进行细粒度的交互,引入多模态注意力机制来更精确地捕捉不同模态内的局部特征信息,将带有注意的特征输入哈希模块以获得二进制的哈希码;在实行检索时,将任一模态的数据输入训练模块中来获得哈希码,计算该哈希码与检索库中哈希码的汉明距离,最终根据汉明距离按顺序输出另一种模态的数据结果。实验结果表明:HX_MAN模型与当前现有的DCMH方法相比更具有良好的检索性能,在保证检索速度的同时,能够更准确...  相似文献   

4.
我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法....  相似文献   

5.
面向用户的多媒体检索中的多模态界面框架设计   总被引:1,自引:0,他引:1  
本文提出并设计了一种面向用户的多媒体信息检索中的多模态界面框架。该框架将知识指导、语义概念学习、自然语言处理及用户特性分析等技术于一体,从而为设计通用多媒体信息检索系统奠定了基础。  相似文献   

6.
随着计算机与大数据技术在医学领域中的迅速应用以及医疗信息存储标准的逐渐完善,医学数据呈爆炸式增长。医学数据由于其自身特点而呈现出多模态形式,且这些多模态数据往往同时出现、互相补充,因此实现多模态数据间的相互检索具有重要的临床价值。回顾了近年来多模态检索在医学领域的实现方法,将其归纳为基于文本、基于内容以及基于融合信息的多模态检索,基于内容的多模态检索可进一步划分为基于传统特征的检索和基于深度特征的检索。针对多模态检索算法的性能,介绍了准确率、召回率以及平均精度均值等常用的评价指标。分析了当前医学领域多模态检索所面临的挑战,并对未来医学领域多模态检索的研究发展进行了展望。  相似文献   

7.
目的 多模态信息交叉检索的根本问题是多模态数据的特征表示。稀疏编码是一种有效的数据特征表示方法,但是当查询数据和被检索数据来自不同模态时,数据间存在分布差异,相似的特征可能被编码为差异显著的稀疏表示,此时传统稀疏编码便不再适用。为此,提出了一种基于稀疏编码的多模态信息交叉检索算法。方法 采用最大均值差异(MMD)以及图拉普拉斯,并将二者加入到稀疏编码的目标函数中来充分利用多模态信息进行编码,模型求解采用特征符号搜索和离散线搜索算法逐个更新稀疏编码系数。结果 在Wikipedia的文本图像对数据上进行实验,并与传统稀疏编码进行比较,实验结果表明,本文算法使交叉检索的平均准确率(MAP)提高了18.7%。结论 本文算法增强了稀疏表示的鲁棒性,提高了多模态交叉检索的准确率,更适用于对多模态数据进行特征提取,并进行进一步的操作,如交叉检索、分类等。  相似文献   

8.
王亚  郑博文  张欣 《计算机应用研究》2021,38(3):685-688,695
为了获得更好的三维模型检索分类性能,基于深度学习模型研究了多模态信息融合对三维模型的特征描述,在训练步骤提出相关性损失函数来指导不同模态之间的训练,提取更稳健的特征向量;最后将融合特征应用于三维模型的检索和分类,在ModelNet40数据集上进行了三维模型分类任务和检索任务评估。实验结果及与现有方法进行的对比证明了该方法的优越性,为三维模型检索分类领域提供了一种新的思路。  相似文献   

9.
随着互联网人工智能技术的飞速发展,学习用户特征并精准投放广告能够显著提升广告的点击率(ClickThrough-Rate,CTR)与转化率(Conversion Rate,CVR).人群智能定向是解决广告投放问题中极其重要的一环,其业界主流方法是使用转化用户和非转化用户训练基于用户特征的判断其是否会成为转化用户的分类模型.这个分类器的优劣依赖广告的实际转化人群规模,规模越大,越能准确判断.但在实际应用中通常面临某些广告转化人群不足的问题,本文利用在学术与工业场景占据重要研究地位的基于内容的检索技术来扩充相似广告集合,从而扩充对应转化人群.现有的单模态检索方案只关注于单个模态的特征(文本/图像),忽视了不同模态间的内在共有联系,使得挖掘出的广告特征不全且包含大量噪声,最终导致相似广告的检索结果质量不高,从而导致相似转化人群的扩充质量低下.而近年来兴起的跨模态检索方案主要关注以文搜图或以图搜文,并且没有考虑到通用目标检测器并不适用于特定领域图像数据这一事实.为解决这些问题,本文提出一种以广告分类为基本训练目标的多模态商品广告特征融合建模方法,以提升相似广告检索的效果.具体来说,本文使用Tr...  相似文献   

10.
目的 服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服装风格检索方法。方法 提出分层深度哈希检索模型,基于预训练的残差网络ResNet(residual network)进行迁移学习,并把分类层改造成哈希编码层,利用哈希特征进行粗检索,再用图像深层特征进行细检索。设计文本分类语义检索模型,基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围,再以基于doc2vec提取的文本嵌入语义特征进行检索。同时提出相似风格上下文检索模型,其参考单词相似性来衡量服装风格相似性。最后采用概率驱动的方法量化风格相似性,并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈。结果 在Polyvore数据集上,与原始ResNet模型相比,分层深度哈希检索模型的top5平均检索精度提高11.6%,检索速度提高2.57 s/次。与传统文本分类嵌入模型相比,本文分类语义检索模型的top5查准率提高29.96%,检索速度提高16.53 s/次。结论 提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升,同时进行了相似风格服装的检索使结果更具有多样性。  相似文献   

11.
Fine-grained image search is one of the most challenging tasks in computer vision that aims to retrieve similar images at the fine-grained level for a given query image. The key objective is to learn discriminative fine-grained features by training deep models such that similar images are clustered, and dissimilar images are separated in the low embedding space. Previous works primarily focused on defining local structure loss functions like triplet loss, pairwise loss, etc. However, training via these approaches takes a long training time, and they have poor accuracy. Additionally, representations learned through it tend to tighten up in the embedded space and lose generalizability to unseen classes. This paper proposes a noise-assisted representation learning method for fine-grained image retrieval to mitigate these issues. In the proposed work, class manifold learning is performed in which positive pairs are created with noise insertion operation instead of tightening class clusters. And other instances are treated as negatives within the same cluster. Then a loss function is defined to penalize when the distance between instances of the same class becomes too small relative to the noise pair in that class in embedded space. The proposed approach is validated on CARS-196 and CUB-200 datasets and achieved better retrieval results (85.38% recall@1 for CARS-196% and 70.13% recall@1 for CUB-200) compared to other existing methods.  相似文献   

12.
经过几十年的发展,信息检索技术获得了长足的进步和广泛的应用,但当前主流的搜索引擎系统距离真正智能的信息获取系统仍然有较大差距.智能信息获取系统能够对网络大数据的内容进行获取、阅读和理解,对关键语义信息实现存储和检索,并能够依据用户的信息需求进行推理、决策和信息生成.实现这样的系统,迫切需要在检索架构和检索模型上形成根本性的改变和理论突破.近年来,围绕智能信息获取的需求,利用深度学习检索框架展开了系统性研究,在数据表征、数据索引以及检索算法等方向上形成了一系列原创成果,在探索全新的深度学习检索架构上不断迈进.  相似文献   

13.
随着网络的普及,越来越多人遇到身体不适时,会选择在网站上搜索相关症状.随着在线医疗问答网站的出现,如春雨医生、寻医问药等,患者可以便捷地医生交流.现有的问答系统方法,聚焦于词级别的交互与语义信息,却很少考虑在回答问题时,回答者还利用了与问答本身无直接联系的常识.在实际生活中,除了病人的表述,医生还需要额外知识来诊断病人.提出了一个基于多模态知识感知注意力机制的医疗问答方法,它可以有效地利用多模态医疗知识图谱来构建基于知识图谱的问答对之间的交互.该模型首先学习知识图谱中实体的多模态表示;然后从多模态知识图谱中与问答对相关联的实体的路径来推测出回答该问题时的逻辑,并刻画问答对之间的交互关系.此外,该模型还提出了一种注意力机制来判别连接问答对的不同路径之间的重要性.构建了一个大规模的多模态医疗知识图谱和一个医疗问答数据集,实验结果表明:该方法比当前最好的方法准确度提升了2%以上.  相似文献   

14.
In recent years, the development of deep learning has further improved hash retrieval technology. Most of the existing hashing methods currently use Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs) to process image and text information, respectively. This makes images or texts subject to local constraints, and inherent label matching cannot capture fine-grained information, often leading to suboptimal results. Driven by the development of the transformer model, we propose a framework called ViT2CMH mainly based on the Vision Transformer to handle deep Cross-modal Hashing tasks rather than CNNs or RNNs. Specifically, we use a BERT network to extract text features and use the vision transformer as the image network of the model. Finally, the features are transformed into hash codes for efficient and fast retrieval. We conduct extensive experiments on Microsoft COCO (MS-COCO) and Flickr30K, comparing with baselines of some hashing methods and image-text matching methods, showing that our method has better performance.  相似文献   

15.
基于路径学习的信息自动抽取方法   总被引:7,自引:0,他引:7  
针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习的信息自动抽取方法 ,并采用该方法编制了一个商品价格信息自动抽取系统 .实验结果表明 ,该方法具有用户负担较轻 (只需用户提供 2~ 4个学习实例 )、查全率 (97.0 4~ 10 0 % )与查准率 (99~ 10 0 % )高、可实现大样本量信息抽取和时间资源耗费少 (抽取时间 <1秒 )等特点 ,能基本满足网页信息自动抽取的要求 .  相似文献   

16.
阿尔兹海默症(Alzheimer's Disease,AD)是一种在老年人群中常见的痴呆疾病,由于病程不可逆且无法治愈,常会对病人的生活质量产生极大影响,因此尽早诊断病情并对病程加以干预是唯一有效的手段。由于良好的实验效果,深度学习模型在医学图像领域受到了越来越多研究者的关注,但深度学习方法常需要较大的数据量作为支撑,而医学图像由于设备成本以及病例数量的限制,常存在着数据量不足的问题,因而在某些情况下会出现过拟合的问题。提出一种参数高效的深度学习模型,引入了可分离卷积、全局平均池化、残差结构,使得模型参数量成倍地减少,同时引入多模态数据,增大了输入样本的信息量,以求减少过拟合问题。最后,通过对照试验,验证了该文所提出模型的优越性。  相似文献   

17.
深度学习的快速发展和关联学习的深度研究,使得跨模态检索的性能有了很大提升.跨模态检索研究面临的挑战是:不同模态的数据在高层语义上具有关联关系,但在底层特征上存在异构鸿沟.现有方法主要通过单个相关性约束将不同模态的特征映射到具有一定相关性的特征空间中来解决底层特征上的异构鸿沟问题.然而,表征学习表明,不同层次的特征在帮助模型最终性能的提升上都会起作用.所以,现有方法学习到的单一特征空间的关联性是弱的,即该特征空间可能不是最优的检索空间.为解决该问题,提出了基于关联特征传播的跨模态检索模型,其基本思想是强化深度网络各层之间的关联性,即前一层具有一定关联的特征经过非线性变化传到后一层,有利于找到使2种模态关联性更强的特征空间.通过在Wikipedia,Pascal数据集上的大量实验验证得到,该方法提升了平均精度均值.  相似文献   

18.
视觉注意力机制在细粒度图像分类中得到了广泛的应用。现有方法多是构建一个注意力权重图对特征进行简单加权处理。对此,本文提出了一种基于可端对端训练的深度神经网络模型实现的多通道视觉注意力机制,首先通过多视觉注意力图描述对应于视觉物体的不同区域,然后提取对应高阶统计特性得到相应的视觉表示。在多个标准的细粒度图像分类测试任务中,基于多通道视觉注意的视觉表示方法均优于近年主流方法。  相似文献   

19.
网络信息的检索与挖掘回顾   总被引:1,自引:0,他引:1  
随着互联网的蓬勃发展,海量的网络信息成为了迄今为止最大规模的数据资源。如何利用海量网络信息,为人们提供智能应用,更好的解决人们的信息需求,成为了互联网领域的挑战性问题,也催生了对海量网络信息检索与挖掘的广泛研究。该文从信息表达、信息检索与信息挖掘三个方向入手,结合近年来对网络信息相关领域的研究与实践,对网络信息检索与挖掘的发展变化历程、目前存在的问题以及未来的发展趋势进行总结和分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号