首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于内容的图像和视频搜索重排序技术综述   总被引:1,自引:1,他引:1       下载免费PDF全文
基于内容的图像/视频搜索重排序技术是指在基于文本的图像/视频搜索结果的基础上,利用数据的视觉信息,通过某种方法对原始搜索结果重新排序的过程,目的是提高搜索质量和提升用户搜索体验,是一种互联网多媒体图像/视频搜索新模式。对这一技术进行了综述,系统地分析了重排序技术的发展现状,详尽地探讨了各类重排序技术的特点及应用,总结了现有评价方法和数据库,指出了当前重排序技术的发展趋势。  相似文献   

2.
现今的图像搜索引擎主要利用图像周围文本信息为图像排序,根据图像内容重排序可以进一步提高搜索性能。图像相似性的度量对重排序算法的性能至关重要。然而已有的相似性度量没有考虑针对不同的查询,图像的相似性应该不同。提出一种与查询相关的相似性度量方法,将基于全局特征的相似性,基于局部特征的相似性,以及视觉单词同时出现率融合到一个迭代算法中,挖掘出与查询相关的图像信息,计算图像相似性。在Bing图像搜索引擎上的实验结果证明本文提出的相似性度量方法优于基于全局特征,局部特征,或它们线性组合的相似性。  相似文献   

3.
谢辉  陆月明 《计算机应用》2013,33(2):460-462
针对基于文本的图像搜索结果的排序不能很好满足用户查询期望的问题,提出两种基于内容的图像搜索结果重排序方法:基于相似性积分的重排序算法(SI算法)和基于Dijkstra算法的重排序算法(D算法)。这两种方法把图像作为节点,利用图像的颜色和形状特征计算图像间的相似性,并将相似性作为边的权重构建相似性图,SI算法根据每个节点图像相似性积分的大小来进行排序,D算法则利用Dijkstra算法从指定图像开始对所有图像节点进行遍历排序。实验结果表明,两种方法都能很好地改善图像搜索排序结果,其中SI算法适合使用在初始查准率在0.5~0.9的情况;而D算法不要求初始查准率,但对图像间相似性值的精确度要求高,可以用于用户指定一张查询相关图像的重排序。  相似文献   

4.
在行人重识别问题中,为了减少因光线、摄像头角度、遮挡等因素对搜索结果带来的影响,需要通过拓展维度来丰富图像特征从而提高搜索精度。为此,本文提出了一种对行人重识别搜索结果进行重排序的方法。该方法首先通过行人的全局特征对行人图像进行搜索排序,然后提取行人属性特征,并利用属性特征训练一个二分类模型。通过模型对搜索结果进行重排序,并评估搜索精度。实验的结果表明,在加入属性特征之后,行人重识别算法搜索的Rank-1、mAP值均有提升。  相似文献   

5.
深度学习作为一个新的机器学习方向,被应用到计算机视觉领域上成效显著.为了解决分布式的尺度不变特征转换(Scale-Invariant Feature Transform,SIFT)算法效率低和图像特征提取粗糙问题,提出一种基于深度学习的SIFT图像检索算法.算法思想:在Spark平台上,利用深度卷积神经网络(Convolutional Neural Network,CNN)模型进行SIFT特征抽取,再利用支持向量机(Support Vector Machine,SVM)对图像库进行无监督聚类,然后再利用自适应的图像特征度量来对检索结果进行重排序,以改善用户体验.在Corel图像集上的实验结果显示,与传统SIFT算法相比,基于深度学习的SIFT图像检索算法的查准率和查全率大约提升了30个百分点,检索效率得到了提高,检索结果图像排序也得到了优化.  相似文献   

6.
近年来,基于图像视觉特征与问题文本特征融合的视觉问答(VQA)引起了研究者们的广泛关注.现有的大部分模型都是通过聚集图像区域和疑问词对的相似性,采用注意力机制和密集迭代操作进行细粒度交互和匹配,忽略了图像区域和问题词的自相关信息.本文提出了一种基于对称注意力机制的模型架构,能够有效利用图片和问题之间具有的语义关联,进而...  相似文献   

7.
一般细粒度图像分类只关注图像局部视觉信息,但在一些问题中图像局部的文本 信息对图像分类结果有直接帮助,通过提取图像文本语义信息可以进一步提升图像细分类效果。 我们综合考虑了图像视觉信息与图像局部文本信息,提出一个端到端的分类模型来解决细粒度 图像分类问题。一方面使用深度卷积神经网络获取图像视觉特征,另一方面依据提出的端到端 文本识别网络,提取图像的文本信息,再通过相关性计算模块合并视觉特征与文本特征,送入 分类网络。最终在公共数据集 Con-Text 上测试该方法在图像细分类中的结果,同时也在 SVT 数据集上验证端到端文本识别网络的能力,均较之前方法获得更好的效果。  相似文献   

8.
在文本搜索领域,用自学习排序的方法构建排序模型越来越普遍。排序模型的性能很大程度上依赖训练集。每个训练样本需要人工标注文档与给定查询的相关程度。对于文本搜索而言,查询几乎是无穷的,而人工标注耗时费力,所以选择部分有信息量的查询来标注很有意义。提出一种同时考虑查询的难度、密度和多样性的贪心算法从海量的查询中选择有信息量的查询进行标注。在LETOR和从Web搜索引擎数据库上的实验结果,证明利用本文提出的方法能构造一个规模较小且有效的训练集。  相似文献   

9.
场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。  相似文献   

10.
图像描述是机器学习和计算机视觉的重要研究领域,但现有方法对于视觉特征和模型架构之间存在的语义信息关联性探索还存在不足.本文提出了一种基于用户标签、视觉特征的注意力模型架构,能够有效地结合社交图像特征和图像中用户标签生成更加准确的描述.我们在MSCOCO数据集上进行了实验来验证算法性能,实验结果表明本文提出的基于用户标签、视觉特征的注意力模型与传统方法相比具有明显的优越性.  相似文献   

11.
一种基于视觉单词的图像检索方法   总被引:1,自引:0,他引:1  
刁蒙蒙  张菁  卓力  隋磊 《测控技术》2012,31(5):17-20
基于内容的图像检索技术最主要的问题是图像的低层特征和高层语义之间存在着"语义鸿沟"。受文本内容分析的启发,有研究学者借鉴传统词典中用文本单词组合解释术语的思路,将图像视为视觉单词的组合,利用一系列视觉单词的组合来描述图像的语义内容。为此,利用SIFT进行图像的视觉单词特征提取,然后构建视觉单词库,最后实现了一个基于视觉单词的图像检索系统。实验结果表明,该方法在一定程度上提高了图像检索的查准率。  相似文献   

12.
大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering, VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任务给定与图像相关的一个问题,推理相应的答案.在视觉问答任务的基本背景下,以设计出完备的图像碎片化信息问答的框架与算法为目标,重点研究包括图像特征提取、问题文本特征提取、多模态特征融合和答案推理的模型与算法.构建深度神经网络模型提取用于表示图像与问题信息的特征,结合注意力机制与变分推断方法关联图像与问题2种模态特征并推理答案.实验结果表明:该模型能够有效提取和理解多模态碎片化信息,并提高视觉问答任务的准确率.  相似文献   

13.
文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering, VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network, MRGNN)模型。利用图像中多种形式的信息帮助理解场景文本内容,将场景文本图片分别预处理成视觉对象图和文本图的形式,并且在问题自注意力模块下过滤多余的信息;使用加入注意力的聚合器完善子图之间相互的节点特征,从而融合不同模态之间的信息,更新后的节点利用不同模态的上下文信息为答疑模块提供了更好的功能。在ST-VQA和TextVQA数据集上验证了有效性,实验结果表明,相比较此任务的一些其他模型,MRGNN模型在此任务上有明显的提升。  相似文献   

14.
视觉词典方法(Bag of visual words,BoVW)是当前图像检索领域的主流方法,然而,传统的视觉词典方法存在计算量大、词典区分性不强以及抗干扰能力差等问题,难以适应大数据环境.针对这些问题,本文提出了一种基于视觉词典优化和查询扩展的图像检索方法.首先,利用基于密度的聚类方法对SIFT特征进行聚类生成视觉词典,提高视觉词典的生成效率和质量;然后,通过卡方模型分析视觉单词与图像目标的相关性,去除不包含目标信息的视觉单词,增强视觉词典的分辨能力;最后,采用基于图结构的查询扩展方法对初始检索结果进行重排序.在Oxford5K和Paris6K图像集上的实验结果表明,新方法在一定程度上提高了视觉词典的质量和语义分辨能力,性能优于当前主流方法.  相似文献   

15.
16.
传统的电子商务网站主要通过商品名称的关键字来进行商品搜索,然而文字信息难以完整的描述商品的各种特征,并且存在人为操作的主观性,导致搜索结果与用户意图之间存在较大差异.基于内容的图像搜索技术通过提取商品图像的视觉特征进行搜索,为电子商务网站的发展提供了新的契机.本文在此基础上对图像购物搜索技术的研究工作进行梳理,总结研究现状,分析技术原理,并指明未来的发展趋势.  相似文献   

17.
徐新  穆楠  张晓龙 《软件学报》2018,29(9):2616-2631
基于人类视觉注意机制的显著性对象检测模型作为能主动感知图像中重要信息的有效方法,对探索视觉早期认知过程的大范围知觉信息组织具有重要意义.然而由于夜间图像具有低信噪比和低对比度特性,现有的视觉显著性对象检测模型在夜间场景中容易受到噪声干扰、弱纹理模糊等多方面因素的影响.有鉴于此,本文提出了一种基于区域协方差和全局搜索的夜间图像显著性对象检测方法.首先将输入图像分割为超像素块,并分别计算它们的协方差.然后使用超像素块协方差的差异性作为适应度函数,并结合全局搜索算法来优化各个超像素块的显著值.最后通过图扩散方法来精炼显著图结果.实验测试采用了5个公开图像数据集和1个夜间图像数据集,通过与11种目前主流的视觉显著性对象检测模型进行对比,综合评价了本文所提出模型的性能.  相似文献   

18.
目的 随着用户对图像传播的个性化要求不断提升,图像-与文本融合成为了目前传播的新形式。为用户照片自动地添加具有美观的水印文字成为图像处理的一个新方向-视觉媒体的自动设计。通过结合设计学原理和计算机视觉原理,为水印文字块在图像中的位置和配色进行优化。方法 基于视觉显著性理论及构图学理论,为水印文字块确定最佳位置。然后根据视觉反差和颜色和谐化理论为文字选取合适颜色。为更完美呈现文字与图像的和谐关系,基于色彩和谐化理论对原图像进行自适应的色轮模板匹配,并以此选取文本色彩。结果 为验证本文所提出的算法,采用用户调查方式分别与腾讯的水印相机及华夏地理(国家地理杂志中文网)配图作对比。与腾讯的水印相机相比,排版与配色后的结果优于仅和谐化后结果(73.25%:17.42%),同时也优于水印相机原图(73.25%:9.32%)。与华夏地理编辑人工处理后的图片相比,本算法远胜于原始推送结果(97.2%:2.8%)。本算法可以全自动、快捷为用户提供满意的输出结果。结论 无论在与目前自动化的水印相机相比还是简单的人工编辑排版相比,本文算法在提高图文混合排版的设计感及美感上有一定的作用。  相似文献   

19.
Feature grouping and local soft match for mobile visual search   总被引:1,自引:0,他引:1  
More powerful mobile devices stimulate mobile visual search to become a popular and unique image retrieval application. A number of challenges come up with such application, resulting from appearance variations in mobile images. Performance of state-of-the-art image retrieval systems is improved using bag-of-words approaches. However, for visual search by mobile images with large variations, there are at least two critical issues unsolved: (1) the loss of features discriminative power due to quantization; and (2) the underuse of spatial relationships among visual words. To address both issues, this paper presents a novel visual search method based on feature grouping and local soft match, which considers properties of mobile images and couples visual and spatial information consistently. First features of the query image are grouped using both matched visual features and their spatial relationships; and then grouped features are softly matched to alleviate quantization loss. An efficient score scheme is devised to utilize inverted file index and compared with vocabulary-guided pyramid kernels. Finally experiments on Stanford mobile visual search database and a collected database with more than one million images show that the proposed method achieves promising improvement over the approach with a vocabulary tree, especially when large variations exist in query images.  相似文献   

20.
文本提取和相似反馈的互联网图像检索研究   总被引:1,自引:0,他引:1       下载免费PDF全文
使用基于文本的互联网图像检索技术是互联网图像检索最实用的方式,也对其他方式的互联网图像检索有重要辅助作用,但如何利用周边文本来对图像进行准确描述一直是一个难题。利用TFIDF为基础提出了一个基于句法和文本重要性分类的图像关键词权重计算方法,并尝试通过图像的相似性因素作为反馈进一步优化搜索结果,为用户返回最贴切的搜索结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号