期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刁蒙蒙张菁卓力隋磊《测控技术》2012,31(5):17-20

基于内容的图像检索技术最主要的问题是图像的低层特征和高层语义之间存在着"语义鸿沟"。受文本内容分析的启发,有研究学者借鉴传统词典中用文本单词组合解释术语的思路,将图像视为视觉单词的组合,利用一系列视觉单词的组合来描述图像的语义内容。为此,利用SIFT进行图像的视觉单词特征提取,然后构建视觉单词库,最后实现了一个基于视觉单词的图像检索系统。实验结果表明,该方法在一定程度上提高了图像检索的查准率。相似文献

2.

基于跨媒体字典的图像检索

顾文娇张化祥《计算机工程》2014,(6):238-240,246

当前存在的图像检索大多是基于内容的检索,为提高检索的准确率,通过整合文本及视觉信息,提出一种自动将文本查询转化为可视化表示的方法,实现基于跨媒体字典的图像检索。采用标注图像集挖掘文本和图像间的关系,训练建立一个类似于双语字典的跨媒体字典,自动将文本查询转化为视觉查询,分别进行基于文本和基于视觉的图像检索,将2种方法检索到的图像合并作为最终检索结果。实验结果表明,该方法能有效地提高图像的查准率。相似文献

3.

基于文本和内容的图像检索算法

顾昕张兴亮王超陈思媛方正《计算机应用》2014,(Z2):280-282,313

为了提高图像检索的效率,提出一种基于文本和内容的图像检索算法。该算法采用稠密的尺度不变特征转换（ DSIFT）构造视觉单词的方式来描述图像内容,依据基于概率潜在语义分析（ PLSA）模型的图像自动标注方法获取的视觉语义对查询图像进行初步检索,在此结果集上对筛选出的语义相关图像按内容相似度排序输出。在数据集Corel1000上的实验结果表明,该算法能够实现有效的图像检索,检索效率优于单一的基于内容的图像检索算法。相似文献

4.

一种基于稀疏典型性相关分析的图像检索方法?

庄凌庄越挺吴江琴叶振超吴飞《软件学报》2013,(5)

图像语义检索的一个关键问题就是要找到图像底层特征与语义之间的关联,由于文本是表达语义的一种有效手段,因此提出通过研究文本与图像两种模态之间关系来构建反映两者间潜在语义关联的有效模型的思路。基于该模型,可使用自然语言形式(文本语句)来表达检索意图,最终检索到相关图像。该模型基于稀疏典型性相关分析(sparse canonical correlation analysis,简称sparse CCA),按照如下步骤训练得到：首先利用隐语义分析方法构造文本语义空间,然后以视觉词袋(bag of visual words)来表达文本所对应的图像,最后通过Sparse CCA算法找到一个语义相关空间,以实现文本语义与图像视觉单词间的映射。使用稀疏的相关性分析方法可以提高模型可解释性和保证检索结果稳定性。实验结果验证了Sparse CCA方法的有效性,同时也证实了所提出的图像语义检索方法的可行性。相似文献

5.

一种基于稀疏典型性相关分析的图像检索方法 总被引：1，自引：0，他引：1

庄凌庄越挺吴江琴叶振超吴飞《软件学报》2012,23(5):1295-1304

图像语义检索的一个关键问题就是要找到图像底层特征与语义之间的关联,由于文本是表达语义的一种有效手段,因此提出通过研究文本与图像两种模态之间关系来构建反映两者间潜在语义关联的有效模型的思路,基于该模型,可使用自然语言形式(文本语句)来表达检索意图,最终检索到相关图像.该模型基于稀疏典型性相关分析(sparse canonical correlation analysis,简称sparse CCA),按照如下步骤训练得到:首先利用隐语义分析方法构造文本语义空间,然后以视觉词袋(bag of visual words)来表达文本所对应的图像,最后通过Sparse CCA算法找到一个语义相关空间,以实现文本语义与图像视觉单词间的映射.使用稀疏的相关性分析方法可以提高模型可解释性和保证检索结果稳定性.实验结果验证了Sparse CCA方法的有效性,同时也证实了所提出的图像语义检索方法的可行性. 相似文献

6.

一种基于本体的图像检索方法

沈学剑周满元《微计算机信息》2010,(8)

提出一种基于本体的图像检索方法。该方法结合特定领域专家知识和对象例图,采用视觉对象本体来描述图像内特定对象的视觉特征,从而构建该领域包含视觉描述的知识库。在检索过程中,利用知识库内的对象的视觉本体描述和目标图像库内的图像低层特征相匹配执行图像检索任务,从而实现在高层次语义上的图像检索。实验结果表明了该方法的有效性和可行性,并在一定程度上缩小了视觉低层特征同图像高层语义的鸿沟。相似文献

7.

从视觉到文本: 图像描述生成的研究进展综述

魏忠钰范智昊王瑞泽承怡菁赵王榕黄萱菁《中文信息学报》1986,34(7):19-29

近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。相似文献

8.

基于文本与语义相关性分析的图像检索

下载免费PDF全文

穆亚昆冯圣威张静《计算机工程与应用》2019,55(1):196-202

为了更加有效地检索到符合用户复杂语义需求的图像，提出一种基于文本描述与语义相关性分析的图像检索算法。该方法将图像检索分为两步：基于文本语义相关性分析的图像检索和基于SIFT特征的相似图像扩展检索。根据自然语言处理技术分析得到用户文本需求中的关键词及其语义关联，在选定图像库中通过语义相关性分析得到“种子”图像；接下来在图像扩展检索中，采用基于SIFT特征的相似图像检索，利用之前得到的“种子”图像作为查询条件，在网络图像库中进行扩展检索，并在结果集上根据两次检索的图像相似度进行排序输出，最终得到更加丰富有效的图像检索结果。为了证明算法的有效性，在标准数据集Corel5K和网络数据集Deriantart8K上完成了多组实验，实验结果证明该方法能够得到较为精确地符合用户语义要求的图像检索结果，并且通过扩展算法可以得到更加丰富的检索结果。相似文献

9.

图像表示及在检索系统中的应用 总被引：1，自引：0，他引：1

康寅杨文川《软件》2011,32(1):38-41

目前,网上流行的过滤和搜索系统主要是依靠文本内容,很少有图像搜索系统。广义的图像搜索引擎可以输入图像,从网络中搜索类似的图像及文本内容,免去了语言的障碍。常用的技术为基于内容的图像检索（CBIR）,它是图像分析的一个的重要研究领域,也是目前搜索引擎技术的难点。造成图像分析与检索困难的原因是目前还没有标准的描述图像的方法,众所周知,图像相对于文本理解起来更为复杂,表达的信息也更为丰富。本文阐述了一种基于标题、颜色、形状等多种特征的图像信息表示方法,并利用文本分析、颜色直方图的颜色特征提取、图像边缘检测实现了对图片信息的展示与检索功能。相似文献

10.

基于深度学习的图像-文本匹配研究综述

刘萌齐孟津詹圳宇曲磊钢聂秀山聂礼强《计算机学报》2023,(11):2370-2399

图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本文将现有方法划分为基于全局特征的图像-文本匹配方法、基于局部特征的图像-文本匹配方法、基于外部知识的图像-文本匹配方法、基于度量学习的图像-文本匹配方法以及多模态预训练模型,对于基于全局特征的图像-文本匹配方法,本文依据流程类型划分为两类：基于嵌入的方法和基于交互的方法;而对于基于局部特征的图像-文本匹配方法,依据其交互模式的不同,则被细分为三类：基于模态内关系建模的方法、基于模态间关系建模的方法以及基于混合交互建模的方法.随后,本文对当前图像-文本匹配任务的相关数据集进行了整理,并对现有方法的实验结果进行分析与总结.最后,对未来研究可能面临的挑战进行了展望. 相似文献

11.

基于多模态神经网络的图像中文摘要生成方法

刘泽宇马龙龙吴健孙乐《中文信息学报》2017,31(6):162-171

图像的自然语言描述(image captioning)是一个融合计算机视觉、自然语言处理和机器学习的跨领域课题。它作为多模态处理的关键技术,近年来取得了显著成果。当前研究大多针对图像生成英文摘要,而对于中文摘要的生成方法研究较少。该文提出了一种基于多模态神经网络的图像中文摘要生成方法。该方法由编码器和解码器组成,编码器基于卷积神经网络,包括单标签视觉特征提取网络和多标签关键词特征预测网络,解码器基于长短时记忆网络,由多模态摘要生成网络构成。在解码过程中,该文针对长短时记忆网络的特点提出了四种多模态摘要生成方法CNIC-X、CNIC-H、CNIC-C和CNIC-HC。在中文摘要数据集Flickr8k-CN上实验,结果表明该文提出的方法优于现有的中文摘要生成模型。相似文献

12.

深度学习图像描述方法分析与展望

下载免费PDF全文

赵永强金芝张峰赵海燕陶政为豆乘风徐新海刘东红《中国图象图形学报》2023,28(9):2788-2816

图像描述任务是利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句，实现从图像到文本的跨模态转换。随着深度学习技术的广泛应用，图像描述算法的精确度和推理速度都得到了极大提升。本文在广泛文献调研的基础上，将基于深度学习的图像描述算法研究分为两个层面，一是图像描述的基本能力构建，二是图像描述的应用有效性研究。这两个层面又可以细分为传递更加丰富的特征信息、解决暴露偏差问题、生成多样性的图像描述、实现图像描述的可控性和提升图像描述推理速度等核心技术挑战。针对上述层面所对应的挑战，本文从注意力机制、预训练模型和多模态模型的角度分析了传递更加丰富的特征信息的方法，从强化学习、非自回归模型和课程学习与计划采样的角度分析了解决暴露偏差问题的方法，从图卷积神经网络、生成对抗网络和数据增强的角度分析了生成多样性的图像描述的方法，从内容控制和风格控制的角度分析了图像描述可控性的方法，从非自回归模型、基于网格的视觉特征和基于卷积神经网络解码器的角度分析了提升图像描述推理速度的方法。此外，本文还对图像描述领域的通用数据集、评价指标和已有算法性能进行了详细介绍，并对图像描述中待解决的问题与未来研究... 相似文献

13.

Fast RF-UIC: A fast unsupervised image captioning model

《Displays》2023

相似文献

14.

基于双路细化注意力机制的图像描述模型

丛璐文《计算机系统应用》2020,29(5):245-251

图像描述是连接计算机视觉与自然语言处理两大人工智能领域内的一项重要任务.近几年来,基于注意力机制的编码器-解码器架构在图像描述领域内取得了显著的进展.然而,许多基于注意力机制的图像描述模型仅使用了单一的注意力机制.本文提出了一种基于双路细化注意力机制的图像描述模型,该模型同时使用了空间注意力机制与通道注意力机制,并且使用了细化图像特征的模块,对图像特征进行进一步细化处理,过滤掉图像中的冗余与不相关的特征.我们在MS COCO数据集上进行实验来验证本文模型的有效性,实验结果表明本文的基于双路细化注意力机制的图像描述模型与传统方法相比有显著的优越性. 相似文献

15.

一种基于多层语义特征的图像理解方法

莫宏伟田朋《控制与决策》2021,36(12):2881-2890

视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能. 相似文献

16.

Image super-resolution based on two-level residual learning CNN

Gao Min Han Xian-Hua Li Jing Ji Hui Zhang Huaxiang Sun Jiande 《Multimedia Tools and Applications》2020,79(7-8):4831-4846

In recent years, CNN has been used for single image super-resolution (SR) with its success of in the field of computer vision. However, in the recovery process, there are always some high-frequency components that cant be recovered from low-resolution images to high-resolution ones by using existing CNN-based methods. In this paper, we propose an image super-resolution method based on CNN, which uses a two-level residual learning network to learn residual components, i.e., high-frequency components. We use the Super-Resolution Convolutional Neural Network (SRCNN) as the network structure in each level so that our proposed method can achieve the high-resolution images with high-frequency components that cant be obtained by the existing methods. In addition, we analyze the proposed method with considering three kinds of residual learning networks, which are different in the structure and superimposed layers of the residual learning network. In the experiments, we investigate the performance of the proposed method with various residual learning networks and the effect of image super-resolution to image captioning task.

相似文献

17.

Captioning Videos Using Large-Scale Image Corpus

下载免费PDF全文

Xiao-Yu Du Yang Yang Liu Yang Fu-Min Shen Zhi-Guang Qin Jin-Hui Tang 《计算机科学技术学报》2017,32(3):480-493

相似文献

18.

基于视觉-语义中间综合属性特征的图像中文描述生成算法

肖雨寒江爱文王明文揭安全《中文信息学报》2021,35(4):129-138

图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息.由于异构语义鸿沟的存在,该任务具有较大的挑战性.目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少.图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取... 相似文献

19.

Video captioning: a review of theory,techniques and practices

Jain Vanita Al-Turjman Fadi Chaudhary Gopal Nayar Devang Gupta Varun Kumar Aayush 《Multimedia Tools and Applications》2022,81(25):35619-35653

相似文献