首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
针对图像描述生成中对图像细节表述质量不高、图像特征利用不充分、循环神经网络层次单一等问题,提出基于多注意力、多尺度特征融合的图像描述生成算法。该算法使用经过预训练的目标检测网络来提取图像在卷积神经网络不同层上的特征,将图像特征分层输入多注意力结构中,依次将多注意力结构与多层循环神经网络相连,构造出多层次的图像描述生成网络模型。在多层循环神经网络中加入残差连接来提高网络性能,并且可以有效避免因为网络加深导致的网络退化问题。在MSCOCO测试集中,所提算法的BLEU-1和CIDEr得分分别可以达到0.804及1.167,明显优于基于单一注意力结构的自上而下图像描述生成算法;通过人工观察对比可知,所提算法生成的图像描述可以表现出更好的图像细节。  相似文献   

2.
基于多模板特征点融合的指纹识别   总被引:2,自引:0,他引:2       下载免费PDF全文
低质量指纹图像通常会产生较多的伪特征点,或者当待识指纹图像与模板图像之间存在较大平移和旋转时,识别算法的性能会受到很大的影响。利用多匹配算法的融合技术可以提高系统的识别率,但是这种数据融合的方法既增大了计算量,同时又难以充分利用原始指纹图像的信息。针对上述问题,提出了一种评估特征点置信度的方法,并在匹配算法中根据特征点置信度来修正匹配分数;然后运用特征层数据融合技术,将一个指纹的多个模板的特征点融合成一个特征点的本征模板,再与待识指纹图像的特征点进行匹配。实验结果表明,该方法在不明显增加存储空间和在线计算量的同时,可以达到很好的识别性能。  相似文献   

3.
室内全景图像拼接采用SIFT特征点进行图像匹配与融合。由于相机镜头视野范围有限,需要多张具有重合区域不同角度图像进行拼接,以获得完整的全景图像。首先对多张原图像进行图像增强和噪声滤波的预处理,以减少特征点提取时的干扰因素;再将多张图像压入堆栈,采用SIFT算法提取每张图像的特征点;使用FLANN快速最近邻搜索包进行最近邻特征点匹配,最后进行图像融合。试验结果表明该方法能够很好地实现室内全景图像的拼接。  相似文献   

4.
针对土地利用分类中高空间分辨率遥感图像已标注样本少和传感器高度变化导致地物形变等问题,提出一种基于多尺度特征融合的土地利用分类算法。通过对多个卷积层特征进行多尺度自适应融合,降低地物形变对分类精度造成的影响。为进一步提高分类精度,利用预训练网络提取的深度特征对多尺度特征融合部分和全连接层进行预训练,采用增广数据集对整个网络进行微调。实验结果表明,自适应融合方法改善了融合效果,有效提高了土地利用分类的精度。  相似文献   

5.
针对SIFT(尺度不变特征变换)算法提取的特征点不纯、易受噪声等因素干扰的问题,提出在SIFT算法提取特征点之前对图像进行预处理,排除部分外界干扰。针对SIFT算法中128维的高维度特征描述符导致匹配速度降低,提出一种基于分层区域的方法降低描述符维度,缩短算法运行时间。针对SIFT算法匹配过程中选取固定阈值不具有广泛适用性的问题,提出一种自适应阈值的方法,解决设置固定阈值不能适用所有图像的问题,提高匹配准确率。实验结果证明,改进的算法能提高匹配准确率和匹配效率,增强算法的鲁棒性和可靠性,并且适用性广泛。  相似文献   

6.
为保证提取特征的信息量丰富,当前基于深度学习的图像配准算法通常采用深层卷积神经网络,模型的计算复杂度高,而且还存在相似特征点区分度低的问题。针对上述问题,提出一种基于多特征融合的自监督图像配准算法(SIRA-MFF)。首先,使用浅层卷积神经网络提取图像特征,降低计算复杂度,并且通过在特征提取层添加特征点方向描述符,弥补浅层网络特征信息量单一的问题;其次,在特征提取层后添加用于扩大特征点感受野的嵌入与交互层,融合特征点局部和全局信息以提升相似特征点区分度;最终,最佳匹配方案由改进的特征匹配层计算得到,并同步设计了一种基于交叉熵的损失函数用于模型训练。在ILSVRC2012数据集生成的2个测试集中,SIRA-MFF的平均匹配准确率(AMA)分别为95.18%和93.26%,优于对比算法;在IMC-PT-SparseGM-50测试集中,SIRA-MFF的AMA为89.69%,也优于对比算法,且与ResMtch算法相比,单张图像运算时间降低了49.45%。实验结果表明,SIRAMFF具有较高精度和较强的鲁棒性。  相似文献   

7.
基于内容的图像拷贝检测关键在于提取的图像特征能够针对不同形式的图像拷贝攻击具有不变性。现实中拷贝攻击手段变化多样,且存在很多相似图像的干扰,目前并没有任何一种图像特征可以对抗所有不同形式的图像攻击。现有方法虽然在图像特征表示上做了很多改进,但都局限于单个特征表示。因此从特征融合的角度对提取特征进行增强,基于卷积神经网络融合图像高层特征以及低层特征以实现特征多样性,集成ImageNet预训练分类模型以及提出的距离度量模型以实现特征互补性。度量模型针对该类问题在预训练模型的基础上通过学习合适的距离度量来对抗由于图像编辑引起的特征差异,拉近拷贝图像与原始图像在特征空间的距离。实验结果表明,结合模型集成和多层深度特征融合的方式可以有效增强特征的鲁棒性,相比单一特征的检测效果提升十分明显。  相似文献   

8.
基于SURF的抗重复特征干扰图像配准方法   总被引:1,自引:0,他引:1  
针对基于加速鲁棒特征(SURF)的图像配准算法的配准精度易受重复特征干扰的影响这一问题,提出一种基于SURF的抗重复特征干扰的图像配准方法.使用SURF算法提取图像特征点;针对重复特征干扰,提出一种特征点分类匹配方法以取代传统的全局匹配,在不显著增加计算量的情况下有效的降低误配率;使用随机抽样一致(RANSAC)算法进一步筛除误配,并计算出图像转化矩阵以完成配准.实验结果表明,该方法能有效抑制实验图像中严重的重复特征干扰,并获得较高的配准精度.  相似文献   

9.
同一场景下的合成孔径雷达(SAR图像)的灰度特性由于相关噪声的影响及成像条件不同,可能存在很大差异,使得直接运用基于特征的图像匹配方法难于实现SAR图像高精度的配准。针对此问题,提出了一种SAR图像的预匹配方法,即运用占优的线特征信息,通过统计分析寻找出待匹配图像的角度和尺度变化,实现图像的预匹配。实验结果表明,该算法可以有效、精确地寻找出图像前后的角度和尺度变化。进而相比于传统直接基于特征配准图像的方法,经该算法预匹配处理后的图像再基于特征匹配时,其配准精度和效率都有很大的提高。  相似文献   

10.
特征点和不变矩结合的遥感图像飞机目标识别   总被引:2,自引:0,他引:2       下载免费PDF全文
传统的飞机目标识别算法一般是通过目标分割,然后提取不变特征进行训练来完成目标的识别。但是,对于实际情况比较复杂的遥感图像飞机目标,至今没有一种适合多种机型的分割和识别算法。针对现有识别算法的不足,本研究提出一种基于特征点空间分布、颜色不变矩和Zernike不变矩相结合的遥感图像飞机目标识别算法。方法:首先,对预处理后的遥感图像和模板图像进行小波变换,在低分辨率图像下采用圆投影特征进行粗匹配,确定候选目标;粗匹配结束后,提取高分辨率图像的多尺度Harris-laplace角点,并画出Delaunay三角网,同时提取出颜色不变矩和Zernike不变矩;然后使用欧氏距离作为这三种特征的相似性度量,并和样本图像进行加权匹配;最后选取欧式距离最小的图像作为最终的识别目标。结果:实验表明,本文算法飞机检测精度比现有算法高2.2%,飞机识别精度比现有算法高1.4%-10.4%。该算法能从遥感图像中精确识别出十大飞机目标,并对背景、噪声、视角变化等多种干扰具有良好的鲁棒性。结论:提出了一种基于特征点空间分布、颜色不变矩和Zernike不变矩相结合的飞机识别算法,该算法使用了图像的多种信息,包括特征点和不变矩,有效地克服了使用单一特征无法描述多种信息的不足。实验结果表明,本文采用基于特征点和不变矩的飞机识别算法比其他算法具有更强的抗干扰能力和识别精度。  相似文献   

11.
基于卷积神经网络的立体匹配方法未充分利用图像中各个层级的特征图信息,造成对图像在不适定区域的特征提取能力较差。提出一种融合多尺度与多层级特征的立体匹配方法。通过在双塔结构卷积神经网络模型的前端设计一个池化金字塔层,提取图像的多尺度低层结构特征。在该网络模型的后端融合最后三层网络的高级语义特征来提取图像特征,并对图像特征进行相似性度量后输出视差图。在KITTI 2015数据集上的实验结果表明,与LUO和Anita方法相比,该方法的像素误差精度分别由14.65%、8.30%降至8.02%,且可得到细节信息更好的视差图。  相似文献   

12.
Liao  Wenxiong  Zeng  Bi  Liu  Jianqi  Wei  Pengfei  Fang  Jiongkun 《Applied Intelligence》2022,52(10):11184-11198

As various social platforms are experiencing fast development, the volume of image-text content generated by users has grown rapidly. Image-text based sentiment of social media analysis has also attracted great interest from researchers in recent years. The main challenge of image-text sentiment analysis is how to construct a model that can promote the complementarity between image and text. In most previous studies, images and text were simply merged, while the interaction between them was not fully considered. This paper proposes an image-text interaction graph neural network for image-text sentiment analysis. A text-level graph neural network is used to extract the text features, and a pre-trained convolutional neural network is employed to extract the image features. Then, an image-text interaction graph network is constructed. The node features of the graph network are initialized by the text features and the image features, while the node features in the graph are updated based on the graph attention mechanism. Finally, combined with image-text aggregation layer to realize sentiment classification. The results of the experiments prove that the presented method is more effective than existing methods. In addition, a large-scale Twitter image-text sentiment analysis dataset was built by us and used in the experiments.

  相似文献   

13.
为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称对象分割任务,该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特征,但是这种方法无法有效利用图像的边缘特征且训练复杂。CLIP(contrastive language-image pre-training)是一个强大的预训练视觉语言跨模态模型,能够有效提取图像与文本特征,因此提出一种在频域融合CLIP编码后的多模态特征方法。首先,使用无监督模型对图像进行粗粒度分割,并提取自然语言文本中的名词用于后续任务。接着利用CLIP的图像编码器与文本编码器分别对图像与文本进行编码。然后使用小波变换分解图像与文本特征,可以充分利用图像的边缘特征与图像内的位置信息在频域进行分解并融合,并在频域分别对图像特征与文本特征进行融合,并将融合后的特征进行反变换。最后将文本特征与图像特征进行逐像素匹配,得到分割结果,并在常用的数据集上进行测试。实验结果证明,网络在无训练零样本的条件下取得了良好的效果,并且具有较好的鲁棒性与泛化能力。  相似文献   

14.
刘长红  曾胜  张斌  陈勇 《计算机应用》2022,42(10):3018-3024
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法。首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性。将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析。实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度。  相似文献   

15.
目的 针对花卉图像标注样本缺乏、标注成本高、传统基于深度学习的细粒度图像分类方法无法较好地定位花卉目标区域等问题,提出一种基于选择性深度卷积特征融合的无监督花卉图像分类方法。方法 构建基于选择性深度卷积特征融合的花卉图像分类网络。首先运用保持长宽比的尺寸归一化方法对花卉图像进行预处理,使得图像的尺寸相同,且目标不变形、不丢失图像细节信息;之后运用由ImageNet预训练好的深度卷积神经网络VGG-16模型对预处理的花卉图像进行特征学习,根据特征图的响应值分布选取有效的深度卷积特征,并将多层深度卷积特征进行融合;最后运用softmax分类层进行分类。结果 在Oxford 102 Flowers数据集上做了对比实验,将本文方法与传统的基于深度学习模型的花卉图像分类方法进行对比,本文方法的分类准确率达85.55%,较深度学习模型Xception高27.67%。结论 提出了基于选择性卷积特征融合的花卉图像分类方法,该方法采用无监督的方式定位花卉图像中的显著区域,去除了背景和噪声部分对花卉目标的干扰,提高了花卉图像分类的准确率,适用于处理缺乏带标注的样本时的花卉图像分类问题。  相似文献   

16.
随着信息化技术的不断提升,各类社交平台上带有倾向性的图文数据量快速增长,图文融合的情感分析受到广泛关注,单一的情感分析方法不再能够满足多模态数据的需求.针对图文情感特征提取与融合的技术难题,首先,列举了目前应用较广的图文情感分析数据集,介绍了文本特征和图片特征的提取方式;然后,重点研究了当前图文特征融合方式,简述了在图...  相似文献   

17.
Feature extraction is a fundamental step in the feature matching task. A lot of studies are devoted to feature extraction. Recent researches propose to extract features by pre-trained neural networks, and the output is used for feature matching. However, the quality and the quantity of the features extracted by these methods are difficult to meet the requirements for the practical applications. In this article, we propose a two-stage object-aware-based feature matching method. Specifically, the proposed object-aware block predicts a weighted feature map through a mask predictor and a prefeature extractor, so that the subsequent feature extractor pays more attention to the key regions by using the weighted feature map. In addition, we introduce a state-of-the-art model estimation algorithm to align image pair as the input of the object-aware block. Furthermore, our method also employs an advanced outlier removal algorithm to further improve matching quality. Experimental results show that our object-aware-based feature matching method improves the performance of feature matching compared with several state-of-the-art methods.  相似文献   

18.
大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation, UniVL). UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据. UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号