首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 133 毫秒
1.
传统视觉词典模型没有考虑图像的多尺度和上下文语义共生关系.本文提出一种基于多尺度上下文语义信息的图像场景分类算法.首先,对图像进行多尺度分解,从多个尺度提取不同粒度的视觉信息;其次利用基于密度的自适应选择算法确定最优概率潜在语义分析模型主题数;然后,结合Markov随机场共同挖掘图像块的上下文语义共生信息,得到图像的多尺度直方图表示;最后结合支持向量机实现场景分类.实验结果表明,本文算法能有效利用图像的多尺度和上下文语义信息,提高视觉单词的语义准确性,从而改善场景分类性能.  相似文献   

2.
针对自然场景图像,本文提出一种融合空间上下文的场景语义建模和分类方法.针对场景中的局部语义对象,建立了基于贝叶斯网络的语义上下文模型.通过对已标注训练样本集的学习训练,获得局部语义对象在各类场景下的上下文模型.对于待分类的图像,首先利用支持向量机实现分割区域的分类,根据学习得到的语义上下文模型,提取图像中各语义对象的空间上下文信息,形成图像的语义上下文描述,实现场景分类.针对不同场景下的局部语义对象,利用贝叶斯网络自动学习得到不同的空间关系集合用于上下文信息提取,使得场景描述和分类过程更智能和有效.通过在六类自然场景图像数据集上的实验表明,本文所提算法能够很好的利用上下文信息,并取得满意的分类结果.  相似文献   

3.
赵永威  周苑  李弼程  柯圣财 《电子学报》2016,44(9):2181-2188
传统的视觉词典模型(Bag of Visual Words Model,BoVWM)中广泛存在视觉单词同义性和歧义性问题.且视觉词典中的一些噪声单词-“视觉停用词”,也会降低视觉词典的语义分辨能力.针对这些问题,本文提出了基于近义词自适应软分配和卡方模型的图像目标分类方法.首先,该方法利用概率潜在语义分析模型(Probabilistic Latent Semantic Analysis,PLSA)分析图像中视觉单词的语义共生概率,挖掘图像隐藏的语义主题,进而得到语义主题在某一视觉单词上的概率分布;其次,引入K-L散度度量视觉单词间的语义相关性,获取语义相关的近义词;然后,结合自适应软分配策略实现SIFT特征点与若干语义相关的近义词之间的软映射;最后,利用卡方模型滤除“视觉停用词”,重构视觉词汇分布直方图,并采用SVM分类器完成目标分类.实验结果表明,新方法能够有效克服视觉单词同义性和歧义性问题带来的不利影响,增强视觉词典的语义分辨能力,较好地改善了目标分类性能.  相似文献   

4.
针对场景分类问题中,传统的“词包”模型不包含图像的上下文信息,且没有考虑图像特征间的类别差异问题,本文提出一种多方向上下文特征结合空间金字塔模型的场景分类方法.该方法首先对图像进行均匀网格分块并提取尺度不变(SIFT)特征,对每个局部图像块分别结合其周围三个方向的空间相邻区域,形成三种上下文特征;然后,将每类训练图像的上下文特征分别聚类形成视觉词汇,再将其连接形成最终的视觉词汇表,得到图像的视觉词汇直方图;最后,结合空间金字塔匹配算法形成金字塔直方图,并采用SVM分类器来进行分类.该方法将图像块在特征域的相似性同空间域的上下文关系有机地结合起来并加以类别区分,从而形成了具有更好区分力的视觉词汇表.在通用场景图像库上的实验表明,相比传统方法具有更好的分类性能.  相似文献   

5.
面向自然场景分类的贝叶斯网络局部语义建模方法   总被引:3,自引:0,他引:3  
本文提出了一种基于贝叶斯网络的局部语义建模方法.网络结构涵盖了区域邻域的方向特性和区域语义之间的邻接关系.基于这种局部语义模型,建立了场景图像的语义表述,实现自然场景分类.通过对已标注集的图像样本集的学习训练,获得贝叶斯刚络的参数.对于待分类的图像,利用该模型融合区域的特征及其邻接区域的信息,推理得到区域的语义概率;并通过网络迭代收敛得到整幅图像的区域语义标记和语义概率;最后在此基础上形成图像的全局描述,实现场景分类.该方法利用了场景内部对象之间的上下文关系,弥补了仅利用底层特征进行局部语义建模的不足.通过在六类自然场景图像数据集上的实验表明,本文所提的局部语义建模和图像描述方法是有效的.  相似文献   

6.
吴绿  张馨月  唐茉  王梓  王永安 《电子学报》2021,49(3):596-604
场景图像分割一直是机器视觉学习中较为复杂的重难点问题.本文在机器视觉注意力机制学习方法的基础上,融合人类对事物个体的认知,提出场景对象的Focus+Context语义表征,将对象类别信息带入图像底层特征学习中,运用概率统计理论,在抽象层上建模局部区域对象,再联合上下文语义信息推理全局与局部区域对象之间的关系,以实现类内焦点对象(Focus)突出的场景语义分割.实验验证,基于Focus+Context的语义表征和建模能够增加对象的识别率,尤其是在小样本环境下,所提出的方法能极大地简化场景的理解.  相似文献   

7.
针对遥感图像场景分类的特点,提出了一种基于SURF和PLSA的分类方法。该方法首先采用SURF算法提取图像的局部特征,其次对特征利用K-means聚类生成视觉词汇表,从而得到图像的视觉词袋描述。然后利用概率潜在语义分析(PLSA)从图像中提取潜在语义特征,最后使用支持向量机(SVM)分类器完成图像的场景分类任务。在21类场景图像上的实验结果表明,文中方法可以有效提高遥感图像的场景分类精确度。  相似文献   

8.
杨丹  李博  赵红 《电子与信息学报》2010,32(9):2139-2144
该文提出了一种视觉词汇本的优化构造策略.首先引入条件数定量评估海量低层特征的稳定性,排除病态特征,筛选稳定的鲁棒视觉特征;通过分析聚类和降维的内在联系,构造了具有聚类结构的视觉特征自适应降维算法;进而利用低维聚类结构信息中的邻域支持度,自适应选取最佳的初始视觉词汇,同时选择Sil指标作为目标函数,从而改进流行的LBG词汇本生成算法敏感于初始点的随机选取,并只能得到局部最优等不足.新的视觉词汇本生成算法具有聚类和降维的统一计算功能、良好的鲁棒性和自适应优化等特性.基于概率潜在语义分析技术将该文的视觉词汇本应用于自然场景分类,在13类场景图像库上取得了73.46%的平均分类率.  相似文献   

9.
解决语义鸿沟必须建立图像低层特征到高层语义的映射,针对此问题,本文提出了一种基于词汇树层次语义模型的图像检索方法.首先提取图像包含颜色信息的SIFT特征来构造图像库的特征词汇树,生成描述图像视觉信息的视觉词汇.并在此基础上利用Bayesian决策理论实现视觉词汇到语义主题信息的映射,进而构造了一个层次语义模型,并在此模型基础上完成了基于内容的语义图像检索算法.通过检索过程中用户的相关反馈,不仅可以加入正反馈图像扩展图像查询库,同时能够修正高层语义映射.实验结果表明,基于该模型的图像检索算法性能稳定,并且随着反馈次数的增加,检索效果明显提升.  相似文献   

10.
场景分类是将多幅图像标记为不同语义类别的过程.该文针对现有方法对复杂图像场景分类性能欠佳的不足,提出一种新的基于空间语义对象混合学习的复杂图像场景分类方法.该方法以多尺度分割得到的图像对象而非整幅图像为主体进行产生式语义建模,统计各类有效特征挖掘对象的类别分布信息,并通过空间金字塔匹配,构建包含层次数据和语义信息的中间...  相似文献   

11.
The bag of visual words (BOW) model is an efficient image representation technique for image categorization and annotation tasks. Building good visual vocabularies, from automatically extracted image feature vectors, produces discriminative visual words, which can improve the accuracy of image categorization tasks. Most approaches that use the BOW model in categorizing images ignore useful information that can be obtained from image classes to build visual vocabularies. Moreover, most BOW models use intensity features extracted from local regions and disregard colour information, which is an important characteristic of any natural scene image. In this paper, we show that integrating visual vocabularies generated from each image category improves the BOW image representation and improves accuracy in natural scene image classification. We use a keypoint density-based weighting method to combine the BOW representation with image colour information on a spatial pyramid layout. In addition, we show that visual vocabularies generated from training images of one scene image dataset can plausibly represent another scene image dataset on the same domain. This helps in reducing time and effort needed to build new visual vocabularies. The proposed approach is evaluated over three well-known scene classification datasets with 6, 8 and 15 scene categories, respectively, using 10-fold cross-validation. The experimental results, using support vector machines with histogram intersection kernel, show that the proposed approach outperforms baseline methods such as Gist features, rgbSIFT features and different configurations of the BOW model.  相似文献   

12.
黄鸿  徐科杰  石光耀 《电子学报》2000,48(9):1824-1833
高分辨率遥感图像地物信息丰富,但场景构成复杂,目前基于手工设计的特征提取方法不能满足复杂场景分类的需求,而非监督特征学习方法尽管能够挖掘局部图像块的本征结构,但单一种类及尺度的特征难以有效表达实际应用中复杂遥感场景特性,导致分类性能受限.针对此问题,本文提出了一种基于多尺度多特征的遥感场景分类方法.该算法首先设计了一种改进的谱聚类非监督特征(iUFL-SC)以有效表征图像块的本征结构,然后通过密集采样提取每幅遥感场景的iUFL-SC、LBP、SIFT等三种多尺度局部图像块特征,并通过视觉词袋模型(BoVW)获得场景的中层特征表达,以实现更为准确详实的特征描述,最后基于直方图交叉核的支持向量机(HIKSVM)进行分类.在UC Merced数据集以及WHU-RS19数据集上的实验结果表明本文方法可对遥感场景进行鉴别特征提取,有效提高分类性能.  相似文献   

13.
赵永威  郭志刚  李弼程  高毫林  陈刚 《电子学报》2012,40(12):2472-2480
 传统的视觉词典法(Bag of Visual Words,BoVW)具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题,且当目标区域所包含的信息不能正确或不足以表达用户检索意图时就得不到理想的检索结果.针对这些问题,本文提出了基于随机化视觉词典组和上下文语义信息的目标检索方法.首先,该方法采用精确欧氏位置敏感哈希(Exact Euclidean Locality Sensitive Hashing,E2LSH)对局部特征点进行聚类,生成一组支持动态扩充的随机化视觉词典组;然后,利用查询目标及其周围的视觉单元构造包含上下文语义信息的目标模型;最后,引入K-L散度(Kullback-Leibler divergence)进行相似性度量完成目标检索.实验结果表明,新方法较好地提高了目标对象的可区分性,有效地提高了检索性能.  相似文献   

14.
视觉词袋模型(BoVW)是当前图像分类领域的主流方法,然而,视觉单词同义性和歧义性问题严重制约了该模型的性能,进而降低图像分类准确率。针对该问题,本文提出一种基于自适应软分配的图像分类方法。该方法首先对尺度不变特征变换(SIFT)特征映射到视觉单词的距离进行分析,按一定的规则进行归类,并针对具有不同模糊程度的SIFT特征采用自适应的分配策略;然后,通过卡方模型分析各个视觉单词与图像类别之间的相关性,并依此去除视觉停用词(VSW),重构视觉单词统计直方图;最后,输入到支持向量机(SVM)完成分类。实验结果表明,该优化方法能有效地降低视觉单词同义性和歧义性问题带来的影响,增强视觉单词的区分性,进而提高图像分类准确率。  相似文献   

15.
Robust loop-closure detection is essential for visual SLAM. Traditional methods often focus on the geometric and visual features in most scenes but ignore the semantic information provided by objects. Based on this consideration, we present a strategy that models the visual scene as semantic sub-graph by only preserving the semantic and geometric information from object detection. To align two sub-graphs efficiently, we use a sparse Kuhn–Munkres algorithm to speed up the search for correspondence among nodes. The shape similarity and the Euclidean distance between objects in the 3-D space are leveraged unitedly to measure the image similarity through graph matching. Furthermore, the proposed approach has been analyzed and compared with the state-of-the-art algorithms at several datasets as well as two indoor real scenes, where the results indicate that our semantic graph-based representation without extracting visual features is feasible for loop-closure detection at potential and competitive precision.  相似文献   

16.
方面级情感分析目前主要采用注意力机制与传统神经网络相结合的方法对方面与上下文词进行建模。这类方法忽略了句子中方面与上下文词之间的句法依存信息及位置信息,从而导致注意力权重分配不合理。为此,该文提出一种面向方面级情感分析的交互图注意力网络模型(IGATs)。该模型首先使用双向长短期记忆网络(BiLSTM)学习句子的语义特征表示,并结合位置信息生成新的句子特征表示,然后在新生成的特征表示上构建图注意力网络以捕获句法依存信息,再通过交互注意力机制建模方面与上下文词之间的语义关系,最后利用softmax进行分类输出。在3个公开数据集上的实验结果表明,与其他现有模型相比,IGATs的准确率与宏平均F1值均得到显著提升。  相似文献   

17.
Empowering content based systems to assign image semantics is an interesting concept. This work explores semantically categorized image database and forms a hierarchical visual search space. Overlapping of visual features of images from different categories and subcategories are possible reasons behind inter-semantic and intra-semantic gaps. Usually each category/node in the image database has a single representation, but variability and broadness of semantic limit the usage of such representation. This work explores the application of agglomerative hierarchical clustering to automatically identify groups within a semantic in the visual space. Visual signatures of dominant clusters corresponding to a node represent its semantic. Adaptive selection of branches on this clustered data facilitates efficient semantic assignment to query image in reduced search cost. Based on the concept, content based semantic retrieval system is developed and tested on hierarchical and non-hierarchical databases. Results showcase capability of the proposed system to reduce inter- and intra-semantic gaps.  相似文献   

18.
逆合成孔径雷达(ISAR)成像技术能够对空间目标进行远距离成像,刻画目标的外形、结构和尺寸等信息。ISAR图像语义分割能够获取目标的感兴趣区域,是ISAR图像解译的重要技术支撑,具有非常重要的研究价值。由于ISAR图像表征性较差,图像中散射点的不连续和强散射点存在的旁瓣效应使得人工精准标注十分困难,基于交叉熵损失的传统深度学习语义分割方法在语义标注不精准情况下无法保证分割性能的稳健。针对这一问题,提出了一种基于生成对抗网络(GAN)的ISAR图像语义分割方法,采用对抗学习思想学习ISAR图像分布到其语义分割图像分布的映射关系,同时通过构建分割图像的局部信息和全局信息来保证语义分割的精度。基于仿真卫星目标ISAR图像数据集的实验结果证明,本文方法能够取得较好的语义分割结果,且在语义标注不够精准的情况下模型更稳健。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号