首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 151 毫秒
1.
针对传统"视觉词包(BOW)模型"识别铁路扣件状态时仅利用扣件图像的特征域,忽略其空间域中上下文语义信息的缺点,提出了一种基于上下文语义信息的扣件检测模型.在传统"视觉词包模型"的基础上,引入吉布斯随机场模型对图像中像素的空间相关性进行建模,将图像块在特征域的相似性与空间域的上下文语义约束关系结合,更准确地定义视觉单词;利用潜在狄利克雷分布(LDA)学习扣件图像的主题分布;采用支持向量机(SVM)对扣件进行分类识别.对4类扣件图像的分类实验证明:模型能够有效提高扣件分类精度.  相似文献   

2.
传统基于视觉语言模型( VLM)的图像分类方法在参数估计阶段,通常采用最大似然估计的方式统计视觉单词的分布,忽略了图像背景噪声对该模型参数估计的影响。为此,提出一种新的图像分类方法。利用基于视觉注意的显著性检测算法提取图像中的显著区域和背景区域,构建的图像带有显著图标识的视觉文档,训练视觉单词的显著度权重和条件概率,并使用显著图加权视觉语言模型进行图像分类。实验结果表明,与传统VLM等方法相比,该方法能有效克服图像背景噪声的影响,增强视觉单词的区分性,提高分类准确率。  相似文献   

3.
一种用于图像分类的多视觉短语学习方法   总被引:2,自引:0,他引:2  
针对词袋图像表示模型的语义区分性和描述能力有限的问题,以及由于传统的基于词袋模型的分类方法性能容易受到图像中背景、遮挡等因素影响的问题,本文提出了一种用于图像分类的多视觉短语学习方法.通过构建具有语义区分性和空间相关性的视觉短语取代视觉单词,以改善图像的词袋模型表示的准确性.在此基础上,结合多示例学习思想,提出一种多视觉短语学习方法,使最终的分类模型能反映图像类别的区域特性.在一些标准测试集合如Calrech-101[1]和Scene-15[2]上的实验结果验证了本文所提方法的有效性,分类性能分别相对提高了约9%和7%.  相似文献   

4.
提出了一种Gabor-LBP频域纹理特征与词包模型语义特征相结合的场景图像分类算法.利用Gabor变换得到的频域信息,及对应的LBP特征,与视觉词包模型(BOW)提取的语义特征自适应相融合,实现分类.为了验证本文算法,利用两个标准图像测试库进行比较测试,实验结果表明,本文算法在改善图像纹理表达上具有明显优势,特别是对于图像的光照、旋转、尺度都具有很好的鲁棒性.  相似文献   

5.
三角形约束下的词袋模型图像分类方法   总被引:1,自引:0,他引:1  
汪荣贵  丁凯  杨娟  薛丽霞  张清杨 《软件学报》2017,28(7):1847-1861
视觉词袋模型广泛地应用于图像分类与图像检索等领域.在传统词袋模型中,视觉单词统计方法忽略了视觉词之间的空间信息以及分类对象形状信息,导致图像特征表示区分能力不足.本文提出了一种改进的视觉词袋方法,结合显著区域提取和视觉单词拓扑结构,不仅能够产生更具代表性的视觉单词,而且能够在一定程度上避免复杂背景信息和位置变化带来的干扰.首先,通过对训练图像进行显著区域提取,在得到的显著区域上构建视觉词袋模型.其次,为了更精确的描述图像的特征,抵抗多变的位置和背景信息的影响,该方法采用视觉单词拓扑结构策略和三角剖分方法,融入全局信息和局部信息.通过仿真实验,并与传统的词袋模型及其他模型进行比较,结果表明本文提出的方法获得了更高的分类准确率.  相似文献   

6.
张永  杨浩 《计算机应用》2017,37(8):2244-2247
针对视觉词袋(BOV)模型中过大的视觉词典会导致图像分类时间代价过大的问题,提出一种加权最大相关最小相似(W-MR-MS)视觉词典优化准则。首先,提取图像的尺度不变特征转换(SIFT)特征,并用K-Means算法对特征聚类生成原始视觉词典;然后,分别计算视觉单词与图像类别间的相关性,以及各视觉单词间的语义相似性,引入一个加权系数权衡两者对图像分类的重要程度;最后,基于权衡结果,删除视觉词典中与图像类别相关性弱、与视觉单词间语义相似性大的视觉单词,从而达到优化视觉词典的目的。实验结果表明,在视觉词典规模相同的情况下,所提方法的图像分类精度比传统基于K-Means算法的图像分类精度提高了5.30%;当图像分类精度相同的情况下,所提方法的时间代价比传统K-Means算法下的时间代价降低了32.18%,因此,所提方法具有较高的分类效率,适用于图像分类。  相似文献   

7.
一般细粒度图像分类只关注图像局部视觉信息,但在一些问题中图像局部的文本 信息对图像分类结果有直接帮助,通过提取图像文本语义信息可以进一步提升图像细分类效果。 我们综合考虑了图像视觉信息与图像局部文本信息,提出一个端到端的分类模型来解决细粒度 图像分类问题。一方面使用深度卷积神经网络获取图像视觉特征,另一方面依据提出的端到端 文本识别网络,提取图像的文本信息,再通过相关性计算模块合并视觉特征与文本特征,送入 分类网络。最终在公共数据集 Con-Text 上测试该方法在图像细分类中的结果,同时也在 SVT 数据集上验证端到端文本识别网络的能力,均较之前方法获得更好的效果。  相似文献   

8.
针对目前单纯依赖于分析图像内容或文本关键词的成人图像判定算法的不足,提出一种融合网络图像的相关文本特征与图像内容语义特征的成人图像判定算法。成人图像的特征信息可能存在于其图像内容及其相关文本如图像文件名、所在网页中。在视觉词袋模型的基础上,将文本分析得到的相关文本特征与图像视觉元素特征如纹理、局部形态等进行底层特征融合,并采用支持向量机分类器实现图像分类。实验结果表明,该算法具有较好的分类效果。  相似文献   

9.
一种基于视觉单词的图像检索方法   总被引:1,自引:0,他引:1  
刁蒙蒙  张菁  卓力  隋磊 《测控技术》2012,31(5):17-20
基于内容的图像检索技术最主要的问题是图像的低层特征和高层语义之间存在着"语义鸿沟"。受文本内容分析的启发,有研究学者借鉴传统词典中用文本单词组合解释术语的思路,将图像视为视觉单词的组合,利用一系列视觉单词的组合来描述图像的语义内容。为此,利用SIFT进行图像的视觉单词特征提取,然后构建视觉单词库,最后实现了一个基于视觉单词的图像检索系统。实验结果表明,该方法在一定程度上提高了图像检索的查准率。  相似文献   

10.
已有工作表明,融入图像视觉语义信息可以提升文本机器翻译模型的效果。已有的工作多数将图片的整体视觉语义信息融入到翻译模型,而图片中可能包含不同的语义对象,并且这些不同的局部语义对象对解码端单词的预测具有不同程度的影响和作用。基于此,该文提出一种融合图像注意力的多模态机器翻译模型,将图片中的全局语义和不同部分的局部语义信息与源语言文本的交互信息作为图像注意力融合到文本注意力权重中,从而进一步增强解码端隐含状态与源语言文本的对齐信息。在多模态机器翻译数据集Multi30k上英语—德语翻译对以及人工标注的印尼语—汉语翻译对上的实验结果表明,该文提出的模型相比已有的基于循环神经网络的多模态机器翻译模型效果具有较好的提升,证明了该模型的有效性。  相似文献   

11.
Text representation is a necessary procedure for text categorization tasks. Currently, bag of words (BOW) is the most widely used text representation method but it suffers from two drawbacks. First, the quantity of words is huge; second, it is not feasible to calculate the relationship between words. Semantic analysis (SA) techniques help BOW overcome these two drawbacks by interpreting words and documents in a space of concepts. However, existing SA techniques are not designed for text categorization and often incur huge computing cost. This paper proposes a concise semantic analysis (CSA) technique for text categorization tasks. CSA extracts a few concepts from category labels and then implements concise interpretation on words and documents. These concepts are small in quantity and great in generality and tightly related to the category labels. Therefore, CSA preserves necessary information for classifiers with very low computing cost. To evaluate CSA, experiments on three data sets (Reuters-21578, 20-NewsGroup and Tancorp) were conducted and the results show that CSA reaches a comparable micro- and macro-F1 performance with BOW, if not better one. Experiments also show that CSA helps dimension sensitive learning algorithms such as k-nearest neighbor (kNN) to eliminate the “Curse of Dimensionality” and as a result reaches a comparable performance with support vector machine (SVM) in text categorization applications. In addition, CSA is language independent and performs equally well both in Chinese and English.  相似文献   

12.
针对传统“视觉词包模型”在进行铁路扣件检测时忽略图像结构而导致的区分能力不强的问题,提出一种基于信息熵加权词包模型的扣件检测模型EW_BOW。在传统“视觉词包模型”的基础上,引入信息熵对扣件图像局部区域的词包模型的词频进行加权处理,加强词包模型对不同类别扣件的区分性,并利用潜在狄利克雷分布学习扣件图像的主题分布。最后,采用支持向量机对扣件进行分类识别。对四类扣件图像的分类实验证明该模型能够有效提高扣件分类精确度。  相似文献   

13.
《Pattern recognition》2014,47(2):705-720
We present word spatial arrangement (WSA), an approach to represent the spatial arrangement of visual words under the bag-of-visual-words model. It lies in a simple idea which encodes the relative position of visual words by splitting the image space into quadrants using each detected point as origin. WSA generates compact feature vectors and is flexible for being used for image retrieval and classification, for working with hard or soft assignment, requiring no pre/post processing for spatial verification. Experiments in the retrieval scenario show the superiority of WSA in relation to Spatial Pyramids. Experiments in the classification scenario show a reasonable compromise between those methods, with Spatial Pyramids generating larger feature vectors, while WSA provides adequate performance with much more compact features. As WSA encodes only the spatial information of visual words and not their frequency of occurrence, the results indicate the importance of such information for visual categorization.  相似文献   

14.
15.
This paper proposes a method for scene categorization by integrating region contextual information into the popular Bag-of-Visual-Words approach. The Bag-of-Visual-Words approach describes an image as a bag of discrete visual words, where the frequency distributions of these words are used for image categorization. However, the traditional visual words suffer from the problem when faced these patches with similar appearances but distinct semantic concepts. The drawback stems from the independently construction each visual word. This paper introduces Region-Conditional Random Fields model to learn each visual word depending on the rest of the visual words in the same region. Comparison with the traditional Conditional Random Fields model, there are two areas of novelty. First, the initial label of each patch is automatically defined based on its visual feature rather than manually labeling with semantic labels. Furthermore, the novel potential function is built under the region contextual constraint. The experimental results on the three well-known datasets show that Region Contextual Visual Words indeed improves categorization performance compared to traditional visual words.  相似文献   

16.
词袋模型是图像检索中的一种关键技术。词袋模型中每张图像表示为视觉词在码本中的频率直方图。这样的检索方式忽视了视觉词间对于图像表示很重要的空间信息。提出一种全新的基于最长公共视觉词串的图像检索方法。词串的提取基于视觉词间的拓扑关系,包含很多图像的空间信息。在Holiday数据集上的实验结果表明提出的方法提升了词袋模型的检索效果。  相似文献   

17.
局部Gist特征匹配核的场景分类   总被引:5,自引:1,他引:4       下载免费PDF全文
针对场景分类任务中全局Gist特征粒度较为粗糙的问题,提出一种基于稠密网格的局部Gist特征描述,利用空间金字塔结构加入空间信息,通过引入RGB颜色空间加入颜色信息,并基于词汇包(BOW)模型设计一种高效匹配核来度量局部特征间的相似性,核化特征匹配过程,使用线性SVM完成场景分类.实验考察了不同尺度、方向、粒度和不同匹配核的局部Gist特征以及训练样本集的大小对分类结果的影响,并通过在OT场景图像集上与全局Gist特征和稠密SIFT特征的场景分类结果进行比较,充分说明了本文特征构造方法和分类模型的有效性.  相似文献   

18.
海关商品申报场景下,需采用分类模型将商品归类为统一的海关(HS)编码.然而现有海关商品分类模型忽略了待分类文本中词语的位置信息,同时HS编码数以万计,会导致类别向量稀疏、模型收敛速度慢等问题.针对上述问题,结合真实业务场景下人工逐层归类策略,充分利用HS编码的层次结构特点,提出了一种基于层级多任务BERT(HM-BER...  相似文献   

19.
In this paper, we propose a novel scene categorization method based on contextual visual words. In the proposed method, we extend the traditional ‘bags of visual words’ model by introducing contextual information from the coarser scale and neighborhood regions to the local region of interest based on unsupervised learning. The introduced contextual information provides useful information or cue about the region of interest, which can reduce the ambiguity when employing visual words to represent the local regions. The improved visual words representation of the scene image is capable of enhancing the categorization performance. The proposed method is evaluated over three scene classification datasets, with 8, 13 and 15 scene categories, respectively, using 10-fold cross-validation. The experimental results show that the proposed method achieves 90.30%, 87.63% and 85.16% recognition success for Dataset 1, 2 and 3, respectively, which significantly outperforms the methods based on the visual words that only represent the local information in the statistical manner. We also compared the proposed method with three representative scene categorization methods. The result confirms the superiority of the proposed method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号