首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
三角形约束下的词袋模型图像分类方法   总被引:1,自引:0,他引:1  
汪荣贵  丁凯  杨娟  薛丽霞  张清杨 《软件学报》2017,28(7):1847-1861
视觉词袋模型广泛地应用于图像分类与图像检索等领域.在传统词袋模型中,视觉单词统计方法忽略了视觉词之间的空间信息以及分类对象形状信息,导致图像特征表示区分能力不足.本文提出了一种改进的视觉词袋方法,结合显著区域提取和视觉单词拓扑结构,不仅能够产生更具代表性的视觉单词,而且能够在一定程度上避免复杂背景信息和位置变化带来的干扰.首先,通过对训练图像进行显著区域提取,在得到的显著区域上构建视觉词袋模型.其次,为了更精确的描述图像的特征,抵抗多变的位置和背景信息的影响,该方法采用视觉单词拓扑结构策略和三角剖分方法,融入全局信息和局部信息.通过仿真实验,并与传统的词袋模型及其他模型进行比较,结果表明本文提出的方法获得了更高的分类准确率.  相似文献   

2.
传统词袋模型仅仅是将图像表示成视觉单词的直方图,并没有考虑到物体的形状信息,也没有考虑到视觉特征的空间信息.因此将金字塔模型引入到词袋模型中,建立金字塔词袋模型,将金字塔词袋模型与金字塔直方图模型相结合,两种信息相互补充,共同来表征图像;在分类器设计方面采用SVM进行分类.通过在Caltech 101数据库进行实验,验证了论文方法的有效性,实验结果表明,该方法能够大幅度提高图像分类的性能.  相似文献   

3.
吴丽娜  黄雅平  郑翔 《计算机科学》2014,41(12):260-263,274
在分类新类别图像时,词袋模型总需要重新学习视觉词典及分类器,而不能充分利用已经学习好的视觉词典。运用迁移学习的思想,提出一种视觉短语的迁移学习算法。这种视觉短语不仅包含图像的局部不变特征,而且包含特征间的空间结构信息,能更有效地描述不同类别图像之间的共同特征。在分类新类别图像时,算法通过迁移视觉短语而不是重新学习视觉词典,来完成图像分类任务。实验结果证明这种迁移算法能有效地利用已有知识,在分类新类别图像时取得很好的效果,而且还能适用于仅有少量训练样本的图像分类任务。  相似文献   

4.
近年来,基于bag-of-words模型的图像表示方法由于丢弃了视觉词汇之间的空间位置关系,且存在冗余信息,从而不能有效地表示该类图像。针对传统词袋模型视觉词汇之间相对位置关系利用不足,以及语义信息不明确的问题,提出采用基于支持区域的视觉短语来表示图像。通过支持区域探测得到图像中对分类起重要作用的支持区域,然后对支持区域上的视觉词进行空间建模得到视觉短语用于分类。最后在标准数据集UIUC-Sports8图像库和Scene-15图像库上进行对比实验,实验结果表明该算法具有良好的图像分类性能。  相似文献   

5.
随着现代医学成像技术的快速发展,医学影像分类已经成为重要的辅助诊疗需求。将文本领域中的词袋模型引入到图像领域,构建视觉词袋模型。为解决多义词和同义词问题,通过把词袋模型与PLSA主题模型结合,提出PLSA-BOA模型来解决传统词袋模型中的语义问题,这使得基于词袋模型的分类方法在精度上得到了进一步提高。实验结果表明,PLSA-BOW模型用于医学影像分类,具有较高的分类精度。  相似文献   

6.
霍华  赵刚 《计算机工程》2012,38(22):276-278
针对传统视觉词袋模型对图像尺度变化较为敏感的缺点,提出一种基于改进视觉词袋模型的图像标注方法。该方法引入图像的多尺度空间信息,对图像进行多尺度变换并构建多尺度视觉词汇表,将图像表示为不同尺度特征,结合多核学习的方法优化各尺度特征的相应权重,获取特征表示。实验结果验证了该方法的有效性,其标注准确率比传统BoVW模型提高17.8%~25.7%。  相似文献   

7.
针对基于SIFT特征描述的图像分类方法需构造多尺度极值空间,运算耗时且部分极值点无直观视觉意义,提出一种新型的图像分类方法。该方法通过网格直接提取单尺度SIFT特征,并对局部特征进行单尺度词袋模型描述。由于单尺度SIFT无须构造多尺度空间且保留了更多的全局信息,从而极大地降低了计算复杂度且使分类正确率得到显著提升。实验结果表明,提出的单尺度SIFT比常规SIFT所形成的词袋模型在分类正确率上有明显提高。  相似文献   

8.
针对移动增强现实中图像检索技术耗时长导致的实时性不高的问题,提出了一种 基于感知哈希和视觉词袋模型结合的图像检索方法。图像检索过程中,在保证一定正确率的基 础上加快了检索速度。首先,对数据集图像使用改进的感知哈希技术处理,选取与查询相似的 图像集合,达到筛选图像数据集的作用;然后,对相似图像集使用视觉词袋模型进行图像检索, 选取和查询图像中目标一致的目标图像。实验结果表明,该方法相比较视觉词袋模型算法检索 的平均正确率提高了 3.2%,检索时间缩短了 102.9 ms,能够满足移动增强现实中图像检索的实 时性要求,为移动增强现实系统提供了有利的条件。  相似文献   

9.
为了解决大规模数据集下传统视觉词袋模型生成时间长、内存消耗大且分类精度低等问题,提出了基于监督核哈希(Supervised Hashing with Kernels,KSH)的视觉词袋模型.首先,提取图像的SIFT特征点,构造特征点样本集.然后,学习KSH函数,将距离相近的特征点映射成相同的哈希码,每一个哈希码代表聚类中心,构成视觉词典.最后,利用生成的视觉词典,将图像表示为直方图向量,并应用于图像分类.在标准数据集上的实验结果表明,该模型生成的视觉词典具有较好的区分度,有效地提高了图像分类的精度和效率.  相似文献   

10.
规则网格是视觉词袋模型中常用的图像检测方法,该方法抽取图像所有区块,获得背景区块和目标区块完整的图像信息。事实上,抽取的背景区块信息对类别的判定往往会有一定的混淆作用。以“摩托车”类和“小汽车”类的图像为例,这两类图像背景特征相似,大多都是道路,一般的分类方法很可能将它们分为相同类别。可见,背景信息会干扰图像分类结果。因此,提出一种提取目标区域词袋特征的图像分类方法。利用图像分割去除背景信息提取目标区域;对目标区域构建视觉词袋模型;使用SVM分类器对图像进行分类。PASCAL VOC2006及PASCAL VOC2010数据集上的实验结果表明,提取目标区域词袋特征的图像分类方法具有较好的分类性能。  相似文献   

11.
Along with the rapid development of mobile terminal devices, landmark recognition applications based on mobile devices have been widely researched in recent years. Due to the fast response time requirement of mobile users, an accurate and efficient landmark recognition system is thus urgent for mobile applications. In this paper, we propose a landmark recognition framework by employing a novel discriminative feature selection method and the improved extreme learning machine (ELM) algorithm. The scalable vocabulary tree (SVT) is first used to generate a set of preliminary codewords for landmark images. An efficient codebook learning algorithm derived from the word mutual information and Visual Rank technique is proposed to filter out those unimportant codewords. Then, the selected visual words, as the codebook for image encoding, are used to produce a compact Bag-of-Words (BoW) histogram. The fast ELM algorithm and the ensemble approach using the ELM classifier are utilized for landmark recognition. Experiments on the Nanyang Technological University campus’s landmark database and the Fifteen Scene database are conducted to illustrate the advantages of the proposed framework.  相似文献   

12.
文本的表示与文本的特征提取是文本分类需要解决的核心问题,基于此,提出了基于改进的连续词袋模型(CBOW)与ABiGRU的文本分类模型。该分类模型把改进的CBOW模型所训练的词向量作为词嵌入层,然后经过卷积神经网络的卷积层和池化层,以及结合了注意力(Attention)机制的双向门限循环单元(BiGRU)神经网络充分提取了文本的特征。将文本特征向量输入到softmax分类器进行分类。在三个语料集中进行的文本分类实验结果表明,相较于其他文本分类算法,提出的方法有更优越的性能。  相似文献   

13.
构建了一种新的基于动态贝叶斯网络(Dynamic Bayesian Network,DBN)的异步整词-发音特征语音识别模型AWA-DBN(每个词由其发音特征的运动来描述),定义了各发音特征节点及异步检查节点的条件概率分布。在标准数字语音库Aurora5.0上的语音识别实验表明,与整词-状态DBN(WS-DBN,每个词由固定个数的整词状态构成)和整词-音素DBN(WP-DBN,每个词由其对应的音素序列构成)模型相比,WS-DBN模型虽然具有最高的识别率,但其只适用于小词汇量孤立词语音识别,AWA-DBN和WP-DBN可以为大词汇量连续语音建模,而AWA-DBN模型比WP-DBN模型具有更高的语音识别率和系统鲁棒性。  相似文献   

14.
霍华  赵刚 《计算机工程》2012,38(13):131-133
针对视觉词袋模型的量化误差与视觉词含糊性,提出一种基于视觉词模糊权重的视频语义标注方案。该方案在训练样本集的预聚类基础上,逐个聚类训练单类支持向量机OC-SVM。根据样本特征与聚类超球球心的距离函数及聚类超球的空间分布确定视觉词映射及权重,以提高视觉词的表达力、区别力。实验结果表明,基于该方案的视频语义标注精度分别比TF方案和VWA方案提高34%和16%。  相似文献   

15.
针对Word2Vec、GloVe等词嵌入技术对多义词只能产生单一语义向量的问题,提出一种融合基于语言模型的词嵌入(ELMo)和多尺度卷积神经网络(MSCNN)的情感分析模型。首先,该模型利用ELMo学习预训练语料,生成上下文相关的词向量;相较于传统词嵌入技术,ELMo利用双向长短程记忆(LSTM)网络融合词语本身特征和词语上下文特征,能够精确表示多义词的多个不同语义;此外,该模型使用预训练的中文字符向量初始化ELMo的嵌入层,相对于随机初始化,该方法可加快模型的训练速度,提高训练精度;然后,该模型利用多尺度卷积神经网络,对词向量的特征进行二次抽取,并进行特征融合,生成句子的整体语义表示;最后,经过softmax激励函数实现文本情感倾向的分类。实验在公开的酒店评论和NLPCC2014 task2两个数据集上进行,实验结果表明,在酒店评论数据集上与基于注意力的双向LSTM模型相比,该模型正确率提升了1.08个百分点,在NLPCC2014 task2数据集上与LSTM和卷积神经网络(CNN)的混合模型相比,该模型正确率提升了2.16个百分点,证明了所提方法的有效性。  相似文献   

16.
针对Word2Vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与Word2Vec模型相结合,提出Word2Vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical Softmax的Word2Vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(Global ACV)和局部平均上下文词向量(Local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵。将Word2Vec-ACV模型和Word2Vec模型分别进行类比任务实验和命名实体识别任务实验,实验结果表明,Word2Vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。  相似文献   

17.
基于多种技术的格式化信息管理方法   总被引:2,自引:0,他引:2  
分析了管理格式化信息的3种方法特点,Word文档元素和Visual Basic对象;提出了用数据库、文档模板、OLE2和VBA相结合的格式化信息管理技术,并用教学教务管理系统中格式化信息管理实例说明了这种方法的实现过程和信息流程关系;最后,总结了这种基于软件构件思想的格式化信息管理方法的特点和应用前景。  相似文献   

18.
The use of a statistical language model to improve the performance of an algorithm for recognizing digital images of handwritten or machine-printed text is discussed. A word recognition algorithm first determines a set of words (called a neighborhood) from a lexicon that are visually similar to each input word image. Syntactic classifications for the words and the transition probabilities between those classifications are input to the Viterbi algorithm. The Viterbi algorithm determines the sequence of syntactic classes (the states of an underlying Markov process) for each sentence that have the maximum a posteriori probability, given the observed neighborhoods. The performance of the word recognition algorithm is improved by removing words from neighborhoods with classes that are not included on the estimated state sequence. An experimental application is demonstrated with a neighborhood generation algorithm that produces a number of guesses about the identity of each word in a running text. The use of zero, first and second order transition probabilities and different levels of noise in estimating the neighborhood are explored  相似文献   

19.
A new dual categorical-associative model for the representation of word meaning is proposed. In it, concepts are described by the values they have on a set of given variables (categories). A statistical relatedness measure (concomitant variation) is computed for these values on the basis of the specified word universe. An association measure between the word is defined, and the generalization of word clusters is introduced. A comparison with associative and categorical models is made and the application of the dual model to verbal analogy problems is described. Possible applications in Artificial Intelligence and Natural Language Processing are descussed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号