首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
邵健  赵师聪 《软件学报》2010,21(Z1):205-213
从图像伴随文本中选择合适动词去描述图像中人物动作对于理解图像语义具有重要意义.现有方法通常学习得到表示图像人物和运动与其标注名词-动词之间概率的生成模型,然后使用这一得到的生成模型对训练集以外图像中人物运动进行识别.但是,这一方法忽略了图像中高维异构特征之间固有存在的组效应.实际上,不同类型异构特征在图像语义理解过程中具有不同区别性,例如手臂特征对人挥手这一动作最具有区别性.为了识别图像中人物运动进而对其进行标注,提出了通过Group LASSO 从高维异构姿势特征中选择最具区别性特征,最终学习得到生成模型的方法.实验结果表明,该方法对姿态变化较大动作进行识别时取得了更好结果.  相似文献   

2.
针对图像自动标注中底层视觉特征与高层语义之间的语义鸿沟问题,在传统字典学习的基础上,提出一种基于多标签判别字典学习的图像自动标注方法。首先,为每幅图像提取多种类型特征,将多种特征组合作为字典学习输入特征空间的输入信息;然后,设计一个标签一致性正则化项,将原始样本的标签信息融入到初始的输入特征数据中,结合标签一致性判别字典和标签一致性正则化项进行字典学习;最后,通过得到的字典和稀疏编码矩阵求解标签稀疏编向量,实现未知图像的语义标注。在Corel 5K数据集上测试其标注性能,所提标注方法平均查准率和平均查全率分别可达到35%和48%;与传统的稀疏编码方法(MSC)相比,分别提高了10个百分点和16个百分点;与距离约束稀疏/组稀疏编码方法(DCSC/DCGSC)相比,分别提高了3个百分点和14个百分点。实验结果表明,所提方法能够较好地预测未知图像的语义信息,与当前几种流行的图像标注方法进行比较,所提方法具有较好的标注性能。  相似文献   

3.
针对当前稀疏数据推荐准确率低的问题,提出一种基于多核学习卷积神经网络的稀疏数据推荐算法.将项目的辅助信息送入卷积神经网络学习特征,将向量在可再生核希尔伯特空间组合,利用多核学习技术增强卷积神经网络的特征学习能力;基于学习的卷积特征集初始化非负矩阵模型,通过非负矩阵模型实现对缺失评分的预测.实验结果表明,该算法有效提高了稀疏数据集的推荐性能,验证了多核学习卷积神经网络的有效性.  相似文献   

4.
基于增强稀疏性特征选择的网络图像标注   总被引:1,自引:0,他引:1  
史彩娟  阮秋琦 《软件学报》2015,26(7):1800-1811
面对网络图像的爆炸性增长,网络图像标注成为近年来一个热点研究内容,稀疏特征选择在提升网络图像标注效率和性能方面发挥着重要的作用.提出了一种增强稀疏性特征选择算法,即,基于l2,1/2矩阵范数和共享子空间的半监督稀疏特征选择算法(semi-supervised sparse feature selection based on l2,1/2-matix norm with shared subspace learning,简称SFSLS)进行网络图像标注.在SFSLS算法中,应用l2,1/2矩阵范数来选取最稀疏和最具判别性的特征,通过共享子空间学习,考虑不同特征之间的关联信息.另外,基于图拉普拉斯的半监督学习,使SFSLS算法同时利用了有标签数据和无标签数据.设计了一种有效的迭代算法来最优化目标函数.SFSLS算法与其他稀疏特征选择算法在两个大规模网络图像数据库上进行了比较,结果表明,SFSLS算法更适合于大规模网络图像的标注.  相似文献   

5.
自动图像标注是一项具有挑战性的工作,它对于图像分析理解和图像检索都有着重要的意义.在自动图像标注领域,通过对已标注图像集的学习,建立语义概念空间与视觉特征空间之间的关系模型,并用这个模型对未标注的图像集进行标注.由于低高级语义之间错综复杂的对应关系,使目前自动图像标注的精度仍然较低.而在场景约束条件下可以简化标注与视觉特征之间的映射关系,提高自动标注的可靠性.因此提出一种基于场景语义树的图像标注方法.首先对用于学习的标注图像进行自动的语义场景聚类,对每个场景语义类别生成视觉场景空间,然后对每个场景空间建立相应的语义树.对待标注图像,确定其语义类别后,通过相应的场景语义树,获得图像的最终标注.在Corel5K图像集上,获得了优于TM(translation model)、CMRM(cross media relevance model)、CRM(continous-space relevance model)、PLSA-GMM(概率潜在语义分析-高期混合模型)等模型的标注结果.  相似文献   

6.
模式识别的技术核心就是特征提取,而特征融合则是对特征提取方法的强力补充,对于提高特征的识别效率具有重要作用。本文基于稀疏表示方法,将稀疏表示方法用到高维度空间,并利用核方法在高维度空间进行稀疏表示,用其计算核稀疏表示系数,同时研究了核稀疏保持投影算法(Kernel sparsity preserve projection,KSPP)。将KSPP引入到典型相关分析算法(Canonical correlation analysis,CCA),研究了基于核稀疏保持投影的典 型相关分析算法(Kernel sparsity preserve canonical correlation analysis,K-SPCCA)。在多特征手写体数据库和人脸图像数据库上分别证实了本文提出方法的可靠性和有效性 。  相似文献   

7.
基于稀疏编码多尺度空间潜在语义分析的图像分类   总被引:1,自引:0,他引:1  
传统潜在语义分析方法无法利用图像中区域语义构成的上下文信息来获得图像目标空间分布信息,因此它丢掉了局部特征之间的空间关系信息.而基于最近邻矢量量化来构造共生矩阵具有较大的量化误差,使得特征描述缺乏鲁棒性,影响后续潜在语义分析获得特征的精确性.为了弥补这些不足,文中提出了一种基于稀疏编码的多尺度空间潜在语义分析的图像分类方法.首先通过空间金字塔方法对图像进行空间多尺度划分,然后利用稀疏编码对每个局部块特征进行软量化以形成共生矩阵,之后结合概率潜在语义分析(PLSA)获得每个局部块的潜在语义信息,再利用权值串接每个特定局部块中的语义信息得到图像多尺度空间潜在语义信息,最后用支持向量机(SVM)分类器完成图像的场景分类.在常见图像库上的实验表明,本文提出的基于稀疏编码的多尺度空间潜在语义分析方法平均分类精度比现有诸多方法均有明显提高,验证了其有效性和鲁棒性.实验还表明,空间金字塔匹配、稀疏编码共生矩阵以及PLSA降维这3个模块在该文方法中缺一不可,共同提升图像表征和分类性能.  相似文献   

8.
自动图像标注技术研究进展   总被引:1,自引:0,他引:1  
近年来,自动图像标注(Automatic Image Annotation,AIA)技术已经成为图像语义理解研究领域的热点。其基本思想是利用已标注图像集或其他可获得的信息自动学习语义概念空间与视觉特征空间的潜在关联或者映射关系,来预测未知图像的标注。随着机器学习理论的不断发展,包括相关模型、分类器模型等不同的学习模型已经被广泛地应用于自动图像标注研究领域。现有的自动图像标注算法可以大致分为基于分类的标注算法、基于概率关联模型的标注算法以及基于图学习的标注算法等三大类。首先根据自动图像标注算法的特征提取及表示机制不同,将现有算法划分为基于全局特征和基于区域划分的自动图像标注方法。其次,在基于区域划分的自动图像标注算法中,按照学习算法的不同,将其划分为基于分类的标注方法、基于概率关联模型的标注方法以及基于图学习的标注方法,并分别介绍各类别中具有代表性的标注算法及其优缺点。然后给出了自动图像标注最新的研究进展,最后探讨自动图像标注的进一步研究方向。  相似文献   

9.
为了缩减不同模态数据间的语义鸿沟,提出一种结合深度卷积神经网络和集成分类器链的多标记图像语义标注方法.该方法主要由生成式特征学习和判别式语义学习2个阶段构成.首先利用深度卷积神经网络学习图像的高层视觉特征;然后基于获取的视觉特征与图像的语义标记集训练集成分类器链,并学习视觉特征包含的语义信息;最后利用训练得到的模型对未知图像进行自动语义标注.在Corel5K和PASCAL VOC 2012图像数据集上的实验结果表明,与一些当前国际先进水平的方法相比,文中方法的鲁棒性更强,标注结果更精确.  相似文献   

10.
为了避免图像分割,并提高图像标注精度,提出一种基于典型相关分析(CCA)和高斯混合模型(GMM)的自动图像标注方法.利用CCA对图像的全局颜色特征与全局局部二值模式(LBP)纹理特征进行特征融合.使用融合后的语义特征,对每一个关键词建立GMM模型来估计单词类密度,从而在特征子空间中得到每个单词的概率分布.采用贝叶斯分类器确定每个标注词和测试图像的联合概率,运用词间语义关系优化标注结果.实验结果表明,使用该方法后的图像标注性能有了较大程度的改善.  相似文献   

11.
Confronted with the explosive growth of web images, the web image annotation has become a critical research issue for image search and index. Sparse feature selection plays an important role in improving the efficiency and performance of web image annotation. Meanwhile, it is beneficial to developing an effective mechanism to leverage the unlabeled training data for large-scale web image annotation. In this paper we propose a novel sparse feature selection framework for web image annotation, namely sparse Feature Selection based on Graph Laplacian (FSLG)2. FSLG applies the l2,1/2-matrix norm into the sparse feature selection algorithm to select the most sparse and discriminative features. Additional, graph Laplacian based semi-supervised learning is used to exploit both labeled and unlabeled data for enhancing the annotation performance. An efficient iterative algorithm is designed to optimize the objective function. Extensive experiments on two web image datasets are performed and the results illustrate that our method is promising for large-scale web image annotation.  相似文献   

12.
霍华  赵刚 《计算机工程》2012,38(22):276-278
针对传统视觉词袋模型对图像尺度变化较为敏感的缺点,提出一种基于改进视觉词袋模型的图像标注方法。该方法引入图像的多尺度空间信息,对图像进行多尺度变换并构建多尺度视觉词汇表,将图像表示为不同尺度特征,结合多核学习的方法优化各尺度特征的相应权重,获取特征表示。实验结果验证了该方法的有效性,其标注准确率比传统BoVW模型提高17.8%~25.7%。  相似文献   

13.
14.
基于黎曼流形稀疏编码的图像检索算法   总被引:1,自引:0,他引:1  
针对视觉词袋(Bag-of-visual-words,BOVW)模型直方图量化误差大的缺点,提出基于稀疏编码的图像检索算法.由于大多数图像特征属于非线性流形结构,传统稀疏编码使用向量空间对其度量必然导致不准确的稀疏表示.考虑到图像特征空间的流形结构,选择对称正定矩阵作为特征描述子,构建黎曼流形空间.利用核技术将黎曼流形结构映射到再生核希尔伯特空间,非线性流形转换为线性稀疏编码,获得图像更准确的稀疏表示.实验在Corel1000和Caltech101两个数据集上进行,与已有的图像检索算法对比,提出的图像检索算法不仅提高了检索准确率,而且获得了更好的检索性能.  相似文献   

15.
16.
Image classification is to assign a category of an image and image annotation is to describe individual components of an image by using some annotation terms. These two learning tasks are strongly related. The main contribution of this paper is to propose a new discriminative and sparse topic model (DSTM) for image classification and annotation by combining visual, annotation and label information from a set of training images. The essential features of DSTM different from existing approaches are that (i) the label information is enforced in the generation of both visual words and annotation terms such that each generative latent topic corresponds to a category; (ii) the zero-mean Laplace distribution is employed to give a sparse representation of images in visual words and annotation terms such that relevant words and terms are associated with latent topics. Experimental results demonstrate that the proposed method provides the discrimination ability in classification and annotation, and its performance is better than the other testing methods (sLDA-ann, abc-corr-LDA, SupDocNADE, SAGE and MedSTC) for LabelMe, UIUC, NUS-WIDE and PascalVOC07 images.  相似文献   

17.
周宁  薛向阳 《计算机工程》2010,36(6):198-200
提出一种基于概率模型的图像自动语义标注方法,将图片自动标注看作一个多类分类问题,通过无参数的核密度估计,实现用含有共同标注词的图片组估计视觉特征和相应标注词之间关系的机制。选取表达能力较好的基于CPAM的视觉特征,无须对图像进行语义分割处理,有效提高核密度估计的效率。在基准数据集上进行实验,结果表明,该模型能够获得比当前其他相关方法更好的标注性能。  相似文献   

18.
In pattern classification, it is needed to efficiently treat not only feature vectors but also feature matrices defined as two-way data, while preserving the two-way structure such as spatio-temporal relationships. The classifier for the feature matrix is generally formulated in a bilinear form composed of row and column weights which jointly result in a matrix weight. The rank of the matrix should be low from the viewpoint of generalization performance and computational cost. For that purpose, we propose a low-rank bilinear classifier based on the efficient convex optimization. In the proposed method, the classifier is optimized by minimizing the trace norm of the classifier (matrix) to reduce the rank without any hard constraint on it. We formulate the optimization problem in a tractable convex form and provide the procedure to solve it efficiently with the global optimum. In addition, we propose two novel extensions of the bilinear classifier in terms of multiple kernel learning and cross-modal learning. Through kernelizing the bilinear method, we naturally induce a novel multiple kernel learning. The method integrates both the inter kernels between heterogeneous reproducing kernel Hilbert spaces (RKHSs) and the ordinary kernels within respective RKHSs into a new discriminative kernel in a unified manner using the bilinear model. Besides, for cross-modal learning, we consider to map into the common space the multi-modal features which are subsequently classified in that space. We show that the projection and the classification are jointly represented by the bilinear model, and then propose the method to optimize both of them simultaneously in the bilinear framework. In the experiments on various visual classification tasks, the proposed methods exhibit favorable performances compared to the other methods.  相似文献   

19.
为了更好地将区分式分类方法应用于说话者确认系统中,构建序列核支持向量机已成为说话人识别领域的研究热点与趋势.本文在研究可再生希尔伯特空间框架的基础之上构建出一个新的序列核来对语音序列间的相似性进行度量,并结合近年来提出针对支持向量机(SVM)跨信道子空间特征差异(ISV)所提出的归整技术(LFA,NAP,CSP),进一步优化序列核系统.在美国国家标准与技术研究所(NIST)2004年评测数据集的实验中,新序列核系统的识别率高于传统高斯混合模型(GMM)和基于广义线性区分性核(GLDS)的支持向量机.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号