首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 201 毫秒
1.
用于图像场景分类的空间视觉词袋模型   总被引:1,自引:2,他引:1  
以传统的词袋模型为基础,根据同类场景图像具有空间相似性的特点,提出了一种用于图像场景分类的空间视觉词袋模型.首先将图像进行不同等级的空间划分,针对对应空问子区域进行特征提取和k均值聚类,形成该区域的视觉关键词,进而构建整个训练图像集的空间视觉词典.进行场景识别时,将所有空间子区域的视觉关键词连接成一个全局特征向量进行相...  相似文献   

2.
场景理解是智能自主机器人领域的一个重要研究方向,而图像分割是场景理解的基础.但是,不完备的训练数据集,以及真实环境中的罕见情形,会导致在图像分割时存在先验知识不完备的情况,进而影响图像分割的效果.因此,提出在彩色深度(RGB–D)图像上使用抽象的支撑语义关系来解决多样的物体形态所面对的先验知识不完备问题.在先验知识不完备情况下,针对自底向上的图像分割过程中被过度分割出的物体块,首先对物体块间的支撑语义关系进行建模并计算其支撑概率,然后构造能够度量场景总体稳定性的能量函数,最后通过Swendsen-Wang割(SWC)随机图分割算法最小化该能量函数的值,将物体块间的支撑概率转化为强支撑语义关系并完成物体块合并,实现先验知识不完备情况下的图像分割.实验结果证明,结合支撑语义关系的图像分割能够在先验知识不完备的情况下,将同一物体被过度分割的部分重新合并起来,从而提升了图像分割的准确性.  相似文献   

3.
陈鹏  邹涛 《计算机系统应用》2015,24(12):243-248
针对被动毫米波(PMMW)图像成像质量差,边界模糊,不易识别的特点,在传统词袋模型图像分类的基础上,提出了利用减法聚类改进FCM聚类算法并将其运用到词袋模型上去,提取视觉单词,利用局部不变量SIFT方法对手枪、匕首和炸药进行了粗分类.实验结果证明,改进的词袋模型能够准确的对违禁品进行分类,识别率平均能达到90%以上,性能优于传统的K均值聚类和原始的FCM聚类算法.  相似文献   

4.
基于高层语义视觉词袋的色情图像过滤模型   总被引:1,自引:0,他引:1  
针对目前色情图像过滤算法对比基尼图像和类肤色图像误检率过高,且不能有效过滤带有淫秽动作的多人色情图像的缺点,提出一种基于高层语义视觉词袋的色情图像过滤模型。该模型首先通过改进的SURF算法提取色情场景局部特征点,然后融合视觉单词的上下文和空间相关高层语义特征,从而构建色情图像的高层语义词典。实验结果表明,该模型检测带有淫秽动作的多人色情图像准确率可达87.6%,明显高于现有的视觉词袋色情图像过滤算法。  相似文献   

5.
针对户外监控系统需要利用图像画面进行天气状态识别的问题,提出了一种新的词袋模型,以及SVM和随机森林相结合的分类方法,对晴天与阴天两类天气状态进行识别.词袋模型利用SIFT特征,通过聚类构建词典,并用最小二乘法求解最佳图像的词典结构参数,最终根据金字塔匹配得到多尺度图像词袋模型特征.分类器的构造采用支持向量机(SVM)作为一级分类器,对小置信样本进行粗分类,之后,再利用随机森林构造作为二级分类器进行判别.通过对两类天气图像集的10 000张图像进行测试,其识别准确率验证了方法的有效性.  相似文献   

6.
董健 《计算机应用》2014,34(4):1172-1176
针对传统的视觉词袋模型中视觉词典对底层特征量化时容易引入量化误差,以及视觉单词的适用性不足等问题,提出了基于加权特征空间信息视觉词典的图像检索模型。从产生视觉词典的常用聚类算法入手,分析和探讨了聚类算法的特点,考虑聚类过程中特征空间的特征分布统计信息,通过实验对不同的加权方式进行对比,得出效果较好的均值加权方案,据此对视觉单词的重要程度加权,提高视觉词典的描述能力。对比实验表明,在ImageNet图像数据集上,相对于同源视觉词典,非同源视觉词典对视觉空间的划分影响较小,且基于加权特征空间信息视觉词典在大数据集上更加有效。  相似文献   

7.
为了让机器人在对未知场景的扫描与重建过程中同时获得对该场景的理解,需要基于目前已有的部分信息进行物体分割与识别,解决基于不完整点云的局部匹配问题.针对已有的局部匹配方法面临着匹配准确度低、计算复杂度高等问题,提出三维形状的多层次局部匹配算法.在粗层次上,通过使用改进的词袋方法进行降维加速;在细层次上,通过精细地筛选三维特征点对之间的对应关系提升精度.首先使用基于深度学习描述子的多尺度SVM方法对数据库中模型上的特征点进行聚类,然后采用基于空间关系的视觉词袋方法在数据库中检索候选模型,最后基于全局和局部等距性对不完整点云与候选模型间的特征点对对应关系进行筛选.文中对于各部分算法分别进行验证,并与相关算法进行对比和评估,实验结果表明,该算法显著提高了局部匹配的准确性,为机器人在线场景扫描、分析、重建等相关工作提供了十分有意义的参考和支持.  相似文献   

8.
为了解决大规模数据集下传统视觉词袋模型生成时间长、内存消耗大且分类精度低等问题,提出了基于监督核哈希(Supervised Hashing with Kernels,KSH)的视觉词袋模型.首先,提取图像的SIFT特征点,构造特征点样本集.然后,学习KSH函数,将距离相近的特征点映射成相同的哈希码,每一个哈希码代表聚类中心,构成视觉词典.最后,利用生成的视觉词典,将图像表示为直方图向量,并应用于图像分类.在标准数据集上的实验结果表明,该模型生成的视觉词典具有较好的区分度,有效地提高了图像分类的精度和效率.  相似文献   

9.
一种基于优化“词袋”模型的物体识别方法*   总被引:1,自引:0,他引:1  
针对传统基于“词袋”模型物体识别现有方法的不足,对现特征表达、视觉词典和图像表示方法进行优化,以提高物体识别正确率。采用HUE直方图与SIFT特征描述符分别描述兴趣点周围的颜色和形状特征,实现“词袋”模型下两种特征的特征级和图像级融合,引入K-means++聚类算法生成视觉词典,并利用软权重思想将特征向量映射到视觉单词形成图像直方图。实验结果表明,所述方法会产生较高的物体识别正确率,且识别结果不受两种特征融合权重的影响。  相似文献   

10.
基于小波分解和模糊聚类的图像分割方法   总被引:1,自引:0,他引:1  
传统的FCM图像聚类法由于需要大量先验知识和聚类速度的原因,大大限制其在图像分割领域的应用.提出一种基于小波分解和模糊聚类相结合的图像分割算法,首先对图像进行小波变换,对于L空间得到的灰度图像利用小波多尺度分解的性质得到特征图像,利用此特征图像的一维灰度信息采用模糊C均值聚类(FCM)算法,并自动确定FCM算法聚类数和聚类中心从而完成聚类的无监督化,实现对经小波分解后的特征图像的高效快速分割.  相似文献   

11.
Based on the local keypoints extracted as salient image patches, an image can be described as a ?bag-of-visual-words (BoW)? and this representation has appeared promising for object and scene classification. The performance of BoW features in semantic concept detection for large-scale multimedia databases is subject to various representation choices. In this paper, we conduct a comprehensive study on the representation choices of BoW, including vocabulary size, weighting scheme, stop word removal, feature selection, spatial information, and visual bi-gram. We offer practical insights in how to optimize the performance of BoW by choosing appropriate representation choices. For the weighting scheme, we elaborate a soft-weighting method to assess the significance of a visual word to an image. We experimentally show that the soft-weighting outperforms other popular weighting schemes such as TF-IDF with a large margin. Our extensive experiments on TRECVID data sets also indicate that BoW feature alone, with appropriate representation choices, already produces highly competitive concept detection performance. Based on our empirical findings, we further apply our method to detect a large set of 374 semantic concepts. The detectors, as well as the features and detection scores on several recent benchmark data sets, are released to the multimedia community.  相似文献   

12.
Video indexing requires the efficient segmentation of video into scenes. The video is first segmented into shots and a set of key-frames is extracted for each shot. Typical scene detection algorithms incorporate time distance in a shot similarity metric. In the method we propose, to overcome the difficulty of having prior knowledge of the scene duration, the shots are clustered into groups based only on their visual similarity and a label is assigned to each shot according to the group that it belongs to. Then, a sequence alignment algorithm is applied to detect when the pattern of shot labels changes, providing the final scene segmentation result. In this way shot similarity is computed based only on visual features, while ordering of shots is taken into account during sequence alignment. To cluster the shots into groups we propose an improved spectral clustering method that both estimates the number of clusters and employs the fast global k-means algorithm in the clustering stage after the eigenvector computation of the similarity matrix. The same spectral clustering method is applied to extract the key-frames of each shot and numerical experiments indicate that the content of each shot is efficiently summarized using the method we propose herein. Experiments on TV-series and movies also indicate that the proposed scene detection method accurately detects most of the scene boundaries while preserving a good tradeoff between recall and precision.  相似文献   

13.
This paper proposes an efficient technique for learning a discriminative codebook for scene categorization. A state-of-the-art approach for scene categorization is the Bag-of-Words (BoW) framework, where codebook generation plays an important role in determining the performance of the system. Traditionally, the codebook generation methods adopted in the BoW techniques are designed to minimize the quantization error, rather than optimize the classification accuracy. In view of this, this paper tries to address the issue by careful design of the codewords such that the resulting image histograms for each category will retain strong discriminating power, while the online categorization of the testing image is as efficient as in the baseline BoW. The codewords are refined iteratively to improve their discriminative power offline. The proposed method is validated on UIUC Scene-15 dataset and NTU Scene-25 dataset and it is shown to outperform other state-of-the-art codebook generation methods in scene categorization.  相似文献   

14.
针对基于无监督特征提取的目标检测方法效率不高的问题,提出一种在无标记数据集中准确检测前景目标的方法.其基本出发点是:正确的特征聚类结果可以指导目标特征提取,同时准确提取的目标特征可以提高特征聚类的精度.该方法首先对无标记样本图像进行局部特征提取,然后根据最小化特征距离进行无监督特征聚类.将同一个聚类内的图像两两匹配,将特征匹配的重现程度作为特征权重,最后根据更新后的特征权重指导下一次迭代的特征聚类.多次迭代后同时得到聚类结果和前景目标.实验结果表明,该方法有效地提高Caltech-256数据集和Google车辆图像的检测精度.此外,针对目前绝大部分无监督目标检测方法不具备增量学习能力这一缺点,提出了增量学习方法实现,实验结果表明,增量学习方法有效地提高了计算速度.  相似文献   

15.
针对三维掌纹特征表示的鲁棒性和准确性问题,提出一种融合曲面的几何特征和 方向特征的三维掌纹识别方法。基于现有的曲面类型编码提取掌纹几何特征的基础上,提出使 用基于形状指数的编码来共同表达三维掌纹的几何特征,从而有效减少由阈值所引起的错误编 码带来的准确性上的影响。此外,提出一种多尺度的改进竞争编码来表达掌纹的方向特征。在 决策层,使用基于多字典的协同表示框架融合上述几何特征和方向特征以完成掌纹识别。在公 开的三维掌纹数据集上的大量实验表明,所提方法可以在保持较低计算复杂度的同时实现最佳 的识别精度。  相似文献   

16.
为有效地保护版权,提高大规模视频集的拷贝检测速度,提出一种完全实现在GPU上的基于增量式聚类的拷贝检测方法.对数据库中新增加的视频,首先调用GPU上的硬件解码单元对视频流解码,以实时的速度提取高维SIFT特征点;然后对特征点进行增量K-means聚类,以动态地反映数据库的变化,并根据聚类结果更新视觉关键词词典;再将每帧表示成归一化的词频向量;最后使用基于帧级别词频向量的时空顺序匹配法来判定查询视频是否为数据库中视频的拷贝.实验结果表明,该方法比原有的CPU实现方法整体提速最高达63倍.  相似文献   

17.
This paper proposes an efficient framework for scene categorization by combining generative model and discriminative model. A state-of-the-art approach for scene categorization is the Bag-of-Words (BoW) framework. However, there exist many categories in scenes. Generally when a new category is considered, the codebook in BoW framework needs to be re-generated, which will involve exhaustive computation. In view of this, this paper tries to address the issue by designing a new framework with good scalability. When an additional category is considered, much lower computational cost is needed while the resulting image signatures are still discriminative. The image signatures for training discriminative model are carefully designed based on the generative model. The soft relevance value of the extracted image signatures are estimated by image signature space modeling and are incorporated in Fuzzy Support Vector Machine (FSVM). The effectiveness of the proposed method is validated on UIUC Scene-15 dataset and NTU-25 dataset, and it is shown to outperform other state-of-the-art approaches for scene categorization.  相似文献   

18.
一种基于增量式谱聚类的动态社区自适应发现算法   总被引:6,自引:0,他引:6  
蒋盛益  杨博泓  王连喜 《自动化学报》2015,41(12):2017-2025
针对当前复杂网络动态社区发现的热点问题, 提出一种面向静态网络社区发现的链接相关线性谱聚类算法, 并在此基础上提出一种基于增量式谱聚类的动态社区自适应发现算法. 动态社区发现算法引入归一化图形拉普拉斯矩阵呈现复杂网络节点之间的关 系,采用拉普拉斯本征映射将节点投影到k维欧式空间.为解决离群节点影响谱聚类的效果和启发式确定复杂网络社区数量的问题, 利用提出的链接相关线性谱聚类算法发现初始时间片的社区结构, 使发现社区的过程能够以较低的时间开销自适应地挖掘复杂网络社区结构. 此后, 对于后续相邻的时间片, 提出的增量式谱聚类算法以前一时间片聚类获得的社区特征为基础, 通过调整链接相关线性谱聚类算法实现对后一时间片的增量聚类, 以达到自适应地发现复杂网络动态社区的目的. 在多个数据集的实验表明, 提出的链接相关线性谱聚类算法能够有效地检测出复杂网络中的社区结构以及基于 增量式谱聚类的动态社区自适应发现算法能够有效地挖掘网络中动态社区的演化过程.  相似文献   

19.
余启凯  罗斌  王晨捷 《信息与控制》2022,51(3):330-338,360
视觉同步定位与建图(simultaneous localization and mapping,SLAM)是智能机器人、无人驾驶等领域的核心技术。通常大多数视觉SLAM关注的是静态场景,它们难以应用于动态场景,也有一些视觉SLAM应用于动态场景,它们借助神经网络来剔除动态物体从而减少动态物体的干扰,但剔除后的图像留有的...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号