首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 177 毫秒
1.
目的 传统图像语义分割需要的像素级标注数据难以大量获取,图像语义分割的弱监督学习是当前的重要研究方向。弱监督学习是指使用弱标注样本完成监督学习,弱标注比像素级标注的标注速度快、标注方式简单,包括散点、边界框、涂鸦等标注方式。方法 针对现有方法对多层特征利用不充分的问题,提出了一种基于动态掩膜生成的弱监督语义分割方法。该方法以边界框作为初始前景分割轮廓,使用迭代方式通过卷积神经网络(convolutional neural network,CNN) 多层特征获取前景目标的边缘信息,根据边缘信息生成掩膜。迭代的过程中首先使用高层特征对前景目标的大体形状和位置做出估计,得到粗略的物体分割掩膜。然后根据已获得的粗略掩膜,逐层使用CNN 特征对掩膜进行更新。结果 在Pascal VOC(visual object classes) 2012 数据集上取得了78.06% 的分割精度,相比于边界框监督、弱—半监督、掩膜排序和实例剪切方法,分别提高了14.71%、4.04%、3.10% 和0.92%。结论 该方法能够利用高层语义特征,减少分割掩膜中语义级别的错误,同时使用底层特征对掩膜进行更新,可以提高分割边缘的准确性。  相似文献   

2.
史静  朱虹  王栋  杜森 《中国图象图形学报》2017,22(12):1750-1757
目的 目前对于场景分类问题,由于其内部结构的多样性和复杂性,以及光照和拍摄角度的影响,现有算法大多通过单纯提取特征进行建模,并没有考虑场景图像中事物之间的相互关联,因此,仍然不能达到一个理想的分类效果。本文针对场景分类中存在的重点和难点问题,充分考虑人眼的视觉感知特性,利用显著性检测,并结合传统的视觉词袋模型,提出了一种融合视觉感知特性的场景分类算法。方法 首先,对图像进行多尺度分解,并提取各尺度下的图像特征,接着,检测各尺度下图像的视觉显著区域,最后,将显著区域信息与多尺度特征进行有机融合,构成多尺度融合窗选加权SIFT特征(WSSIFT),对场景进行分类。结果 为了验证本文算法的有效性,该算法在3个标准数据集SE、LS以及IS上进行测试,并与不同方法进行比较,分类准确率提高了约3%~17%。结论 本文提出的融合视觉感知特性的场景分类算法,有效地改善了单纯特征描述的局限性,并提高了图像的整体表达。实验结果表明,该算法对于多个数据集都具有较好的分类效果,适用于场景分析、理解、分类等机器视觉领域。  相似文献   

3.
目的 随着高光谱成像技术的飞速发展,高光谱数据的应用越来越广泛,各场景高光谱图像的应用对高精度详细标注的需求也越来越旺盛。现有高光谱分类模型的发展大多集中于有监督学习,大多数方法都在单个高光谱数据立方中进行训练和评估。由于不同高光谱数据采集场景不同且地物类别不一致,已训练好的模型并不能直接迁移至新的数据集得到可靠标注,这也限制了高光谱图像分类模型的进一步发展。本文提出跨数据集对高光谱分类模型进行训练和评估的模式。方法 受零样本学习的启发,本文引入高光谱类别标签的语义信息,拟通过将不同数据集的原始数据及标签信息分别映射至同一特征空间以建立已知类别和未知类别的关联,再通过将训练数据集的两部分特征映射至统一的嵌入空间学习高光谱图像视觉特征和类别标签语义特征的对应关系,即可将该对应关系应用于测试数据集进行标签推理。结果 实验在一对同传感器采集的数据集上完成,比较分析了语义—视觉特征映射和视觉—语义特征映射方向,对比了5种基于零样本学习的特征映射方法,在高光谱图像分类任务中实现了对分类模型在不同数据集上的训练和评估。结论 实验结果表明,本文提出的基于零样本学习的高光谱分类模型可以实现跨数据集对分类模型进行训练和评估,在高光谱图像分类任务中具有一定的发展潜力。  相似文献   

4.
目的 现有的深度学习模型往往需要大规模的训练数据,而小样本分类旨在识别只有少量带标签样本的目标类别。作为目前小样本学习的主流方法,基于度量的元学习方法在训练阶段大多没有使用小样本目标类的样本,导致这些模型的特征表示不能很好地泛化到目标类。为了提高基于元学习的小样本图像识别方法的泛化能力,本文提出了基于类别语义相似性监督的小样本图像识别方法。方法 采用经典的词嵌入模型GloVe(global vectors for word representation)学习得到图像数据集每个类别英文名称的词嵌入向量,利用类别词嵌入向量之间的余弦距离表示类别语义相似度。通过把类别之间的语义相关性作为先验知识进行整合,在模型训练阶段引入类别之间的语义相似性度量作为额外的监督信息,训练一个更具类别样本特征约束能力和泛化能力的特征表示。结果 在miniImageNet和tieredImageNet两个小样本学习基准数据集上进行了大量实验,验证提出方法的有效性。结果显示在miniImageNet数据集5-way 1-shot和5-way 5-shot设置上,提出的方法相比原型网络(prototypical networks)分类准确率分别提高1.9%和0.32%;在tieredImageNet数据集5-way 1-shot设置上,分类准确率相比原型网络提高0.33%。结论 提出基于类别语义相似性监督的小样本图像识别模型,提高小样本学习方法的泛化能力,提高小样本图像识别的准确率。  相似文献   

5.
目的 图像质量评估是计算机视觉、图像处理等领域的基础研究课题之一,传统评估方法常基于图像低层视觉特征而忽略了高层语义信息,这也在一定程度上影响了客观指标和主观视觉质量的一致性。近年来,感知损失被广泛应用于图像风格化、图像复原等研究中,通过使用预训练的深度网络对图像进行多层语义分解,在相关问题上取得了较好的效果。受感知损失启发,提出一种多层感知分解的全参考图像质量评估方法。方法 首先使用预训练的深度网络对图像进行多层语义分解,获取多层特征图,再计算失真图像与参考图像之间的相似度,以及它们的不同层级特征图之间的相似度,最终得出兼顾了高层语义信息的图像质量分数。结果 针对传统方法PSNR(peak signal-to-noise ratio)、SSIM(structure similarity)、MS-SSIM(multi-scale structure similarity)及FSIM(feature similarity)进行实验,结果表明,本文方法能够有效提升传统图像质量评估方法的性能,在SRCC(Spearman rank order correlation coefficient)、KRCC(Kendall rank order correlation coefficient)、PLCC(Pearson linear correlation coefficient)和RMSE(root mean squared error)客观指标上均有相应提升。通过使用本文框架,PSNR、SSIM、MS-SSIM、FSIM方法在TID2013数据库上SRCC指标分别获得0.02、0.07、0.06和0.04的提升。结论 本文提出的一种多层感知分解的全参考图像质量评估方法,结合传统方法与深度学习方法,兼顾了图像低层视觉特征和高层语义信息,从而有效地提升了传统方法的评估性能,使客观评估结果更加符合主观视觉感受,同时,本文提出的评估框架能够适用于多种传统方法的性能提升。  相似文献   

6.
针对目前词袋(BoF)特征压缩算法忽略编码矢量之间空间关系的问题,本文给出了压缩算法与金字塔模型相配合的图像分类步骤。同时以多个公开图像数据集为实验对象,对典型词袋特征压缩算法的性能进行比较性研究报道。实验结果表明,压缩算法对于视觉单词数目以及编码方法具有良好的鲁棒性;其中基于子空间方法的压缩算法在高层图像特征空间中的分类性能最优,在多个图像数据集上的分类性能最优,时间开销最小。  相似文献   

7.
目的 在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多。但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少。为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion, ZSAR-MF)框架。方法 本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成。具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network, CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估。结果 本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4 %左右。结论 本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率。  相似文献   

8.
目的 针对基于区域的语义分割方法在进行语义分割时容易缺失细节信息,造成图像语义分割结果粗糙、准确度低的问题,提出结合上下文特征与卷积神经网络(CNN)多层特征融合的语义分割方法。方法 首先,采用选择搜索方法从图像中生成不同尺度的候选区域,得到区域特征掩膜;其次,采用卷积神经网络提取每个区域的特征,并行融合高层特征与低层特征。由于不同层提取的特征图大小不同,采用RefineNet模型将不同分辨率的特征图进行融合;最后将区域特征掩膜和融合后的特征图输入到自由形式感兴趣区域池化层,经过softmax分类层得到图像的像素级分类标签。结果 采用上下文特征与CNN多层特征融合作为算法的基本框架,得到了较好的性能,实验内容主要包括CNN多层特征融合、结合背景信息和融合特征以及dropout值对实验结果的影响分析,在Siftflow数据集上进行测试,像素准确率达到82.3%,平均准确率达到63.1%。与当前基于区域的端到端语义分割模型相比,像素准确率提高了10.6%,平均准确率提高了0.6%。结论 本文算法结合了区域的前景信息和上下文信息,充分利用了区域的语境信息,采用弃权原则降低网络的参数量,避免过拟合,同时利用RefineNet网络模型对CNN多层特征进行融合,有效地将图像的多层细节信息用于分割,增强了模型对于区域中小目标物体的判别能力,对于有遮挡和复杂背景的图像表现出较好的分割效果。  相似文献   

9.
张杰  郭小川  金城  陆伟 《计算机工程》2011,37(4):230-231
在基于内容的图像检索和分类系统中,图像的底层特征和高层语义之间存在着语义鸿沟,有效减小语义鸿沟是一个需要广泛研究的问题。为此,提出一种基于特征互补率矩阵的图像分类方法,该方法通过计算视觉特征互补率矩阵进而指导融合特征集的选择,利用测度学习算法得到一个合适的距离测度以反映图像高层语义的相似度。实验结果表明,该方法能有效提高图像分类精度。  相似文献   

10.
目的 针对由航空影像自动生成大范围3维地形的立体模型配准问题,提出一种自动配准全部立体模型的方法,从而生成大范围3维地形。方法 首先由相邻影像构建独立的立体模型;然后根据特征匹配同名点在公共影像上的坐标对应关系,自动提取相邻模型的连接点;通过循环遍历搜索,自动配准全部立体模型,进而构建全航摄区的大范围3维地形。结果 采用两组数据进行实验,结果显示,两组数据全部3维模型的均方配准误差分别为5.20像素和2.63像素。本文方法生成的大范围地形的相对精度较高;对第2组数据的结果采用控制点进行绝对定向,并用检查点进行精度评估,结果显示全部检查点的均方平面和高程误差分别为0.326 m和0.502 m,生成的大范围地形达到了较高的绝对精度。结论 本文方法可自动化执行,仅需输入一系列有一定重叠的航空影像,即可自动生成按一定方式组织的大范围3维地形产品。该方法生成的大范围地形既可用于3维场景浏览,也可用于地形量测,但不适用于由激光扫描获取的点云数据的配准。  相似文献   

11.
目的关于图像场景分类中视觉词包模型方法的综述性文章在国内外杂志上还少有报导,为了使国内外同行对图像场景分类中的视觉词包模型方法有一个较为全面的了解,对这些研究工作进行了系统总结。方法在参考国内外大量文献的基础上,对现有图像场景分类(主要指针对单一图像场景的分类)中出现的各种视觉词包模型方法从低层特征的选择与局部图像块特征的生成、视觉词典的构建、视觉词包特征的直方图表示、视觉单词优化等多方面加以总结和比较。结果回顾了视觉词包模型的发展历程,对目前存在的多种视觉词包模型进行了归纳,比较常见方法各自的优缺点,总结了视觉词包模型性能评价方法,并对目前常用的标准场景库进行汇总,同时给出了各自所达到的最高精度。结论图像场景分类中视觉词包模型方法的研究作为计算机视觉领域方兴未艾的热点研究领域,在国内外研究中取得了不少进展,在计算机视觉领域的研究也不再局限于直接应用模型描述图像内容,而是更多地考虑图像与文本的差异。虽然视觉词包模型在图像场景分类的应用中还存在很多亟需解决的问题,但是这丝毫不能掩盖其研究的重要意义。  相似文献   

12.
13.
移动机器人基于多传感器信息融合的室外场景理解   总被引:1,自引:0,他引:1  
闫飞  庄严  王伟 《控制理论与应用》2011,28(8):1093-1098
本文研究了移动机器人多传感器信息融合技术,提出一种融合激光测距与视觉信息的实时室外场景理解方法.基于三维激光测距数据构建了高程图描述场景地形特征,同时利用条件随机场模型从视觉信息中获取地貌特征,并以高程图中的栅格作为载体,应用投影变换和信息统计方法将激光信息与视觉信息进行有效融合.在此基础上,对融合后的环境模型分别在地形和地貌两个层面进行可通过性评估,从而实现自主移动机器人实时室外场景理解.实验结果和数据分析验证了所提方法的有效性和实用性.  相似文献   

14.
Legged robots have the potential to navigate in challenging terrain, and thus to exceed the mobility of wheeled vehicles. However, their control is more difficult as legged robots need to deal with foothold computation, leg trajectories and posture control in order to achieve successful navigation. In this paper, we present a new framework for the hydraulic quadruped robot HyQ, which performs goal-oriented navigation on unknown rough terrain using inertial measurement data and stereo-vision. This work uses our previously presented reactive controller framework with balancing control and extends it with visual feedback to enable closed-loop gait adjustment. On one hand, the camera images are used to keep the robot walking towards a visual target by correcting its heading angle if the robot deviates from it. On the other hand, the stereo camera is used to estimate the size of the obstacles on the ground plane and thus the terrain roughness. The locomotion controller then adjusts the step height and the velocity according to the size of the obstacles. This results in a robust and autonomous goal-oriented navigation over difficult terrain while subject to disturbances from the ground irregularities or external forces. Indoor and outdoor experiments with our quadruped robot show the effectiveness of this framework.  相似文献   

15.
目的词袋模型在图像分类领域中的分类效果主要受限于局部特征的量化误差。针对这一点,提出一种融合多尺度码本的全局编码图像分类方法,有效减少特征量化误差。方法通过使用多尺度特征密集采样,构建多尺度码本,使码本具备一种层次结构,通过充分利用图像特征的流形结构,计算码本全局信息,实现全局编码。通过本文方法得到的编码系数比较平滑和准确。最后使用多路径方法,分别将不同尺度的特征表示进行级联,得到最终的图像特征表示。这种特征表示具备了一定程度上的尺度不变性。结果在UIUC-8和Caltech-101两个常用的标准图像数据集上进行测试,分类准确率分别达到88.0%和83.2%。结论实验结果表明,相比于基于固定尺度码本的局部编码方法,本文方法在分类识别率方面有了显著提升。  相似文献   

16.
17.
This article presents novel techniques for real‐time terrain characterization and assessment of terrain traversability for a field mobile robot using a vision system and artificial neural networks. The key terrain traversability characteristics are identified as roughness, slope, discontinuity, and hardness. These characteristics are extracted from imagery data obtained from cameras mounted on the robot and are represented in a fuzzy logic framework using perceptual, linguistic fuzzy sets. The approach adopted is highly robust and tolerant to imprecision and uncertainty inherent in sensing and perception of natural environments. The four traversability characteristics are combined to form a single Fuzzy Traversability Index, which quantifies the ease‐of‐traversal of the terrain by the mobile robot. Experimental results are presented to demonstrate the capability of the proposed approach for classification of different terrain segments based on their traversability. © 2001 John Wiley & Sons, Inc.  相似文献   

18.
基于词袋模型的图像表示方法的有效性主要受限于局部特征的量化误差。文中提出一种基于多视觉码本的图像表示方法,通过综合考虑码本构建和编码方法这两个方面的因素加以改进。具体包括:1)多视觉码本构建,以迭代方式构建多个紧凑且具有互补性的视觉码本;2)图像表示,首先针对多码本的情况,依次从各码本中选择相应的视觉单词并采用线性回归估计编码系数,然后结合图像的空间金字塔结构形成最终的图像表示。在一些标准测试集合的图像分类结果验证文中方法的有效性。  相似文献   

19.
目的 为降低室外自主移动机器人视觉导航中遇到的阴影、裂纹及道路边界不规则造成的道路检测算法不鲁棒性,提出一种每帧灰度阈值可调的快速自适应道路检测方法。方法 先采用2维离散小波进行道路图像分解与重构,比较各级小波重构后的近似道路图像,确定出不影响“路-非路”灰度二分类的最佳分辨率等级;在低分辨率尺度空间中,用灰度类间最大方差和类内最小方差共同构造适应度函数,采用改进的遗传算法对各帧道路图像进行阈值自适应分割,找到准确的道路边界,最近两边界中心位置即机器人行驶方向。采用小型陆地自主车作为研究平台,并在卡耐基梅隆大学(CMU)提供的室外移动机器人道路视频中进行算法测试。结果 本文方法能够在具有阴影、裂纹、光照度变化的道路条件下鲁棒分割出道路边界,机器人可以平均30 km/h的速度在有较严重阴影干扰的校园道路上行驶,视觉系统的处理速度平均可达到20 ms/帧。结论 本文方法比传统的灰度直方图分割法表现出更强的环境自适应性,可实现较为鲁棒的室外道路检测,并可作为室外自主移动机器人非结构化道路检测的一种鲁棒性较强的方法加以推广。  相似文献   

20.
多特征融合的遥感图像分类   总被引:1,自引:0,他引:1  
针对高分辨率遥感图像特点,提出了一种多特征融合的分类方法。该方法首先改进了原始的视觉词袋生成算法;然后,分别提取图像的视觉词袋局部特征、颜色直方图特征以及Gabor纹理特征;最后采用支持向量机进行分类,并对多特征分类结果进行自适应综合。采用一个具有2 100幅图像的大型遥感图像分类公共测试数据集进行分类实验,与仅用单一特征分类方法的最高分类精度相比,本文多特征融合的遥感影像分类方法总体平均分类精度提高了10%,表明本文提出方法是一种有效的高分辨率遥感图像分类方法  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号