首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
对工具及其功用性部件的认知是共融机器人智能提升的重要研究方向.本文针对家庭日常工具的功用性部件建模与检测问题展开研究,提出了一种基于条件随机场(Conditional random field,CRF)和稀疏编码联合学习的家庭日常工具功用性部件检测算法.首先,从工具深度图像提取表征工具功用性部件的几何特征;然后,分析CRF和稀疏编码之间的耦合关系并进行公式化表示,将特征稀疏化后作为潜变量构建初始条件随机场模型,并进行稀疏字典和CRF的协同优化:一方面,将特征的稀疏表示作为CRF的随机变量条件及权重参数选择器;另一方面,在CRF调控下对稀疏字典进行更新.随后使用自适应时刻估计(Adaptive moment estimation,Adam)方法实现模型解耦与求解.最后,给出了基于联合学习的工具功用性部件模型离线构建算法,以及基于该模型的在线检测方法.实验结果表明,相较于使用传统特征提取和模型构建方法,本文方法对功用性部件的检测精度和效率均得到提升,且能够满足普通配置机器人对工具功用性认知的需要.  相似文献   

2.
徐喆  冯长华 《计算机应用》2018,38(3):671-676
针对交通标志在自然场景中所占的比例较小、提取的特征量不足、识别准确率低的问题,提出改进的尺度依赖池化(SDP)模型用于小尺度交通图像的识别。首先,基于神经网络深卷积层具有较好的轮廓信息与类别特征,在SDP模型只提取浅卷积层特征信息的基础上,使用深卷积层特征补足型SDP(SD-SDP)映射输出,丰富特征信息;其次,因SDP算法中的单层空间金字塔池化损失边缘信息,使用多尺度滑窗池化(MSP)将特征池化到固定维度,增强小目标的边缘信息;最后,将改进的尺度依赖池化模型应用于交通标志的识别。实验结果表明,与原SDP算法比较,提取特征量增加,小尺度交通图像的识别准确率较好地提升。  相似文献   

3.
徐龙壮  彭力  朱凤增 《计算机工程》2021,47(1):239-245,254
针对基于局部特征的行人重识别方法在行人错位和姿态变化时识别精度较低的问题,提出一种采用多任务金字塔重叠匹配特征的重识别方法。在训练阶段,使用改进的ResNes50作为主干网络提取特征图,将其切分组合形成金字塔重叠匹配网络,获得全局特征向量并经全局平均池化得到包含多尺度特征的多个局部特征向量,联合使用Softmax损失函数、三元组损失函数和中心损失函数学习全局和局部特征向量,并利用特征归一化层减少损失函数学习目标冲突的影响。在推理阶段,将多个局部特征向量融合为一个新特征向量进行相似性匹配,以获取更好的匹配结果。在Market1501、DukeMTMC-reID和CUHK03数据集上的实验结果表明,与PSE、MultiScale等主流重识别方法相比,该方法重识别精度更高,提取的特征具有较好的鲁棒性和识别度。  相似文献   

4.
为解决目前方法不能有效对交通标志进行检测定位,定位交通标志效率低下,存在误检漏检的问题,提出基于卷积神经网络中层特征学习的交通标志图像识别。计算图像的显著度并输出感兴趣区域;提取底层图像特征,构建优化目标函数并训练视觉词典,使用PCA方法提取交通标志图像特征并与视觉词典进行卷积,通过空间金字塔池化提取多层次特征;使用SoftMax分类器进行分类。结果表明:该方法的召回率为96%,准确率为97%,取得良好效果,小标志的召回率为94.5%,准确率为95.5%,有利于远距离交通标志识别,标志的平均定位时间为0.006 s,实时性强。  相似文献   

5.
SAR图像较大难以实时运行且船只目标较小难以被识别,为此一种压缩级联深层神经网络算法被提出以实现对众多船只目标的分割定位识别。构建3个不同的卷积神经网络实现特征提取,引入级联结构融合不同网络输出的特征图实现网络的轻量化,融合后的特征输入金字塔池化模块实现特征细化,分类并解析。在Google Earth图像数据集中的实验结果表明,多分支网络的级联有助于大尺寸图像中目标特征的分散提取,分级的模型压缩有助于提升识别速度。  相似文献   

6.
为了解决行人步态数据集样本量较少、单特征或多特征融合的步态识别算法特征描述不足的问题,提出了一种基于多尺度特征深度迁移学习的行人步态识别方法。该算法步骤包括:改进VGG-16网络,去除网络中最后一个最大池化层(Maxpool Layer),融合空间金字塔池化网络结构(SPP)获取行人步态能量图(GEI)的多尺度信息,利用Imagenet数据集预训练此网络模型,将提取特征能力迁移至行人步态识别网络模型中,采用行人步态样本集微调网络,修改网络中的全连接层参数,应用于行人步态识别研究。该方法在中科院自动化研究所的CASIA-B步态数据集上的识别精度达到了95.7%,与单一步态特征的步态识别方法以及融合多种步态特征的识别方法相比,步态识别率有了明显提升,表明该方法有更好的识别性能。  相似文献   

7.
针对中国剪纸识别中存在底层形状特征难以表达高层语义这一"语义鸿沟"问题,提出基于空间约束特征组合与选择的中国剪纸分类识别方法.首先结合空间金字塔模型和上下文相关直方图提取剪纸形状特征,从而得到具有空间信息底层特征;然后通过AdaBoost对所提取的形状特征进行组合和选择,以进一步获取剪纸图像的区别性特征;最终实现剪纸图像的识别.  相似文献   

8.
当前利用深度学习方法进行扬尘图像识别的研究较少,一些传统的方法使得扬尘图像的识别率较低.针对这种情况,提出一种基于改进残差网络的扬尘识别方法.该方法将ResNet-50网络应用到扬尘数据集中,并对其网络结构进行了改进.加入空间金字塔池化以解决输入图像尺寸不固定的问题,并且将金字塔池的策略改为平均池化,将扩大特征图的方法应用到主干网络中,有利于提取到更加细粒度的特征,提升模型的性能,从而提高识别率.实验结果表明,该方法具有很高的精确度,为扬尘识别提供了一种有效的方案.  相似文献   

9.
为了解决交通标志识别易受光照、遮挡和小目标影响的问题,对YOLOv5-P6算法进行改进,提出了一种新的交通标志识别算法。算法采用加权双向特征金字塔网络,提高特征提取能力,增加了跨层连接并对传递的特征进行权重调整,更好地融合道路交通标志的通道特征;使用空洞空间池化金字塔模块提取多尺度上下文信息,进一步增大感受野从而改善语义分割的效果;引入改进的跨阶段局部网络,使模块更加简洁;在训练过程中加入随机裁剪技术,并采用图像缩放、图像切变以及代数运算对检测效果不理想的类别进行实例扩充,缓解模型的过拟合问题。在TT100K数据集上应用本算法,识别精度达到90.02%,与传统的YOLOv5模型相比提高了4.72%,帧处理速率达到36.07FPS。  相似文献   

10.
在变电站三维场景中,对巡检人员和带电设备的精确定位与识别是提高人员安全管控水平的前提。针对变电站复杂场景中目标定位与识别不准的问题,提出了一种基于图神经网络的变电站场景三维目标检测方法。该方法基于point-GNN结构设计,在顶点特征提取阶段,提出PCS(point-channel-sphere)注意力结构,提取更加丰富的关键点特征信息;在GNN边缘特征聚合阶段,采用统筹性池化机制,兼顾最大池化和均值池化从而获取更丰富的全局特征;改进模型损失函数,将Focal Loss作为分类损失使训练更加关注前景点,将DIoU Loss作为回归损失使回归任务更高效。在自建的变电站场景数据集上进行训练与测试,实验表明该方法 mAP值达到73.81%,优于基准模型,能够改善变电站场景中目标的检测效果,对提高人员安全管控水平具有一定的实用价值。  相似文献   

11.
在卷积神经网络模型中,空间金字塔池化方法将空间信息融入到深度特征的生成过程中,最终生成的图像表示可以有效地用于提高图像检索性能,但是此方法会导致生成的图像表示中不同维度之间描述的信息存在重复且相同维度描述的图像内容不匹配。为此提出了一种基于多尺度特征映射匹配(multi-scale feature map matching,MFMM)的图像表示方法,此方法首先利用深度特征的方差与协方差矩阵提出了一种特征映射选择算法,用于增强图像表示中不同维度特征的独立性。其次,依据相同通道特征映射中高响应值位置有较高匹配性的特点,结合激活映射中最大响应位置的深度特征提出了一种优化的特征映射中心点选择方法。最后,按照不同的中心点通过多尺度窗口采样的方式,从特征映射中提取出带有空间信息的深度特征用于表示图像内容。实验结果表明,提出的方法在图像检索任务中能够取得良好的效果。  相似文献   

12.
针对现有词包模型对目标识别性能的不足,对特征提取、图像表示等方面进行改进以提高目标识别的准确率。首先,以密集提取关键点的方式取代SIFT关键点提取,减少了计算时间并最大程度地描述了图像底层信息。然后采用尺度不变特征变换(Scale-invariant feature transform, SIFT)描述符和统一模式的局部二值模式(Local binary pattern,LBP)描述符描述关键点周围的形状特征和纹理特征,引入K-Means聚类算法分别生成视觉词典,然后将局部描述符进行近似局部约束线性编码,并进行最大值特征汇聚。分别采用空间金字塔匹配生成具有空间信息的直方图,最后将金字塔直方图相串联,形成特征的图像级融合,并送入SVM进行分类识别。在公共数据库中进行实验,实验结果表明,本文所提方法能取得较高的目标识别准确率。  相似文献   

13.
14.
针对目前食物识别系统中网络模型参数量多、模型较大的问题,提出一种23层结构、参数量只有204k的网络模型,使用基本构造块(7×7、5×5、3×3)生成特征图,用不同感受野的2个池化层来融合卷积层的特征图,再用1×1的卷积核进行非线性组合,然后连接到空间金字塔池化层,最后在softmax分类器中分类。在公开数据集上的实验表明,与ResNet50和GoogLeNet相比,本文网络模型在分类性能不降低的情况下,模型参数分别减少了99.14%和96.63%。  相似文献   

15.
Feature pooling is a key component in modern visual classification system. However, the conventional two prevailing pooling techniques, namely average and max poolings, are not theoretically optimal, due to the unrecoverable loss of the spatial information during the statistical summarization and the underlying over-simplified assumption about the feature distribution. Addressing these issues, this paper proposes to generalize previous pooling methods toward a weighted p-norm spatial pooling function tailored for class-specific feature spatial distribution. Optimizing such a pooling function toward discriminative class separability that is subject to a spatial smoothness constraint yields a so-called geometric p-norm pooling (GLP) method. Furthermore, to handle the variation of object scale/position, which would affect not only the learning of discriminative pooling weights but also the applicability of the learned weights, we propose a simple yet effective self-alignment step during both learning and testing to adaptively adjust the pooling weights for individual images. Image segmentation and visual saliency map are utilized to construct a directed pixel adjacency graph. The discriminative pooling weights are diffused using random walk on the constructed graph and therefore the discriminative pooling weights are propagated onto the salient and foreground region. This leads to a robust version of GLP (RGLP) which can cope with the misalignment of object position and scale in images. Comprehensive experiments validate the effectiveness of the proposed GLP feature pooling framework. The proposed random walk based self-alignment step can effectively alleviate the image misalignment issue and further boost classification accuracy. State-of-the-art image classification and action recognition performances are attained on several benchmarks.  相似文献   

16.
提出一种高效的人体动作识别方法。通过帧间差分法将深度序列的三视图转化为深度运动轮廓序列(DMOS),然后利用时空金字塔对DMOS进行时间维和空间维细分,将细分后得到的空间网格的局部方向梯度直方图(HOG)进行特征融合,并使用线性SVM分类。最后采用MSR Action 3D数据集对提出的算法在不同时空金字塔参数下的识别率和处理速度进行了评估,结果表明该方法在同类算法中具有更高的识别率。  相似文献   

17.
目前基于深度学习的视网膜OCT图像分类方法存在网络特征提取能力低、小目标病变分类困难等问题。为此本文提出了一种双分支多尺度特征融合网络,通过加入门控注意力机制,利用深层特征作为选通信号传递给浅层特征,在消除冗余特征的同时,获得更细尺度的抽象信息。同时加入空洞空间金字塔模块,实现在不降低特征图分辨率的同时增大感受野,按不同比例有效捕获全局上下文信息,提高了小目标病变分类精度。实验结果表明,本文提出的方法在视网膜OCT图像分类任务中取得了较好效果,分类准确率达97.9%。  相似文献   

18.
19.
针对大规模RGB-D数据集中存在的深度线索质量和非线性模型分类问题,提出基于卷积递归神经网络和核超限学习机的3D目标识别方法.该方法引入深度图编码算法,修正原始深度图中存在的数值丢失和噪声问题,将点云图统一到标准角度,形成深度编码图,并结合原始深度图作为新的深度线索.利用卷积递归神经网络学习不同视觉线索的层次特征,融入双路空间金字塔池化方法,分别处理多线索特征.最后,构建基于核方法的超限学习机作为分类器,实现3D目标识别.实验表明,文中方法有效提高3D目标识别率和分类效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号