首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
如今生活中,图像资源无处不在,海量的图像让人应接不暇。如何快速有效地对这些图像信息进行查询、检索和组织,成为了当前亟需解决的热门问题。而图像自动标注是解决基于文本的图像检索的关键。文中提出的这套基于深度学习模型中的卷积神经网络模型的多标签图像自动标注系统,实现了多标签损失排名函数,完成了多标签数据的训练与测试。在实验验证上,先选取CIFAR-10数据集进行算法的有效性测试,然后选取多标签图像数据集Corel 5k进行定量测试比较,结果表明,该算法的综合性能指标与现有算法相比有较大的提升。  相似文献   

2.
3.
汪鹏  张奥帆  王利琴  董永峰 《计算机应用》2018,38(11):3199-3203
针对图像标注数据集标签分布不平衡问题,提出了基于标签平滑策略的多标签平滑单元(MLSU)。MLSU在网络模型训练过程中自动平滑数据集中的高频标签,使网络适当提升了低频标签的输出值,从而提升了低频标注词的标注性能。为解决图像标注数据集样本数量不足造成网络过拟合的问题,提出了基于迁移学习的卷积神经网络(CNN)模型。首先利用互联网上的大型公共图像数据集对深度网络进行预训练,然后利用目标数据集对网络参数进行微调,构建了一个多标签平滑卷积神经网络模型(CNN-MLSU)。分别在Corel5K和IAPR TC-12图像标注数据集上进行实验,在Corel5K数据集上,CNN-MLSU较卷积神经网络回归方法(CNN-R)的平均准确率与平均召回率分别提升了5个百分点和8个百分点;在IAPR TC-12数据集上,CNN-MLSU较两场K最邻近模型(2PKNN_ML)的平均召回率提升了6个百分点。实验结果表明,基于迁移学习的CNN-MLSU方法能有效地预防网络过拟合,同时提升了低频词的标注效果。  相似文献   

4.
5.
图像语义自动标注是实现图像语义检索与管理的关键,是具有挑战性的研究课题.传统的图像标注方法需要具有完整、准确标签的数据集才能取得较好的标注性能.然而,在现实应用中获得数据的标签往往是不准确、不完整的,并且标签分布不均衡.对于Web图像和社会化图像尤其如此.为了更好地利用这些弱标签样本,提出了一种基于语义邻域学习的图像自动标注方法(semantic neighborhood learning from weakly labeled image, SNLWL).首先在邻域标签损失误差最小化意义下,填充训练集样本标签.通过递进式的邻域选择过程,保证建立的语义一致邻域内样本具有全局相似性、部分相关性和语义一致性,并且语义标签分布平衡.在邻域标签重构误差最小化意义下进行标签预测,降低噪声标签对性能的影响.多个数据集上的实验结果表明,与已知的具有较好标注效果的方法相比,此方法更适用于处理弱标签数据集,标准评测集上的测试也表明了此方法的有效性.  相似文献   

6.
针对图像标注数据集中存在的标注对象比例不一致和标签分布不平衡问题,提出基于特征融合和代价敏感学习的图像标注方法.在卷积神经网络中加入特征融合层,改进VGG16原有的网络结构,特征融合层结合注意力机制,对网络中不同卷积层提取的多尺度特征进行选择性融合,提升对不同尺度对象的标注精度;将代价敏感学习融入损失函数对网络模型进行训练,提升网络的泛化性能.实验结果表明,该方法能提升图像标注的准确率,增加对低频标签的召回率.  相似文献   

7.
针对图像自动标注中底层视觉特征与高层语义之间的语义鸿沟问题,在传统字典学习的基础上,提出一种基于多标签判别字典学习的图像自动标注方法。首先,为每幅图像提取多种类型特征,将多种特征组合作为字典学习输入特征空间的输入信息;然后,设计一个标签一致性正则化项,将原始样本的标签信息融入到初始的输入特征数据中,结合标签一致性判别字典和标签一致性正则化项进行字典学习;最后,通过得到的字典和稀疏编码矩阵求解标签稀疏编向量,实现未知图像的语义标注。在Corel 5K数据集上测试其标注性能,所提标注方法平均查准率和平均查全率分别可达到35%和48%;与传统的稀疏编码方法(MSC)相比,分别提高了10个百分点和16个百分点;与距离约束稀疏/组稀疏编码方法(DCSC/DCGSC)相比,分别提高了3个百分点和14个百分点。实验结果表明,所提方法能够较好地预测未知图像的语义信息,与当前几种流行的图像标注方法进行比较,所提方法具有较好的标注性能。  相似文献   

8.
随着数码产品,移动智能设备以及存储设备的普及,大数据时代已经来临,如何对海量数据进行有效的组织、管理、存储成为科研以及商业领域急需解决的问题,在图像数据挖掘当中,图像标注分类是当前比较热门的方向。采用机器学习的方法来找到大规模数据当中的隐含规律,实现样本的视觉内容到概念的映射需要对视觉数据内容进行恰当的描述,如果我们使用整个的图像作为基本单元,存在的问题就是视觉数据往往具有歧义性,难以准确表述包含的语义,多示例学习方法应运而生。图像分类问题本身是一种多标签问题,传统方法将其转化为一系列的单标签问题解决,忽略了标签之间的相关性,我们将标签相关性引入到模型构建当中,实验取得良好效果。  相似文献   

9.
随着数码产品,移动智能设备以及存储设备的普及,大数据时代已经来临,如何对海量数据进行有效的组织、管理、存储成为科研以及商业领域急需解决的问题,在图像数据挖掘当中,图像标注分类是当前比较热门的方向。采用机器学习的方法来找到大规模数据当中的隐含规律,实现样本的视觉内容到概念的映射需要对视觉数据内容进行恰当的描述,如果我们使用整个的图像作为基本单元,存在的问题就是视觉数据往往具有歧义性,难以准确表述包含的语义,多示例学习方法应运而生。图像分类问题本身是一种多标签问题,传统方法将其转化为一系列的单标签问题解决,忽略了标签之间的相关性,我们将标签相关性引入到模型构建当中,实验取得良好效果。  相似文献   

10.
图像的自动标注是图像检索领域一项基础而又富有挑战性的任务。深度学习算法自提出以来在图像和文本识别领域取得了巨大的成功,是一种解决"语义鸿沟"问题的有效方法。图像标注问题可以分解为基于图像与标签相关关系的基本图像标注和基于标注词汇共生关系的标注改善两个过程。文中将基本图像标注问题视为一个多标记学习问题,图像的标签先验知识作为深度神经网络的监督信息。在得到基本标注词汇的基础上,利用原始图像标签词汇的依赖关系与先验分布改善了图像的标注结果。最后将所提出的改进的深度学习模型应用于Corel和ESP图像数据集,验证了该模型框架及所提出的解决方案的有效性。  相似文献   

11.
杜年茂  徐佳陈  肖志勇 《计算机应用》2020,40(10):3060-3065
针对目前基于深度学习的欠采样磁共振(MR)图像重建方法都是基于单个切片的重建而忽略相邻切片间的数据冗余的问题,提出一种用于欠采样的多切片脑部MR图像重建的混合级联卷积神经网络(HC-CNN)。首先,将传统的重建方法拓展为基于深度学习的重建模型,并使用级联卷积神经网络来代替传统的迭代重建框架。然后,在每次迭代重建中,分别使用3D卷积模块和2D卷积模块来学习脑部MR图像序列中存在的相邻切片间与单幅切片内部的数据冗余。最后,在每次迭代中使用数据一致性(DC)模块来保持重建图像在k-空间的数据保真度。在单线圈脑部MR图像数据集上的仿真实验结果显示,相较于基于单幅MR图像的重建方法,所提方法在4倍加速因子下的峰值信噪比(PSNR)值平均提升了1.75 dB,在6倍降采样因子下的PSNR值平均提升了2.57 dB,而且该方法的单张图像重建平均用时为15.4 ms。实验结果表明:所提方法不仅能够有效利用切片间的数据冗余并重建出更高质量的图像,而且具有较高的实时性。  相似文献   

12.
邱津怡  罗俊  李秀  贾伟  倪福川  冯慧 《计算机应用》2019,39(10):2930-2936
葡萄品种质量检测需要识别多类别的葡萄,而葡萄图片中存在多种景深变化、多串等多种场景,单一预处理方法存在局限导致葡萄识别的效果不佳。实验的研究对象是大棚中采集的15个类别的自然场景葡萄图像,并建立相应图像数据集Vitis-15。针对葡萄图像中同一类别的差异较大而不同类别的差异较小的问题,提出一种基于卷积神经网络(CNN)的多尺度葡萄图像识别方法。首先,对Vitis-15数据集中的数据通过三种方法进行预处理:旋转图像的数据扩增方法、中心裁剪的多尺度图像方法以及前两种方法的数据融合方法;然后,采用迁移学习方法和卷积神经网络方法来进行分类识别,迁移学习选取ImageNet上预训练的Inception V3网络模型,卷积神经网络采用AlexNet、ResNet、Inception V3这三类模型;最后,提出适合Vitis-15的多尺度图像数据融合的分类模型MS-EAlexNet。实验结果表明,在同样的学习率和同样的测试集上,数据融合方法在MS-EAlexNet上的测试准确率达到了99.92%,相较扩增和多尺度图像方法提升了近1个百分点,并且所提方法在分类小样本数据集上具有较高的效率。  相似文献   

13.
针对基于深度学习的图像标注模型输出层神经元数目与标注词汇量成正比,导致模型结构因词汇量的变化而改变的问题,提出了结合生成式对抗网络(GAN)和Word2vec的新标注模型。首先,通过Word2vec将标注词汇映射为固定的多维词向量;其次,利用GAN构建神经网络模型--GAN-W模型,使输出层神经元数目与多维词向量维数相等,与词汇量不再相关;最后,通过对模型多次输出结果的排序来确定最终标注。GAN-W模型分别在Corel 5K和IAPRTC-12图像标注数据集上进行实验,在Corel 5K数据集上,GAN-W模型准确率、召回率和F1值比卷积神经网络回归(CNN-R)方法分别提高5、14和9个百分点;在IAPRTC-12数据集上,GAN-W模型准确率、召回率和F1值比两场K最邻近(2PKNN)模型分别提高2、6和3个百分点。实验结果表明,GAN-W模型可以解决输出神经元数目随词汇量改变的问题,同时每幅图像标注的标签数目自适应,使得该模型标注结果更加符合实际标注情形。  相似文献   

14.
张文彬  朱敏  张宁  董乐 《计算机应用》2019,39(12):3665-3672
为了解决传统图像分割算法在植物工厂中偏色光植物图像上分割精确度不高、泛化性能差的问题,提出了一种基于卷积神经网络,并结合深度学习技术,对人工偏色光下植物图像进行精确分割的方法。采用该方法,最终在偏色光植物图像原始测试集上达到了91.89%的分割精确度,远超全卷积网络、聚类、阈值、区域生长等分割算法。此外,在不同色光之下的植物图片上进行测试,该方法也较上述其他分割算法有着更好的分割效果和泛化性能。实验结果表明,所提方法能够显著提高偏色光下植物图像分割的精确度,可以应用于实际的植物工厂工程项目当中。  相似文献   

15.
徐超  闫胜业 《计算机应用》2017,37(6):1708-1715
为了在行人检测任务中使卷积神经网络(CNN)选择出更优模型并获得定位更准确的检测框,提出一种改进的基于卷积神经网络的行人检测方法。改进主要涉及两个方面:如何决定CNN样本迭代学习次数和如何进行重合窗口的合并。首先,关于CNN样本迭代次序问题,在顺序迭代训练多个CNN分类模型的基础上,提出一种基于校验集正确率及其在迭代系列分类器中展现出的稳定性进行更优模型选择的策略,以使最终选择的分类器推广能力更优。其次,提出了一种不同于非极大值抑制(NMS)的多个精确定位回归框合并机制。精确定位回归框的获取以CNN检测过程输出的粗定位框作为输入。然后,对每个粗定位框应用CNN精确定位过程并获得对应的精确定位回归框。最后,对多个精确定位回归框进行合并,合并过程考虑了每个精确定位回归框的正确概率。更精确地说,最终的合并窗口是基于多个相关的精确定位回归框的概率加权求和方式获得。针对提出的两个改进,在国际上广泛使用的行人检测公共测试数据集ETH上进行了一系列实验。实验结果表明,所提的两个改进方法均能有效地提高系统的检测性能,在相同的测试条件下,融合两个改进的方法相比Fast R-CNN算法检测性能提升了5.06个百分点。  相似文献   

16.
对于重建图像存在的边缘失真和纹理细节信息模糊的问题,提出一种基于改进卷积神经网络(CNN)的图像超分辨率重建方法。首先在底层特征提取层以三种插值方法和五种锐化方法进行多种预处理操作,并将只进行一次插值操作的图像和先进行一次插值后进行一次锐化的图像合并排列成三维矩阵;然后在非线性映射层将预处理后构成的三维特征映射作为深层残差网络的多通道输入,以获取更深层次的纹理细节信息;最后在重建层为减少图像重建时间在网络结构中引入亚像素卷积来完成图像重建操作。在多个常用数据集上的实验结果表明,与经典方法相比,所提方法重建图像的纹理细节信息和高频信息能得到更好的恢复,峰值信噪比(PSNR)平均增加0.23 dB,结构相似性(SSIM)平均增加0.0066。在保证图像重建时间的前提下,所提方法更好地保持重建图像的纹理细节并减少图像边缘失真,提升重建图像的性能。  相似文献   

17.
卷积神经网络(CNN)是目前基于深度学习的计算机视觉领域中重要的研究方向之一。它在图像分类和分割、目标检测等的应用中表现出色,其强大的特征学习与特征表达能力越来越受到研究者的推崇。然而,CNN仍存在特征提取不完整、样本训练过拟合等问题。针对这些问题,介绍了CNN的发展、CNN经典的网络模型及其组件,并提供了解决上述问题的方法。通过对CNN模型在图像分类中研究现状的综述,为CNN的进一步发展及研究方向提供了建议。  相似文献   

18.
在智能监控领域,实现人群计数具有重要价值,针对人群尺度不一、人群密度分布不均及遮挡等问题,提出一种多尺度多任务卷积神经网络(MMCNN)进行人群计数的方法。首先提出一种新颖的自适应人形核生成密度图描述人群信息,消除人群遮挡影响;其次通过构建多尺度卷积神经网络解决人群尺度不一问题,以多任务学习机制同时估计密度图及人群密度等级,解决人群分布不均问题;最后设计一种加权损失函数,提高人群计数准确率。在UCF_CC_50和World Expo'10数据库上进行了评估,验证了自适应人形核的有效性。实验结果表明:所提算法比Sindagi等的方法(SINDAGI V A,PATEL V M.CNN-based cascaded multi-task learning of high-level prior and density estimation for crowd counting.Proceedings of the 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance.Piscataway,NJ:IEEE,2017:1-6)在UCF_CC_50数据库上平均绝对误差(MAE)数值和均方误差(MSE)数值分别降低约1.7和45;与Zhang等的方法(ZHANG Y,ZHOU D,CHEN S,et al.Single-image crowd counting via multi-column convolutional neural network.Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Washington,DC:IEEE Computer Society,2016:589-597)相比,在World Expo'10数据库上所提算法的MAE值降低约1.5,且在真实公共汽车数据库上仅0~3人的计数误差,表明其实用性较强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号