首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
深度学习在图像识别领域凸显出了优势,而在深度学习图像识别模型训练的准备阶段,制备图像数据集需要人工将图片上的信息进行标注.这一准备过程往往需要耗费大量人力成本与时间成本.为了提升数据制备阶段的工作效率,从而加速深度学习模型的生成与迭代,提出了一种基于微服务架构的多人协作众包式图像数据集标注系统.通过将繁重的标注任务划分...  相似文献   

2.
基于深度学习的医学图像分析是智慧医疗的一个重要方向。但是通常情况下,医学图像数据集数据量很小,而且由于医学图像的标注困难,耗费大量人力物力,所以带标签的训练数据很难获取。如何使用极少的带标签数据和无标签的数据得到一个较好的网络模型是本文的主要研究内容。该文提出基于深度聚类的自监督网络模型作为特征提取器,并且使用标签传播算法对特征进行分类,解决了只有极少量标签(例如1张,5张或者10张)即小样本情况下的医学图像分类问题,在BreakHis数据集上取得了比传统机器学习算法更好的效果,并且接近于全监督学习方法。  相似文献   

3.
针对训练深度模型时样本标注成本较大的问题,文中提出结合源域差异性与目标域不确定性的深度迁移主动学习方法.以源任务网络模型作为目标任务初始模型,在主动学习迭代中结合源域差异性和目标域不确定性挑选对模型最具有贡献的目标域样本进行标注,根据学习阶段动态调整两种评价指标的权重.定义信息榨取比概念,提出基于信息榨取比的主动学习批次训练策略及T&N训练策略.两个跨数据集迁移实验表明,文中方法在取得良好性能的同时可有效降低标注成本,提出的主动学习训练策略可优化计算资源在主动学习过程中的分配,即让方法在初始学习阶段对样本学习更多次数,在终末学习阶段对样本学习较少次数.  相似文献   

4.
针对有监督排序学习所需训练集的大量标注数据不易获得的情况,引入基于图的标签传播半监督学习。利用有限的已标记数据和大量未标记数据来完成训练数据的自动标注工作,解决大量训练数据集标注工作耗时耗力的难题。首先以训练数据为节点建立εNN图模型实现标签传播算法进行训练数据的自动标注,再基于得到的训练集使用Ranking SVM实现排序学习,在OHSUMED数据集上衡量该方法在MAP和NDCG@n评价准则下的性能。实验结果表明,该方法的性能优于普通pointwise排序学习方法,略低于普通pairwise排序学习方法,能够在达到可用性要求的前提下节省接近60%的训练集标注工作量。  相似文献   

5.
如今生活中,图像资源无处不在,海量的图像让人应接不暇。如何快速有效地对这些图像信息进行查询、检索和组织,成为了当前亟需解决的热门问题。而图像自动标注是解决基于文本的图像检索的关键。文中提出的这套基于深度学习模型中的卷积神经网络模型的多标签图像自动标注系统,实现了多标签损失排名函数,完成了多标签数据的训练与测试。在实验验证上,先选取CIFAR-10数据集进行算法的有效性测试,然后选取多标签图像数据集Corel 5k进行定量测试比较,结果表明,该算法的综合性能指标与现有算法相比有较大的提升。  相似文献   

6.
深层神经网络在文档摘要方面取得了很好的效果,其优势只有在大数据集下才能显示出来。为了解决在使用深度学习做柬语单文档抽取式摘要时语料标注不足的问题,提出一种将主动学习和深度学习相结合的方法。利用主动学习抽样策略选择出定量的文档,通过专家标注,结合深度学习中编码器解码器模型进行训练模型抽取得到摘要。实验结果表明,在训练语料显著标注不足的情况下,该方法能够有效地提升柬语单文档摘要的质量。  相似文献   

7.
深度学习中多模态模型的训练通常需要大量高质量不同类型的标注数据,如图像、文本、音频等. 然而,获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题,主动学习作为一种有效的学习范式被广泛应用,能够通过有针对性地选择最有信息价值的样本进行标注,从而降低标注成本并提高模型性能. 现有的主动学习方法往往面临着低效的数据扫描和数据位置调整问题,当索引需要进行大范围的更新时,会带来巨大的维护代价. 为解决这些问题,本文提出了一种面向多模态模型训练的高效样本检索技术So-CBI. 该方法通过感知模型训练类间边界点,精确评估样本对模型的价值;并设计了半有序的高效样本索引,通过结合数据排序信息和部分有序性,降低了索引维护代价和时间开销. 在多组多模态数据集上通过与传统主动学习训练方法实验对比,验证了So-CBI方法在主动学习下的训练样本检索问题上的有效性.  相似文献   

8.
基于主动学习和半监督学习的多类图像分类   总被引:5,自引:0,他引:5  
陈荣  曹永锋  孙洪 《自动化学报》2011,37(8):954-962
多数图像分类算法需要大量的训练样本对分类器模型进行训练.在实际应用中, 对大量样本进行标注非常枯燥、耗时.对于一些特殊图像,如合成孔径雷达 (Synthetic aperture radar, SAR)图像, 对其内容判读非常困难,因此能够获得的标注样本数量非常有限. 本文将基于最优标号和次优标号(Best vs second-best, BvSB)的主动学习和带约束条件的自学习(Constrained self-training, CST) 引入到基于支持向量机(Support vector machine, SVM)分类器的图像分类算法中,提出了一种新的图像分类方法.通过BvSB 主动学习去挖掘那些对当前分类器模型最有价值的样本进行人工标注,并借助CST半 监督学习进一步利用样本集中大量的未标注样本,使得在花费较小标注代价情况下, 能够获得良好的分类性能.将新方法与随机样本选择、基于熵的不确定性采样主动学 习算法以及BvSB主动学习方法进行了性能比较.对3个光学图像集及1个SAR图像集分类 问题的实验结果显示,新方法能够有效地减少分类器训练时所需的人工标注样本的数 量,并获得较高的准确率和较好的鲁棒性.  相似文献   

9.
机器视觉应用中的图像数据增广综述   总被引:1,自引:0,他引:1  
深度学习是目前机器视觉的前沿解决方案,而海量高质量的训练数据集是深度学习解决机器视觉问题的基本保障.收集和准确标注图像数据集是一个极其费时且代价昂贵的过程.随着机器视觉的广泛应用,这个问题将会越来越突出.图像增广技术是一种有效解决深度学习在少量或者低质量训练数据中进行训练的一种技术手段,该技术不断地伴随着深度学习与机器...  相似文献   

10.
基于深度贝叶斯主动学习的高光谱图像分类   总被引:1,自引:0,他引:1       下载免费PDF全文
针对高光谱图像分类中标记样本获取费时费力,无标记数据难以得到有效利用以及主动学习与深度学习结合难等问题,结合贝叶斯深度学习与主动学习的最新进展,提出一种基于深度贝叶斯的主动学习高光谱图像分类算法。利用少量标记样本训练一个卷积神经网络模型,根据与贝叶斯方法结合的主动学习采样策略从无标记样本中选择模型分类最不确定性的样本,选取的样本经人工标记后加入到训练集重新训练模型,减小模型不确定性,提高模型分类精度。通过PaviaU高光谱图像分类的实验结果表明,在少量的标记样本下,提出的方法比传统的方法分类效果更好。  相似文献   

11.
Multi-label learning is an effective framework for learning with objects that have multiple semantic labels, and has been successfully applied into many real-world tasks. In contrast with traditional single-label learning, the cost of labeling a multi-label example is rather high, thus it becomes an important task to train an effectivemulti-label learning model with as few labeled examples as possible. Active learning, which actively selects the most valuable data to query their labels, is the most important approach to reduce labeling cost. In this paper, we propose a novel approach MADM for batch mode multi-label active learning. On one hand, MADM exploits representativeness and diversity in both the feature and label space by matching the distribution between labeled and unlabeled data. On the other hand, it tends to query predicted positive instances, which are expected to be more informative than negative ones. Experiments on benchmark datasets demonstrate that the proposed approach can reduce the labeling cost significantly.  相似文献   

12.
李延超  肖甫  陈志  李博 《软件学报》2020,31(12):3808-3822
主动学习从大量无标记样本中挑选样本交给专家标记.现有的批抽样主动学习算法主要受3个限制:(1)一些主动学习方法基于单选择准则或对数据、模型设定假设,这类方法很难找到既有不确定性又有代表性的未标记样本;(2)现有批抽样主动学习方法的性能很大程度上依赖于样本之间相似性度量的准确性,例如预定义函数或差异性衡量;(3)噪声标签问题一直影响批抽样主动学习算法的性能.提出一种基于深度学习批抽样的主动学习方法.通过深度神经网络生成标记和未标记样本的学习表示和采用标签循环模式,使得标记样本与未标记样本建立联系,再回到相同标签的标记样本.这样同时考虑了样本的不确定性和代表性,并且算法对噪声标签具有鲁棒性.在提出的批抽样主动学习方法中,算法使用的子模块函数确保选择的样本集合具有多样性.此外,自适应参数的优化,使得主动学习算法可以自动平衡样本的不确定性和代表性.将提出的主动学习方法应用到半监督分类和半监督聚类中,实验结果表明,所提出的主动学习方法的性能优于现有的一些先进的方法.  相似文献   

13.
组织病理学是临床上肿瘤诊断的金标准,直接关系到治疗的开展与预后的评估。来自临床的需求为组织病理诊断提出了质量与效率两个方面的挑战。组织病理诊断涉及大量繁重的病理切片判读任务,高度依赖医生的经验,但病理医生的培养周期长,人才储备缺口巨大,病理科室普遍超负荷工作。近年来出现的基于深度学习的组织病理辅助诊断方法可以帮助医生提高诊断工作的精度与速度,缓解病理诊断资源不足的问题,引起了研究人员的广泛关注。本文初步综述深度学习方法在组织病理学中的相关研究工作。介绍了组织病理诊断的医学背景,整理了组织病理学领域的主要数据集,重点介绍倍受关注的乳腺癌、淋巴结转移癌、结肠癌的病理数据及其分析任务。本文归纳了数据的存储与处理、模型的设计与优化以及小样本与弱标注学习这3项需要解决的技术问题。围绕这些问题,本文介绍了包括数据存储、数据预处理、分类模型、分割模型、迁移学习和多示例学习等相关研究工作。最后总结了面向组织病理学诊断的深度学习方法研究现状,并指出当下研究工作可能的改进方向。  相似文献   

14.
This paper proposes an integrated detection framework of solder joint defects in the context of Automatic Optical Inspection (AOI) of Printed Circuit Boards (PCBs). Both localization and classifications tasks were considered. For the localization part, in contrast to the existing methods that are highly specified for particular PCBs, we used a generic deep learning method which can be easily ported to different configurations of PCBs and soldering technologies and also gives real-time speed and high accuracy. For the classification part, an active learning method was proposed to reduce the labeling workload when a large labeled training database is not easily available because it requires domain-specified knowledge. The experiments show that the localization method is fast and accurate. In addition, high accuracy with only minimal user input was achieved in the classification framework on two different datasets. The results also demonstrated that our method outperforms three other active learning benchmarks.  相似文献   

15.
张雁  吴保国  吕丹桔  林英 《计算机工程》2014,(6):215-218,229
半监督学习和主动学习都是利用未标记数据,在少量标记数据代价下同时提高监督学习识别性能的有效方法。为此,结合主动学习方法与半监督学习的Tri-training算法,提出一种新的分类算法,通过熵优先采样算法选择主动学习的样本。针对UCI数据集和遥感数据,在不同标记训练样本比例下进行实验,结果表明,该算法在标记样本数较少的情况下能取得较好的效果。将主动学习与Tri-training算法相结合,是提高分类性能和泛化性的有效途径。  相似文献   

16.
In multi-label learning,it is rather expensive to label instances since they are simultaneously associated with multiple labels.Therefore,active learning,which reduces the labeling cost by actively querying the labels of the most valuable data,becomes particularly important for multi-label learning.A good multi-label active learning algorithm usually consists of two crucial elements:a reasonable criterion to evaluate the gain of querying the label for an instance,and an effective classification model,based on whose prediction the criterion can be accurately computed.In this paper,we first introduce an effective multi-label classification model by combining label ranking with threshold learning,which is incrementally trained to avoid retraining from scratch after every query.Based on this model,we then propose to exploit both uncertainty and diversity in the instance space as well as the label space,and actively query the instance-label pairs which can improve the classification model most.Extensive experiments on 20 datasets demonstrate the superiority of the proposed approach to state-of-the-art methods.  相似文献   

17.
基于PRank算法的主动排序学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
王扬  黄亚楼  刘杰  李栋  蒯宇豪 《计算机工程》2008,34(21):38-39,4
针对排序学习中如何选择最值得标注的样本和通过尽可能少的已标注样本训练出较好的排序模型的问题,将主动学习的思想引入排序学习中,提出一种基于排序感知机的主动排序学习算法——Active PRank。基于真实数据集的实验结果表明,该算法在保证排序模型性能的前提下,减少样本的标注量,在同等标注量的条件下,提高排序结果的正确率。  相似文献   

18.
Object detection (OD) is used for visual quality control in factories. Images that compose training datasets are often collected directly from the production line and labeled with bounding boxes manually. Such data represent well the inference context but might lack diversity, implying a risk of overfitting. To address this issue, we propose a dataset construction method based on an automated pipeline, which receives a CAD model of an object and returns a set of realistic synthetic labeled images (code publicly available). Our approach can be easily used by non-expert users and is relevant for industrial applications, where CAD models are widely available. We performed experiments to compare the use of datasets obtained by the two different ways—collecting and labeling real images or applying the proposed automated pipeline—in the classification of five different industrial parts. To ensure that both approaches can be used without deep learning expertise, all training parameters were kept fixed during these experiments. In our results, both methods were successful for some objects but failed for others. However, we have shown that the combined use of real and synthetic images led to better results. This finding has the potential to make industrial OD models more robust to poor data collection and labeling errors, without increasing the difficulty of the training process.  相似文献   

19.
针对传统基于主动学习的支持向量机(support vector machine,SVM)方法中所采用的欧式距离不能有效衡量高维样本之间的相关程度,导致学习器泛化能力下降的问题,提出了一种基于向量余弦的支持向量机主动学习(SVM active learning based on vector cosine)策略,称为COS_SVMactive方法。该方法通过在主动学习过程中引入向量余弦来度量训练集中样本信息的冗余度,以挑选那些含有重要分类信息的最有价值样本交给专家进行人工标注,并在迭代的样本标注过程中对训练集的平衡度进行逐步调整,使学习器获得更好的泛化性能。实验结果表明,与传统基于随机采样的SVM主动学习方法(SVM active learning based on ran-dom sampling,RS_SVMactive)和基于距离的SVM主动学习方法(SVM active learning based on distance, DIS_SVMactive)相比,COS_SVMactive方法不仅可以提高分类精度,而且能够减少专家标记代价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号