首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
深度学习已在众多领域如图像分类中取得突破性发展,其成功依赖大量标注数据。然而很多领域中数据标注代价昂贵。主动学习主要是通过合适的查询策略选择信息量大的未标注数据交由专家或者工作人员进行标记,试图以尽可能少的高质量标注数据训练高性能的模型。从不同角度详细地对基于预设计策略和基于学习损失的主动学习方法的研究现状进行了分析和比较,最后对现有的主动学习进行了总结和进一步指出了一些值得研究的方向。  相似文献   

2.
凌广明  徐爱萍  王伟 《电子学报》2000,48(11):2081-2091
文本序列的自动标注能够解决深度学习普遍面临的人工标注成本过高的问题.本文针对地址信息的实体表述特征,构建基于实体边界矩阵(Entity Boundary Matrix,EBM)的表示模型,在此基础上提出了一种基于深度学习和KNN标签修正算法(K-Nearest Neighbours Correction Algorithm,KNN-CA)的不需要任何人工标注训练集的自动标注算法.首先获取预置小区数据集并构建离线特征库和初始化在线特征库;接着通过匹配算法求解EBM并利用KNN-CA进行优化,再通过数据增广得到自动标注的训练集;然后训练BiLSTM-CRF深度学习模型并预测所有未曾标注的地址信息的序列标注;最后再次利用KNN-CA优化可求解EBM的序列标注,由此构建适用于中文地理命名实体(Chinese Geospatial Named Entities,CGSNE)识别及相关研究的序列标注语料库.实验表明,标注数据的F1值达到了95.35%.  相似文献   

3.
舌色是中医(TCM)望诊最关注的诊察特征之一。在实际应用中,通过一台设备采集到的舌象数据训练得到的舌色分类模型应用于另一台设备时,由于舌象数据分布特性不一致,分类性能往往急剧下降。为此,该文提出一种基于双阶段元学习的小样本中医舌色域自适应分类方法。首先,设计了一种双阶段元学习训练策略,从源域有标注样本中提取域不变特征,并利用目标域的少量有标注数据对网络模型进行微调,使得模型可以快速适应目标域的新样本特性,提高舌色分类模型的泛化能力并克服过拟合。接下来,提出了一种渐进高质量伪标签生成方法,利用训练好的模型对目标域的未标注样本进行预测,从中挑选出置信度高的预测结果作为伪标签,逐步生成高质量的伪标签。最后,利用这些高质量的伪标签,结合目标域的有标注数据对模型进行训练,得到舌色分类模型。考虑到伪标签中含有噪声问题,采用了对比正则化函数,可以有效抑制噪声样本在训练过程中产生的负面影响,提升目标域舌色分类准确率。在两个自建中医舌色分类数据集上的实验结果表明,在目标域仅提供20张有标注样本的情况下,舌色分类准确率达到了91.3%,与目标域有监督的分类性能仅差2.05%。  相似文献   

4.
本文研究天波雷达基于距离?多普勒(Range?Doppler, RD)图像的干扰检测问题。在干扰检测过程中,错误检测可能是干扰的漏检与虚警问题,为此考虑采用主动学习方法,将算法模型难以判决的样本由专家标注,并将标注样本加入至训练集中以达到提升检测性能的目的。同时,也需要解决训练集样本的冗余问题,为此使用原型数据学习方法,建立有干扰和无干扰样本数据云,有效地降低训练集样本量。实测数据实验表明,原型方法将初始训练集样本数量降低至23.5%,主动学习方法取得的检测准确率为97.42%,而传统监督学习最近邻方法准确率为87.96%。因此,本文方法能够有效提升天波雷达干扰检测能力,为天波雷达是否需要进行干扰处理与换频检测等工作提供可靠依据。  相似文献   

5.
采用深度学习对钢铁材料显微组织图像分类,需要大量带标注信息的训练集.针对训练集人工标注效率低下问题,该文提出一种新的融合自组织增量神经网络和图卷积神经网络的半监督学习方法.首先,采用迁移学习获取图像数据样本的特征向量集合;其次,通过引入连接权重策略的自组织增量神经网络(WSOINN)对特征数据进行学习,获得其拓扑图结构,并引入胜利次数进行少量人工节点标注;然后,搭建图卷积网络(GCN)挖掘图中节点的潜在联系,利用Dropout手段提高网络的泛化能力,对剩余节点进行自动标注进而获得所有金相图的分类结果.针对从某国家重点实验室收集到的金相图数据,比较了在不同人工标注比例下的自动分类精度,结果表明:在图片标注量仅为传统模型12%时,新模型的分类准确度可达到91%.  相似文献   

6.
针对委员会成员模型投票不一致性的度量问题,提出了一种基于最小差异采样的主动学习图像分类方法。该方法首先基于标注样本集的重采样结果构建决策委员会,然后利用投票概率较高的2个类别的概率值的差异来度量未标注样本集每个样本的投票不一致性,选择概率差异最小的样本交由人工专家标注,如此迭代更新分类器。将新方法与EQB算法及nEQB算法在多个数据集上进行实验对比,实验结果表明所提方法能够有效提高分类的准确率。还对组成决策委员会的成员模型的数目设置进行了分析和讨论,结果表明在相同的成员模型数目时所提方法比nEQB算法更为有效。  相似文献   

7.
人脸美丽预测是研究如何让计算机判断人脸美丽的前沿课题,随着深度学习的不断进展,已经取得了一定效果。然而,基于深度学习的人脸美丽预测需要大量的训练数据和昂贵的人脸美丽标注。因此,如何在少样本条件下取得较好效果,仍有待深入研究。自监督学习可在上游任务中利用无标注数据来学习较好的特征,从而能在下游任务中降低对标注数据的依赖。为此,本文将自监督学习应用于人脸美丽预测,采用批次内对象识别和多视图特征聚类。其中,批次内对象识别通过给每批次不同样本分配独立的伪标签来学习特征,使得网络有区分每个样本对象的能力。多视图特征聚类首先将人脸图像进行多次数据增强;再经过编码器,得到人脸属性特征;最后通过自监督约束使人脸属性特征聚合在一起。基于大规模亚洲人脸美丽数据库(Large Scale Asia Facial Beauty Database, LSAFBD)和SCUT-FBP5500数据库的实验结果表明,本文所提方法降低了模型对有标注数据的依赖,提高了预测准确率,在少样本条件下优于以Resnet18为基线的有监督学习方法,准确率高于常规自监督学习方法,可广泛应用于目标检测和图像分类等领域。  相似文献   

8.
深度学习中的自然语言处理受到研究者广泛关注,但有时大量数据利用机器标注会影响处理效果,采用人工标注又会消耗大量的时间。通过主动学习可以降低数据标注的成本,但是主动学习会面临着倾向于选择长序列,这样的操作通常就会增加注释者的注释负担。传统的主动学习查询策略需要在模型中进行修改并生成一些额外的样本选择信息,这会增加开发者的工作量增加模型的训练时间。基于此,提出了基于CRF的命名实体识别的主动学习策略(lowest token probability,LTP),结合CRF的输入和输出来选择信息实例,通过结合全局信息和局部信息去寻找最有可能的序列分配,基于LTP的主动学习策略能够更有效地去处理短序列语料文本。最后针对网络舆情热点事件,运用模型比较基于LTP策略和传统主动学习策略的效果,实验表明基于 LTP 的主动学习策略,它的性能是好于传统的主动学习策略。  相似文献   

9.
采用深度学习对钢铁材料显微组织图像分类,需要大量带标注信息的训练集。针对训练集人工标注效率低下问题,该文提出一种新的融合自组织增量神经网络和图卷积神经网络的半监督学习方法。首先,采用迁移学习获取图像数据样本的特征向量集合;其次,通过引入连接权重策略的自组织增量神经网络(WSOINN)对特征数据进行学习,获得其拓扑图结构,并引入胜利次数进行少量人工节点标注;然后,搭建图卷积网络(GCN)挖掘图中节点的潜在联系,利用Dropout手段提高网络的泛化能力,对剩余节点进行自动标注进而获得所有金相图的分类结果。针对从某国家重点实验室收集到的金相图数据,比较了在不同人工标注比例下的自动分类精度,结果表明:在图片标注量仅为传统模型12%时,新模型的分类准确度可达到91%。  相似文献   

10.
基于锚点的字符级甲骨图像自动标注算法研究   总被引:1,自引:0,他引:1  
甲骨文是中国最早的系统文字,是目前能见到的最早的成熟汉字.甲骨文的研究对历史探究和文化传承具有重要的意义.但是要实现字符级别的甲骨字符图像标注,在现有技术环境下,只能通过资深甲骨学专家进行人工标注,不仅耗费人力资源,而且效率低下.针对这一问题,在前期工作中的甲骨字符图像识别模型的基础上,本文提出了一种甲骨字符图像自动标注算法.该算法通过先分列后切割的思想,先将甲骨拓片上的每一个字符图像归结到某一个特定列,再以锚点甲骨字为参考点,根据空间近邻关系找到甲骨原文中的字所对应的甲骨字符图像,从而实现了甲骨字符图像的自动标注.同时,将标注好的甲骨字符图像添加到样本数据集,并利用增广后的数据集(增加6~10倍)重新训练甲骨字符图像识别模型,有利于提高基于深度学习的甲骨文识别算法的识别准确度;以较小的成本大幅增加样本数量,也可以节约专家大量的时间和人力.  相似文献   

11.
针对不同教学场景图像的数据分布差异较大造成的跨域偏移问题以及实际情况中可用样本量较少导致训练的模型参数准确度较低问题,提出了建立一种基于元学习的智能教室检测系统。通过双阶段训练模型并引入域优化适应器,实现小样本情形下对不同教学场景的快速适应。准备阶段,通过改进快速姿态蒸馏型结合MAML算法,对元模型以及域适应优化器进行训练;在线阶段,通过导入少量有标签的样本数据,通过YOLO v3算法,元模型就可以在域适应优化器的引导下实现不同场景分布的快速适应,然后对所提取的关键点进行坐标计算进行姿态判别以及专注度检测,解决了小样本条件下的不同教室场景的姿态检测以及专注度检测,最后在Coco数据集进行验证发现姿态检测准确率达到80%,符合实际应用条件。  相似文献   

12.
李维鹏  杨小冈  李传祥  卢瑞涛  黄攀 《红外与激光工程》2021,50(3):20200511-1-20200511-8
针对红外数据集规模小,标记样本少的特点,提出了一种红外目标检测网络的半监督迁移学习方法,主要用于提高目标检测网络在小样本红外数据集上的训练效率和泛化能力,提高深度学习模型在训练样本较少的红外目标检测等场景当中的适应性。文中首先阐述了在标注样本较少时无标注样本对提高模型泛化能力、抑制过拟合方面的作用。然后提出了红外目标检测网络的半监督迁移学习流程:在大量的RGB图像数据集中训练预训练模型,后使用少量的有标注红外图像和无标注红外图像对网络进行半监督学习调优。另外,文中提出了一种特征相似度加权的伪监督损失函数,使用同一批次样本的预测结果相互作为标注,以充分利用无标注图像内相似目标的特征分布信息;为降低半监督训练的计算量,在伪监督损失函数的计算中,各目标仅将其特征向量邻域范围内的预测目标作为伪标注。实验结果表明,文中方法所训练的目标检测网络的测试准确率高于监督迁移学习所获得的网络,其在Faster R-CNN上实现了1.1%的提升,而在YOLO-v3上实现了4.8%的显著提升,验证了所提出方法的有效性。  相似文献   

13.
少量样本下基于孪生CNN的SAR目标识别   总被引:1,自引:0,他引:1       下载免费PDF全文
针对深度学习中的有监督学习需要大量的标注数据,提出了一种少量训练样本下的SAR目标识别方法,解决了SAR图像人工标注成本较高、标注样本不足的问题。首先通过构建正负样本对的策略对数据集进行样本扩充,大幅增加数据量;其次,设计了一种基于度量学习和深度学习的孪生卷积神经网络(孪生CNN),用于衡量样本之间的相似概率;然后采用多任务联合学习的方法训练模型,有效缓解了相干斑噪声对SAR图像的影响,降低了噪声过多易引起的过拟合风险;最后,设计了一种基于孪生CNN的识别样本具体类别的加权投票模型。实验采用了MSTAR和OpenSARShip数据集,在小规模训练集上通过上述方法取得了较好的识别效果。  相似文献   

14.
基于深度学习的扣件检测需要大量人工标注的扣件图像数据集驱动,然而铁路扣件图像中负样本偏少,不均衡的数据集会使得深度学习模型的泛化能力较差,达不到检测扣件状态的效果.针对该问题,本文提出了一种基于自编码器的零样本扣件检测.首先,使用欠完备自编码器、栈式自编码器和卷积自编码器提取扣件正样本图像特征;然后,通过正样本特征向量与基向量的余弦相似度推断出负样本的分布空间;在检测时将各自编码器算法得出的结果利用多数投票法确定样本属性.实验证明,使用本文方法,在只使用正样本训练的情况下,可以有效地检测出扣件图像的负样本,准确率为95.59%,实现了零样本扣件检测.  相似文献   

15.
刘杰  杜军平 《电子学报》2014,42(5):987-991
图像语义标注是图像语义分析研究中的一个重要问题.在主题模型的基础上,本文提出一种新颖的跨媒体图像标注方法来进行图像间语义的传播.首先,对训练图像使用主题模型,抽取视觉模态和文本模态信息的潜在语义主题.然后,通过使用一个权重参数来融合两种模态信息的主题分布,从而学习到一种融合主题分布.最后,在融合主题分布的基础上训练一个标注模型来给目标图像赋予合适的语义信息.在标准的MSRC和Corel5K数据集上将提出的方法与最近著名的标注方法进行比较实验.标注性能的详细评价结果表明提出方法的有效性.  相似文献   

16.
从医疗文本中抽取知识对构建医疗辅助诊断系统等应用具有重要意义.实体识别是其中的核心步骤.现有的实体识别模型大都是基于标注数据的深度学习模型,非常依赖高质量大规模的标注数据.为了充分利用已有的医疗领域词典和预训练语言模型,本文提出了融合知识的中文医疗实体识别模型.一方面基于领域词典提取领域知识,另一方面,引入预训练语言模...  相似文献   

17.
韩萍  孙丹丹 《信号处理》2019,35(6):972-978
给出了一种特征选择与深度学习相结合的极化合成孔径雷达(polarimetric synthetic aperture radar, PolSAR)图像有监督分类算法。该算法首先根据极化SAR图像数据以及目标分解获取原始特征参数集,然后利用随机森林(Random Forest, RF)方法对特征参数集进行重要性评估,并根据特征重要性排名选择最优极化特征。以最优极,化特征为输入,通过卷积神经网络(convolutional neural network, CNN)学习多层特征信息,再利用训练好的网络模型对极化SAR图像进行分类。利用美国AIRSAR机载系统采集的实测数据进行实验,并同已有经典有监督分类算法进行比较,结果表明本文算法能够选取有效的极化特征,最终得到较为准确的分类效果。   相似文献   

18.
余游  冯林  王格格  徐其凤 《电子学报》2019,47(11):2284-2291
如何将带有大量标记数据的源域知识模型迁移至带有少量标记数据的目标域是少样本学习研究领域的热点问题.针对现有的少样本学习算法在源域数据与目标域数据的特征分布差异较大时存在的泛化能力较弱的问题,提出一种基于伪标签的半监督少样本学习模型FSLSS(Few-Shot Learning based on Semi-Supervised).首先,利用pytorch深度学习框架建立一个关系型深度学习网络,并使用源域数据对网络进行预训练;然后,使用此网络对目标域数据进行分类预测,将分类概率最大的类标签作为数据的伪标签;最后,利用目标域的伪标签数据和源域的真实标签数据对网络进行混合训练,并重复伪标签标记与混合训练过程.实验结果表明,相对于现有主流少样本学习算法,FSLSS模型有更好的泛化能力及知识迁移效果.  相似文献   

19.
基于深度学习的红外遥感信息自动提取   总被引:1,自引:0,他引:1  
陈睿敏  孙胜利 《红外》2017,38(8):37-43
为了提高红外遥感图像地物 信息自动提取的精确性,同时避免人工提取遥感 信息的低效性,提出了一种基于UNet深度学习模型 的遥感信息提取算法。该算法用于从红外遥感图像中分割 出5类地物信息(包括道路、建筑、树木、农田和水 体)。首先,对分辨率高但数量较少的训练数 据进行小像幅的随机裁剪,并对其进行相应的数据增 强处理。然后搭建UNet深度学习模型,并用它 自动提取遥感图像的特征信息。采用交叉熵损失函数 以及Adam反向传播优化算法对该模型进行训练,并对测 试样本中的5幅遥感图像进行精确的地物信息提取。最后,运 用Jaccard指数对测试结果进行精度评定。实验结果表明,该 方法对高分辨率红外遥感图像信息和可见光 遥感图像信息进行了充分融合,对于不同种类地物 的定位和分类都取得了较高精度。  相似文献   

20.
宋定宇 《激光杂志》2021,42(1):175-178
针对传统在线学习模型平均累计错误率较高的问题,提出基于三维动态激光成像技术的在线学习模型研究.分析图像数据维度,利用三维空间域当中,各像素点之间的联系,计算图像空间相关程度,采用零树结构,实现在线学习数据集训练,选取特征样本集,利用核函数,计算概率密度,获取深度信息,完成基于三维动态激光成像技术的在线学习模型的建立.设...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号