首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于全监督学习的文本分类算法需要使用大量的标签数据,而文本数据的标注任务耗时耗力且标注难度较大。针对上述问题,提出了一种基于LOTClass模型的弱监督中文短文本分类算法。首先,使用少量的标签数据构建类别种子词表;其次,使用类别种子词表指导训练中文伪标签生成模型,并使用该模型生成大量伪标签数据;最后,利用优质伪标签数据训练一个中文短文本分类模型。在THUCNews新闻标题数据集和论文标题数据集上进行实验,结果表明,该算法在仅使用少量标签数据的情况下,其性能优于主流的半监督分类算法,同时不逊于一般的全监督分类算法,为无标签数据分类任务提供了一种较好的解决方案。  相似文献   

2.
针对无标签高维图像分类问题,常用的深度网络在无标签的情况下难以产生好的分类结果。为此,提出一种面向特征生成的无监督域适应模型(Feature-GAN),它以一种无监督的方式在特征层面学习从一个域到另一个域转换,将源域图像特征映射为目标域图像特征并保持标签信息,生成的带标签特征可用于目标域特征的分类训练。该模型在复杂图像域适应上避免了图像本身的生成过程,而专注于特征生成,易训练且稳定性高。实验表明,该方法可以广泛应用于复杂图像分类的场景,相比于传统基于样本生成的无监督域适应算法,该算法在精确度、收敛速度以及稳定性上均有提高。  相似文献   

3.
由于图像类别标签的弱监督目标定位方法存在定位区域仅覆盖目标最具有显著性类别信息部位的问题,同时,区域的类别信息响应受到关键权重的影响,且关键权重的不均衡导致了定位区域响应的稀疏性,因此,提出一种基于区域权重平滑的弱监督目标定位方法.文章设计了自适应标准差正则项,以缩小关键权重差异,从而在保留网络分类能力的同时平滑定位区...  相似文献   

4.
针对在目标应用场景中缺乏大量有标定训练数据的情况下难以获得有效的深度学习分类模型的问题,结合领域分布差异的方法与对抗学习方法的优势,提出以显式特征对齐与隐式领域对抗及类别对齐为基础的领域自适应框架.对于显式特征对齐模块,考虑到领域知识差异大带来的优化难题,采用渐进式协同优化策略,通过逐层减小不同语义层之间的领域差异,提升领域自适应性能.对于隐式类别对齐模块,为了增强目标特征的判别性,使用自训练方法获得伪标签,克服伪标签存在的标签噪声问题,并通过学习混淆矩阵优化伪标签的准确率,自动构造新的目标领域损失函数,从而在减小领域间差异的同时,提升源领域与目标领域相同类别的特征分布对齐的准确性.基于Office-31数据集的6个跨领域分类任务与基于Office-Home数据集的12组跨领域分类任务的实验结果表明,该方法在迁移学习任务上的平均分类准确率相较于基准方法分别提升11.9%和19.9%,所提出网络对于领域自适应任务是有效的.  相似文献   

5.
深度神经网络在目标检测任务上需要训练大量的标签数据,然而在许多实际应用场景中标签数据难以获取。针对这一问题,提出了一种面向小样本目标检测的多阶段特征重分布算法(MSFR)。该算法通过对特征向量进行重分布变换,解决了小样本任务下源域数据和目标域数据分布不一致的问题;通过多阶段学习策略将源域知识逐步迁移到小样本目标任务中,进一步提高知识迁移效率。在VOC数据集上的大量实验表明,与现有小样本目标检测算法相比,该算法在不同任务上的精度最高提升了9.06%。该算法在大幅提高小样本目标域类别检测性能的同时,较大限度地保持了对源域类别的检测精度,具有较大的实用价值。  相似文献   

6.
针对高光谱数据波段多,地物标签获取代价高,带标记的样本数量少,分类过程中容易引起Hudges现象。本文提出一种基于改进的局部全局一致性(learning with local and global consistency,LLGC)算法的半监督分类方法。通过边缘采样法(margin sampling,MS)选取最富含信息量的无标签样本,加入到训练集来扩充训练样本;用KNN算法计算相似度进一步优选无标签样本,去除噪声点和存在的野值点;使用改进的局部全局一致性算法对无标签样本集进行分类标记,得到各类别的分类结果。实验结果表明,本文方法在充分利用无标签样本的情况下,有效地提高了带有少量标签样本的高光谱图像的分类精度。  相似文献   

7.
在传统模式识别的训练方法中,拥有大量标签的有监督学习方法在识别准确率上取得了很好的效果.然而在实际生活中样本常常缺失标签,或现存有标签的样本与目标样本具有较大分布差异而不能直接使用.为了解决这些问题,无监督域自适应算法应运而生,借助源域有标签但不同分布的样本去识别无标签的目的域样本.针对目标识别样本与训练样本分布不一致的情况,本文提出了一种探寻两个样本域之间的最优表示学习的无监督域适应算法.通过在共同的子空间上引入两个表示矩阵去更好地减少两个域的分布差异,同时对两个表示矩阵进行各自的最优化约束设计,使得源域和目的域最优地相互表示,缩小两个域之间的分布差异,从而实现无监督跨域学习(即迁移学习).最后在3个迁移学习常见的无监督域适应数据集上开展实验,实验结果表明:本文算法的识别准确率超过了目前很多优秀的传统迁移学习方法和一些深度方法.实验结果验证了本文提出的无监督域适应的表示学习算法的有效性和鲁棒性.  相似文献   

8.
针对现实中由于训练集与测试集分布不同而导致分类准确率较低的问题,提出基于判别性样本选择的无监督领域自适应方法(简称DSS算法)。为了减少源域和目标域的分布差异,将2个领域样本投影到同一子空间中,并对源域中的样本进行加权,使样本更具有判别性;不同于以往基于样本的概率密度估计方法,通过求解一个二次规划问题得到样本权重,避免了对样本分布进行估计,适用于任何领域且不会受到高维密度估计所造成的维数困扰;最后通过最小化类内距离来实现同类聚集。实验结果表明,该方法提高了数据集的分类准确率且具有较好的鲁棒性。  相似文献   

9.
针对现有多标签学习算法较少兼顾标签间关联性和不平衡性的问题,提出一种同时考虑多标签间相关性与多标签不平衡问题的学习模型(A Multi-label Learning Model based on Label Correlation and Imbalance,MLCI).该学习模型针对每个标签类别,通过耦合其他标签类别以考量标签间的关联性,并降低缓解标签间不均衡比率,MLCI是一个将当前标签的二类不平衡学习器和多个与其他标签耦合的多类不平衡学习器结合的集成分类器.采用7种常用的多标签算法作为对比算法,针对yeast、scene、emotions和CAL500这4个开放数据集进行分类处理.实验结果表明,MLCI相比其他对比算法,在精度均值(Average-Precision)、排序损失(Ranking-Loss)、宏观平均AUC(Macro-Averaging AUC)和微观平均AUC(Micro-Averaging AUC) 4个性能评估指标上总体占明显优势.  相似文献   

10.
高光谱数据维数高,有标签的样本数量少,给高光谱图像分类带来困难。本文针对传统三重训练(tri-training)算法在初始有标签样本数量较少的情况下分类器间差异性不足的问题提出了一种基于改进三重训练算法的半监督分类框架。该方法首先通过边缘采样策略(margin Sampling,MS)选取最富含信息量的无标签样本,然后在训练每个分类器之前通过差分进化算法(differential evolution,DE)利用所选取的无标签样本产生新的样本。这些新产生的样本将被标记并且加入训练样本集来帮助初始化分类器。实验结果表明,该方法不仅能够有效地利用无标签样本,而且在有标签数据很少的情况下能够有效地提高分类精度。  相似文献   

11.
为保证交通检测数据的准确性并服务于实时的交通状态判别和预测,交通大数据采用多种检测源数据协同处理并利用机器学习的方法进行异常识别.异常检测数据的识别主要基于机器学习中AdaBoost方法实现.在算法的训练过程中,为消除单一检测源数据的离群现象,训练数据选取同一路段上多种检测源提供的数据集.在算法的决策过程中,通过代价敏感方法的优势来改进AdaBoost的决策.实验结果表明:基于非均衡特性改进的AdaBoost模型迫使分类器更加关注了待识别的异常样本,增强了AdaBoost决策过程中训练决策树规则的代表性,提高了异常类样本的分类准确率.高速公路实例检测数据集验证了改进算法与相关经典算法的检测准确度、误检率、误警率等指标,其中改进模型与原模型相比,准确率提高了5.547%,误检率减低了6.792%.多种算法的ROC曲线对比表明改进的AdaBoost方法筛选交通检测样本的可靠度更高,可有效调整由非平衡数据导致的分类误差.  相似文献   

12.
为了提高垃圾分类过程中前端收集的工作效率,基于机器视觉技术设计垃圾自动分类系统. 设计制作垃圾分类的硬件设备,主要包括可回收和不可回收2个箱体;针对垃圾数据集较少的问题,提出基于Inception v3网络特征提取模型和迁移学习相结合的垃圾种类识别方法,在自建的垃圾数据集上进行训练和测试. 结果显示,利用该方法可以准确地对垃圾种类进行识别,平均准确率达到0.99;将训练好的模型部署在树莓派3B+上,在制作的实物垃圾桶上进行测试,系统稳定后,平均完成一次分类回收的时间为0.95 s. 实验表明,该系统能够有效地进行垃圾种类的识别和完成垃圾的分类回收.  相似文献   

13.
针对现阶段数据和特征决定睡眠分期模型的分类精度上限的问题,提出深度卷积神经网络模型. 在模型主体构建方面,并行卷积网络可以自动学习原始信号的时域特征和频域特征,特征融合网络通过空洞卷积和残差连接进行多特征融合,分类网络基于融合后的特征进行睡眠分期. 利用生成少数类过采样技术(SMOTE)减少类别不平衡对分类效果的影响,结合两步训练法对模型进行优化. 实验使用Sleep-EDF数据集的原始单导脑电信号(Fpz-Cz通道)对模型进行20折交叉验证,得到总体精度和宏F1分别为86.73%和81.70%. 提出的深度卷积模型在没有任何先验知识的情况下,对脑电信号进行端到端的学习,分类准确率优于传统的深度学习模型.  相似文献   

14.
针对传统数据学习型方法需要大量故障历史实测数据的缺点,提出一种基于数据样本自举的电力变压器状态评估方法.通过对变压器的故障样本数据进行自举扩充,克服了工程中某类样本数据较少的问题,提高了学习型分类器的训练量,从而提高其预测分类的精度.并基于支持向量机分类方法进行变压器故障分类评估,显著提升了评估精度.  相似文献   

15.
为了使机器人通过触觉感知外部环境信息,弥补视听交互信息缺失的不足,根据聚偏氟乙烯(PVDF)材料的压电效应设计开发基于触觉传感器和卷积神经网络的机器人触觉识别系统,能够根据所采集的触觉信号识别出材质类型. 提出基于渐进式级联卷积神经网络的触觉识别算法. 该算法基于卷积神经网络提取机器人传感器的信号特征,包括经过短时傅里叶变换的触觉数据频谱图和信号表征周期内的时域特征. 为了解决特定材质识别混淆的问题,利用K-Medoids聚类算法和动态时间规整(DTW)距离度量算法将分类过程区分为粗、细2个层次,构建渐进式分类模型. 实验表明,设计的触觉传感器对物体材质的平均识别正确率约为97%,机器人能够成功识别触摸到的真实材质,为下一步的探索交互任务奠定基础.  相似文献   

16.
针对文本分类问题,提出新的基于知识增强的图卷积神经网络(KEGCN)分类模型. KEGCN模型在整个文本集上构建了一个包含单词节点、文档节点、外部实体节点的文本图,不同类型节点之间使用不同的相似性计算方法;在文本图构建完成后将其输入到2层图卷积网络中学习节点的表示并进行分类. KEGCN模型引入外部知识进行构图,捕获长距离不连续的全局语义信息,是第1个将知识信息引入图卷积网络进行分类任务的工作. 在4个大规模真实数据集20NG、OHSUMED、R52、R8上进行文本分类实验,结果表明,KEGCN模型的分类准确率优于所有的基线模型. 将知识信息融入图卷积神经网络有利于学习到更精准的文本表示,提高文本分类的准确率.  相似文献   

17.
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。  相似文献   

18.
基于支持向量机和决策树的多分类方法存在错误累积问题,累积的错误往往使分类准确率下降,分类效果变差.在仔细分析了其产生错误累积原因的基础上,提出了基于哈夫曼树的支持向量机多分类方法.该方法首先将一个多分类问题分解为多个二分类问题,针对每个二分类问题使用支持向量机二分类方法解决;然后根据相异度来决策分类的优先顺序,构建基于哈夫曼树的支持向量机多分类模型;最后使用勒卡斯开源数据集进行验证,并将它与传统的支持向量机多分类方法进行实验比较.实验结果表明,新的方法在分类速度和分类精度上较传统的支持向量机多分类方法优越.  相似文献   

19.
韩思旭    陈卫营      薛国强        雷康信      宋婉婷     《延边大学学报(自然科学版)》2021,(6):1057-1068
在传统的地面频率域可控源电磁法(FCSEM)勘探中,通常针对单一发射源装置下的观测数据进行反演计算。因此,探索地面频率域可控源电磁法的多源联合反演方法很有必要。首先,利用一维自适应正则化反演(ARIA)算法实现了多源数据的联合反演; 然后,基于三层模型分析了不同源组合和不同数量源组合对联合反演效果的影响; 最后,评估了该联合反演方法应用于复杂模型的效果。结果表明:相较于单源反演,多源联合反演可以明显提高反演结果的精度,使获得的地电参数更加接近真实值; 随着参与反演源数量的增加,反演效果会得到进一步的改善; 在不同源组合方式中,除了赤道向源组合对高阻目标体不敏感外,其他形式的源组合都可以实现对高、低阻目标体的灵敏反映。上述研究可为建立合理的多源频率域可控源电磁法观测技术和实际数据处理提供指导。  相似文献   

20.
基于人工蜂群和SVM的基因表达数据分类   总被引:1,自引:1,他引:0  
基因表达数据存在高维、小样本、高噪声等特性,使得相应的肿瘤分类诊断面临着一定的挑战。为了实现更加精确的分类准确率,利用人工蜂群(artificial bee colony, ABC)算法对支持向量机(support vector machine, SVM)的核函数参数和惩罚因子进行优化,采用准确率作为分类模型的适应度函数,提出一种基于ABC和SVM的基因表达数据分类方法ABC-SVM。在6种公开的肿瘤基因表达数据集上进行试验,并对比分析其他的分类方法。结果表明,在筛选得到的较少信息基因基础上,ABC-SVM可获得更高的肿瘤分类准确率,对肿瘤样本类型进行更有效的分类预测。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号