首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
针对不平衡数据集分类,现有的过采样算法更多地解决了类间不平衡问题,而未考虑少数类的类内不平衡,未筛选进行过采样的样本及未去除噪音,且合成过程中存在样本重叠及样本分布"边缘化"等问题,提出一种基于层次聚类和改进SMOTE的过采样算法AGNES-SMOTE.该算法对多数类和少数类样本分别进行层次聚类,并根据获得的多数类簇划...  相似文献   

2.
基于传感器的人类活动识别(HAR)在健康医疗领域具有重要的研究价值及研究意义。以往的关于传感器人类活动分类识别算法的研究,并没有考虑不同类别行为数据间的不平衡性。为了解决不同行为类别数据间的不平衡性影响算法精确度的问题,此算法采用下采样方法从大类和小类数据集中随机抽取选出若干组数量上相等的两种数据的集合,将多个不平衡数据变成平衡数据。其次,多个平衡数据集上训练多个弱分类器。然后,此算法以弱分类器的负相关和预测精度为代价函数,使用遗传算法挑选出能够使代价函数值最高的弱分类器来构成集成分类器。使集成算法内的弱学习器具有较高预测精度和多样性。最后,此算法使用挑选出的弱学习器构成集成学习器对人的行为进行集成分类。此算法在已有的行为数据集上进行了仿真实验研究,实验结果证明本文提出的基于遗传的负相关剪切集成不平衡行为识别算法相对于传统算法能够有效提高不平衡行为识别的正确率。  相似文献   

3.
传统过采样算法通过合成少数类样本来改善不平衡问题,但未考虑产生噪点与样本分布不均匀等问题,针对该类问题,提出了一种基于聚类与对改进SMOTE的过采样算法SK-SMOTE。该算法在聚类前,先合成一部分少数样本,以此提高少数类样本数量,同时根据合成的少数类样本的邻居样本的类别和距离赋予权重,通过权重总和是否大于设定的值来决定该样本是否可以被保留。在提高少数类样本数量后,再使用KMeans算法进行聚类,然后保留少数样本较多的簇。在簇内进行过采样,相对稀疏的簇将合成更多的少数类样本。选取UCI和KEEL数据库中的不平衡数据集,将SVM、RF、KNN作为分类算法,并选用几种经典的SMOTE算法与SK-SMOTE进行多组对比实验。实验结果表明,SK-SMOTE算法可有效平衡不平衡数据集,且在不平衡比例较高的数据集上取得了比传统过采样算法更好的结果。  相似文献   

4.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

5.
原始Tri-training算法对有标记的数据集通过随机采样方法,形成3个训练集去训练3个分类器。但是由这种随机采样形成的训练集中,可能出现有标记数据集中的不同类别数据数量相差较大,从而导致训练集中样本类别不平衡问题,影响分类器的分类正确率。本文通过分类采样对Tri-training算法的随机采样方法进行改进,根据该改进的Tri-training算法,建立分类模型,并利用其对哈工大中文问句集和本文扩展问句集进行分类实验。结果表明,本文算法有良好的适应性,且分类正确率明显提高;适当增大训练集和未标记样本数据可以增强分类器的泛化能力,从而使分类正确率提高。  相似文献   

6.
用4种过采样算法,并结合1种样本过滤算法,对12份类别不平衡程度不同的数据进行类别平衡处理,对平衡后的数据与不平衡的数据使用xgboost算法建立分类器,并对各数据集上的分类效果进行综合比较,为提升机器学习分类器在类别不平衡问题上的性能提供参考。  相似文献   

7.
工业监测数据中正常与异常状态数据一般存在非平衡性,而传统的过采样非平衡数据处理方法往往在解决非线性、高维含噪的非平衡问题时不能获得满意的模式分类效果.本文利用流形学习的非线性降维,提出一种流形嵌入过采样方法,为有机结合流形学习与过采样的非平衡数据模式分类方法提供了统一框架.研究结果表明:该方法采用过采样平衡数据在流形空间的低维嵌入数据直接完成模式分类,可以减小流形嵌入空间到原始数据空间反映射的计算代价和模式分类成本.另外,流形学习可以有效保持原始数据结构特性,在流形嵌入空间的过采样可以实现更符合原始数据特性的非线性插值.面向TE过程和矿山微震2种具有不同规模和特性的非平衡工业监测数据集,F1指标分别平均提升了21.94%和37.34%,AUC指标分别提升了37.85%和10.64%,从而验证了所提方法在解决较大数据规模的非平衡模式分类问题时,具有稳定良好的分类效果.  相似文献   

8.
针对计算机辅助诊断(CAD)中标记病例样本难以收集所引起的小样本学习问题,提出基于混合类别标记新技术(HCLT)的小样本学习算法.该算法分别基于几何距离、概率分布及语义概念对大量存在的未标记样本进行差异化标记,将有一致标记结果的样本加入样本集,以此扩大训练样本集.为了减少错误标记样本对学习过程造成的不利影响,提出样本伪标记隶属度并引入模糊支持向量机(FSVM)学习中,由隶属度控制样本对学习过程的贡献程度.基于UCI数据集的实验结果表明,采用该算法能够解决小样本学习问题的有效性.与单一类别标记技术相比,该算法产生的错误标记样本显著减少、学习性能显著改善.  相似文献   

9.
对于平衡数据集支持向量机(support vector machine,SVM)通常具有很好的分类性能和泛化能力,然而对于不平衡数据集,SVM只能得到次优结果,针对该问题提出了一种基于SVM的AS-Ada Boost SVM分类算法.首先,通过使用ADASYN采样,提高少类样本在边界区域的密度;然后,使用基于径向基核支持向量机(radial basis function kernel mapping support vector machine,RBFSVM)模型弱分类器的Ada Boost SVM算法训练得到决策分类器.通过将该算法在各种不平衡数据集上的测试结果与单纯运用ADASYN技术、Ada Boost SVM、SMOTEBoost等其他分类器进行比较,验证了该算法的有效性和鲁棒性.  相似文献   

10.
为了准确识别潜在换网电信用户,建立一种电信用户网别更换预测模型。根据用户历史数据生成网别更换标签,确定其多数类和少数类样本。利用具有噪声的密度聚类欠采样方法对多数类样本进行聚类,删除聚类后的噪声样本和各簇的边界样本,并选择各簇核心样本点进行随机欠采样;结合人工合成少数类过采样方法对少数类样本进行过采样。将构成混合采样后的平衡样本集合,输入到两层的Stacking集成学习算法中训练,得出分类结果。实验结果表明,该模型具有较好的数据集均衡性能,且预测准确率高,能够更好地识别潜在的网别更换用户。  相似文献   

11.
为保证交通检测数据的准确性并服务于实时的交通状态判别和预测,交通大数据采用多种检测源数据协同处理并利用机器学习的方法进行异常识别.异常检测数据的识别主要基于机器学习中AdaBoost方法实现.在算法的训练过程中,为消除单一检测源数据的离群现象,训练数据选取同一路段上多种检测源提供的数据集.在算法的决策过程中,通过代价敏感方法的优势来改进AdaBoost的决策.实验结果表明:基于非均衡特性改进的AdaBoost模型迫使分类器更加关注了待识别的异常样本,增强了AdaBoost决策过程中训练决策树规则的代表性,提高了异常类样本的分类准确率.高速公路实例检测数据集验证了改进算法与相关经典算法的检测准确度、误检率、误警率等指标,其中改进模型与原模型相比,准确率提高了5.547%,误检率减低了6.792%.多种算法的ROC曲线对比表明改进的AdaBoost方法筛选交通检测样本的可靠度更高,可有效调整由非平衡数据导致的分类误差.  相似文献   

12.
基于大数据挖掘的实时性要求和数据样本的多样性特征,提出一种面向大数据挖掘的机器学习模型训练优化算法。分析当前算法的迭代计算过程,根据模型向量的改变量将迭代过程分为粗调和微调两个阶段,并发现在微调阶段绝大部分样本对计算结果的影响极小,因此可以在微调阶段不计算此类样本的梯度而直接采用上次迭代的计算结果,从而减小计算量,提升计算效率。试验结果表明,算法在分布式集群环境下可以减小模型训练约35%的计算量,且训练得到的模型准确度在正常范围内,可有效提高大数据挖掘的实时性。  相似文献   

13.
文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径  相似文献   

14.
针对多标签AdaBoost系列算法,以尽量减小算法的学习错误率为目的,提出了对其进行改进的两种思路。基于改进思路构造出了改进的多标签AdaBoost算法。一种思路是修改算法的样本分布调整策略,破坏现有AdaBoost算法中样本分布的均匀性,以确保增加每一个弱分类器都能降低学习错误的上界估计,从而实现对多标签AdaBoost算法的改进。另一种思路是训练弱分类器时兼顾后续待学习的弱分类器对学习错误的影响,克服现有算法在训练弱分类器时只考虑当前的弱分类器对学习错误的影响,而完全忽略后续待学习的弱分类器对学习错误的影响这一现象,从而改进多标签AdaBoost算法。理论上,对于改进多标签AdaBoost算法,增加每一个弱分类器都能进一步降低学习错误。理论分析和实验结果均表明了提出的改进算法有改进效果。  相似文献   

15.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(6):53-57
为提高网络入侵检测的分类效率,提出一种结合主动学习和半监督学习的入侵检测算法。结合入侵检测实际,对主动学习算法进行简化,用有标记样本训练生成2个分类器,实现对未标记样本的预测;将2个分类器预测不一致的未标记样本作为信息量丰富的样本,使用半监督学习算法进行标记;最后, 把新增加的新标记样本添加到主动学习和半监督学习的训练集中,训练各自分类器, 反复迭代直到未标记样本集为空, 并用最新的有标记样本集训练形成最终的分类器。使用KDD CUP 99数据集进行入侵检测实验,其结果表明,与SVM方法相比,其分类率提高了4.3%,且较好地缩减了问题规模。    相似文献   

16.
为了有效处理海量、高维、稀疏的大数据,提高对数据的分类效率,提出一种基于L1准则稀疏性原理的在线学习算法(a sparse online learning algorithm for selection feature, SFSOL)。运用在线机器学习算法框架,对高维流式数据的特征进行新颖的“取整”处理,加大数据特征稀疏性的同时增强了阀值范围内部分特征的值,极大地提高了对稀疏数据分类的效果。利用公开的数据集对SFSOL算法的性能进行分析,并将该算法与其它3种稀疏在线学习算法的性能进行比较,试验结果表明提出的SFSOL算法对高维稀疏数据分类的准确性更高。  相似文献   

17.
为了扩展支持向量机在大规模数据集和成批出现数据领域的应用,提出了一种基于支持向量机的增量式学习算法.利用标准的支持向量机算法训练得到初始的目标概念,通过增量式步骤不断更新初始的目标概念.更新模型是求解一个与标准支持向量机具有类似的数学形式的凸二次规划问题.证明了在可分情况下,如果新增加的样本不是位于边界区,那么增量式过程既不会改变分类平面也不会改变分类平面的表达.与现有的增量式支持向量机算法相比,该算法无需额外计算就可实现增量式的逆过程并且训练时间与增量式步骤数成反比.实验结果表明,该算法满足稳定性、能够不断改进性能以及性能回复三个准则.  相似文献   

18.
基于支持向量机的增量学习算法研究   总被引:8,自引:0,他引:8  
分析了支持向量机理论中支持向量的特性,利用支持向量与样本空间划分的等价性,提出一种新的基于支持向量机的增量学习算法.该算法考虑新增样本集的分布可能改变对已有样本的分类结果,利用支持向量的分布特性,用对样本的划分差集构造新的支持向量集和分类平面,使差集中的样本点对分类贡献尽可能最大,有效提高了分类精度.同时差集操作简单易行,有效降低了问题的计算复杂度.实验结果表明,与常规增量算法相比,该算法在不改变时间复杂度量级的前提下对分类精度有显著提高.  相似文献   

19.
自动分类是数据挖掘和机器学习中非常重要的研究领域.针对难以获得大量有类标签的训练集问题,提出了基于小规模训练集的增量式贝叶斯分类,给出增量式贝叶斯分类机理参数计算及其算法.对算法分两种情况处理:第一种情况是新增样本有类别标签,则利用现有分类器检验其类标签,如果匹配则保留当前分类器,否则利用新样本修正分类器;第二种情况是新增样本无类别标签,则利用现有分类器为其训练类标签,然后利用新样本来修正分类器.实验结果表明,该算法是可行有效的,比简单贝叶斯分类算法有更高的精度.增量式贝叶斯分类算法的提出为分类器的更新提供了一条新途径.  相似文献   

20.
为提高半监督分类的性能,提出一种安全的基于分歧的半监督分类算法Safe Co-SSC。通过有标记样本训练3个有监督分类器,利用无标记样本的信息增加分类器的差异性,采取3个分类器加权投票的策略实现对无标记样本的伪标记;对伪标记样本进行二次验证,选用能使分类器误差减小的新增标记样本扩充标记样本集。保证新样本的添加既减小了分类器的分类误差,又提高了分类器的分歧性。对UCI数据集进行分类实验的结果表明,该算法具有较高的分类率和样本标记率。    相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号