首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
《微型机与应用》2015,(17):81-84
针对极端学习机算法对不平衡数据分类问题的处理效果不够理想,提出了一种基于聚类欠采样的极端学习机算法。新算法首先对训练集的负类样本进行聚类生成不同的簇,然后在各簇中按规定的采样率对其进行欠采样,取出的样本组成新的负类数据集,从而使训练集正负类数据个数达到相对平衡,最后训练分类器对测试集进行测试。实验结果表明,新算法有效地降低了数据的不平衡对分类准确率的影响,具有更好的分类性能。  相似文献   

2.
针对现有欠采样处理算法中存在样本缺少代表性、分类性能差等问题,提出了一种基于聚类欠采样的加权随机森林算法(weighted random forest algorithm based on clustering under-sampling,CUS-WRF)。利用K-means算法对多数类样本聚类,引入欧氏距离作为欠采样时分配样本个数的权重依据,使采样后的多数类样本与少数类样本形成一个平衡的样本集,以CART决策树为基分类器,加权随机森林为整体框架,同时将测试样本的准确率作为每棵树的权值来完成对结果的最终投票,有效提高了整体分类性能。选择八组KEEL数据集进行实验,结果表明,与其余四种基于随机森林的不平衡数据处理算法相比,CUS-WRF算法的分类性能及稳定性更具优势。  相似文献   

3.
近年来,集成学习方法因其在多分类系统中具备良好的泛化性能而成为关注热点,然而,传统采样方法生成的基分类器存在相似度高、集成后泛化能力不足等问题,为此,提出一种基于监督学习的分类器自适应融合方法AEC_SL,该方法先采用高斯混合模型聚类算法将训练集划分为有监督的样本簇,然后在每个类簇上使用随机森林算法得到差异化的分类器,...  相似文献   

4.
范莹  计华  张化祥 《计算机应用》2008,28(5):1204-1207
提出一种新的基于模糊聚类的组合分类器算法,该算法利用模糊聚类技术产生训练样本的分布特征,据此为每一个样本赋予一个权值,来确定它们被采样的概率,利用采样样本训练的分类器调整训练集的采样概率,依次生成新的分类器直至达到一定的精度。该组合分类器算法在UCI的多个标准数据集上进行了测试,并与Bagging和AdaBoost算法进行了比较,实验结果表明新的算法具有更好的健壮性和更高的分类精度。  相似文献   

5.
在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练.由此提出基于聚类的弱平衡代价敏感随机森林算法,不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小.实验表明,文中算法在处理高度不平衡数据集时性能较优.  相似文献   

6.
在对非平衡通信文本使用随机下采样来提高分类器性能时,为了解决随机下采样样本发生有偏估计的问题,提出基于否定选择密度聚类的下采样算法(NSDC-DS)。利用否定选择算法的自体异常检测机制改善传统聚类,将样本中心点和待聚类样本分别作为检测器和自体集,对两者进行异常匹配;使用否定选择密度聚类算法对样本相似性进行评估,改进传统的下采样方法,使用NBSVM分类器对采样后的通信样本进行垃圾识别;使用PCA对样本所具有的信息量进行评估,提出改进的PCA-SGD算法对模型参数进行调优,完成通信垃圾文本的半监督识别任务。为了验证改进算法的优越性,使用不平衡通信文本等多个数据集,在否定选择密度聚类、NSDC-DS算法、PCA-SGD与传统模型上进行对比分析。实验结果表明,改进的模型不仅具有较好的通信垃圾文本识别能力,而且具有较快和稳定的收敛速度。  相似文献   

7.
为了使分类器能够在某个强度级别的行为样本集上训练而在其他强度级别上正确分类行为,提出了行为识别的随机逼近模型。在训练阶段从加速度计的时间序列数据提取特征,然后将特征送入聚类算法。数据依据行为聚类,聚类的均值和方差组合成相对应的SAM。在识别随机行为阶段,测试样本和每种行为类别的SAM进行比较。利用聚类算法和随机逼近给每种行为创建模型,然后使用启发式随机逼近最近邻方法来对行为进行分类。在实验中结合k-均值和高斯混合模型两种聚类算法,验证了提出的随机逼近模型的性能优于其他几种流行的行为分类方案。  相似文献   

8.
针对主动学习中构造初始分类器难以选取代表性样本的问题,提出一种模糊核聚类采样算法。该算法首先通过聚类分析技术将样本集划分,然后分别在类簇中心和类簇边界区域选取样本进行标注,最后依此构造初始分类器。在该算法中,通过高斯核函数把原始样本空间中的点非线性变换到高维特征空间,以达到线性可聚的目的,并引入了一种基于局部密度的初始聚类中心选择方法,从而改善聚类效果。为了提高采样质量,结合划分后各类簇的样本个数设计了一种采样比例分配策略。同时,在采样结束阶段设计了一种后补采样策略,以确保采样个数达标。实验结果分析表明,所提算法可以有效地减少构造初始分类器所需的人工标注负担,并取得较高的分类正确率。  相似文献   

9.
赵煜  邵必林  边根庆  宋丹 《计算机应用》2015,35(7):1959-1964
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。  相似文献   

10.
不平衡数据分类是机器学习研究领域中的一个热点问题。针对传统分类算法处理不平衡数据的少数类识别率过低问题,文章提出了一种基于聚类的改进AdaBoost分类算法。算法首先进行基于聚类的欠采样,在多数类样本上进行K均值聚类,之后提取聚类质心,与少数类样本数目一致的聚类质心和所有少数类样本组成新的平衡训练集。为了避免少数类样本数量过少而使训练集过小导致分类精度下降,采用少数过采样技术过采样结合聚类欠采样。然后,借鉴代价敏感学习思想,对AdaBoost算法的基分类器分类误差函数进行改进,赋予不同类别样本非对称错分损失。实验结果表明,算法使模型训练样本具有较高的代表性,在保证总体分类性能的同时提高了少数类的分类精度。  相似文献   

11.
针对直升机飞行状态识别训练样本数据少而导致识别率不高的问题,提出一种基于随机森林的直升机飞行状态识别方法。首先利用去野点、限幅、平滑处理对飞行数据进行预处理,并根据特征参数将飞行状态分为8个小类;然后利用随机森林识别率较高的特点,对每一小类进行随机森林分类器设计;最后利用训练样本训练每个随机森林分类器,并将训练好的随机森林分类器识别直升机全起落飞行状态。以某型直升机实飞数据作为实验数据,将该方法与RBF神经网络法和SVM法进行对比实验,结果表明在小样本情况下该方法识别率有明显提高,识别速度也有所提高,可为直升机寿命预测提供依据。  相似文献   

12.
在曝光的瞬间,造成图像模糊的运动,可近似作为直线运动来处理,但在像平面中的运动模糊方向未知。将原图像视为各向同性的一阶马尔科夫过程,提出了一种新的运动模糊方向鉴别方法,即方向微分鉴别方法,可以高精度鉴别匀速运动、加速运动、振动等各种运动的模糊方向,具有鉴别范围大、稳定性好的优点,克服了Y.Yitzhaky方法的不足。高精度估计出运动模糊方向,则可以通过图像旋转将运动模糊方向旋转到水平轴,图像恢复因此由二维问题转化为一维问题,大大降低了图像恢复的难度,且为图像恢复的并行计算打下基础。文章给出了采用双线性插值或三次C样条插值进行方向微分的详细计算方法,其中双线性插值方法计算量小,而三次C样条插值方法鉴别精度比双线性插值方法高。采用加权平均措施,平均了引起鉴别误差的各种随机因素,提高了鉴别精度,增强了运动模糊方向鉴别的稳定性。  相似文献   

13.
一种融合多传感器信息的移动图像识别方法   总被引:1,自引:0,他引:1  
桂振文  吴侹  彭欣 《自动化学报》2015,41(8):1394-1404
多传感器数据融合作为一种特殊的数据处理手段在图像识别领域得到了较大的重视和发展, 本文提出了一种融合多传感器信息的移动图像识别方法. 首先通过在智能手机端提取带传感器信息的图像局部特征,增强局部特征的辨别能力; 其次改进了随机聚类森林的建立算法,减少了样本图像训练时间;最后使用快 速几何一致性校验对匹配结果进行检查, 保证算法的识别精度.实验结果表明,本文提出的方法能够快速 有效地识别移动图像,并具有较好的鲁棒性,同时与传统的Vocabulary tree 方法进行比较,本文方法的识别速度和精度较优,训练代价较低.  相似文献   

14.
针对以随机森林为分类器的人体姿态估计系统内存占用过大的问题,提出一种优化的随机森林模型,该模型在进行Bootstrap抽样前,引入Poisson过程并将其与深度信息相融合组建一个滤过网对原始训练数据集进行过滤,将一部分对后续分类起到非积极作用的特征样本点滤除,使训练数据集得到优化重构,进而较好地弥补随机森林在抽样过程中重复抽样以及重抽样样本代表性不强的缺点。实验结果表明了该优化模型的有效性,大大降低了系统的时间、空间复杂度,使得系统的适用性更强。  相似文献   

15.
传统时间序列分类方法存在鼠标轨迹特征挖掘不充分、数据不平衡与标记样本量少等问题,造成识别效果较差。结合特征组分层和半监督学习,提出一种鼠标轨迹识别方法。通过不同视角构建有层次的鼠标轨迹特征组,并借鉴半监督学习的思想,利用多个随机森林模型对未标记样本进行伪标记,且将抽取标签预测一致且置信度较高的部分样本加入到训练集中。基于基础特征组和辅助特征组,在扩充后的训练集上训练随机森林模型,以实现鼠标轨迹的人机识别。实验结果表明,该方法可有效识别鼠标轨迹,且精确率、召回率与调和均值分别达到97.83%、94.72%和96.56%。  相似文献   

16.
17.
郭伟  王西闯  肖振久 《计算机应用》2013,33(10):2734-2738
针对目前常用于P2P流量识别的有监督机器学习方法普遍存在时间代价较高的现状,提出采用时间代价为标准支持向量机四分之一的双支持向量机来构建分类器,并采用K均值集成方法快速生成有标签样本集,组合有标签样本集构成双支持向量机的训练样本,最后利用构建好的双支持向量机分类模型进行P2P流量的识别。实验结果表明采用基于K均值集成结合双支持向量机的方法在P2P流量识别的时间代价、准确率和稳定性方面要远优于标准支持向量机。  相似文献   

18.
针对随机森林分类效果受样本集类间不平衡、类内不规则的影响,提出一种聚类欠采样策略的随机森林优化方法。该方法对原始数据大类样本聚类,得到与小类样本个数相同的子类簇;从每个子类簇中随机有放回抽取一个样本与小类样本合并,形成平衡样本集;对平衡样本集进行有放回随机抽样,形成单棵决策树的训练样本集并完成建树;将两次未被抽中的样本作为袋外数据,用于模型测试;重复上述过程多次,形成随机森林。使用10组非平衡数据集进行实验验证,结果表明,该方法在这10组数据集上的分类能力及稳定性均优于传统随机森林。  相似文献   

19.
提出一种基于Adaboost方法的随机森林销售量预测方法. 首先对销售量的影响因素进行了特征分析,确定了训练数据的特征和维度. 然后采用基于Adaboost的随机森林销量预测方法对特征数据进行训练并给出了预测算法的步骤. 最后使用python进行了仿真实验,实验结果表明,该方法可以有效提高随机森林的回归性能,且预测精度高,具有较强的泛化能力.  相似文献   

20.
基于多层集成学习的岩性识别方法   总被引:1,自引:0,他引:1  
岩性识别是油藏地质解释中的关键问题和难点问题,人工智能特别是机器学习技术的发展和应用为岩性识别问题解决提供了新的技术途径。本文利用支持向量机(Support vector machine,SVM)、多粒度级联森林(Multi-grained cascade forest,GCForest)、随机森林(Random forest,RF)以及XGBoost(eXtreme gradient boosting)等机器学习模型建立一个异构多层集成学习模型,该集成学习模型克服了单一模型对数据集要求高、泛化能力差以及识别精度低等缺点。本文分别利用集成模型和单一模型进行了岩性识别实验。实验结果表明,本文集成模型在岩性分类测试集上平均精度达到96.66%,高于SVM的平均精度75.53%、GCForest的平均精度96.21%、随机森林的平均精度95.06%和XGBoost的平均精度95.77%。该集成模型能有效地用于油藏地质分析中的岩性识别和分类任务,适应性强,识别精度高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号