首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

2.
面向不平衡问题的集成特征选择   总被引:3,自引:1,他引:2  
传统的特征选择方法基本上是以精度为优化目标,没有充分考虑数据样本类别分布倾斜性,在数据分布不平衡的数据集上性能表现不理想。在不平衡数据集上通过有放回的抽样方法独立地从数据集大类样本集中随机抽取多个样本子集,使每次随机抽取的样本数量与小类样本数量一致,然后将各抽取的样本子集分别与小类样本集组合成多个新的训练样本集。对多个新样本集的特征子集以集成学习的方式采用投票机制进行投票,数据集的最终特征子集以得票数目超过半数的特征共同组合而成。在UCI不平衡数据集上的实验结果显示,提出的方法表现出了较好的性能,是一种能够处理不平衡问题的有效特征选择方法。  相似文献   

3.
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.  相似文献   

4.
遗传算法作为一种模拟生物遗传进化过程的随机搜索算法,具有并行和全局搜索能力,不要求函数导管特点,在神经网络学习中得到广泛应用,合理选择初始群体和控制搜索的盲目性,有利于提高算法的效率,为此,提出了一种新的神经网络学习算法--基于样本划分的启发式遗传BP算法,该方法对神经网络学习样本进行划分,形成样本子集,初始群体通过在样本集类上训练神经网络而获得,这些初始网络中包含了关于样本子集的有用信息,根据模式定理,能通过遗传算法保留和加强,此外,提出并证明了关于样本集类及其BP训练的几个代数性质,结合子空间划分进行启发式搜索,以克服搜索的盲目性,对上述方法进行仿真实验,迭代次数和误差较小,表明本学习算法是切实可行的。  相似文献   

5.
针对目前内部威胁用户检测召回率低及数据类别不平衡的问题,提出一种基于Geometric SMOTE(G-SMOTE)和Biased-SVM的内部威胁用户检测方法.该方法对用户行为进行特征提取,利用G-SMOTE算法在每个威胁用户样本中心定义一个几何区域用于生成威胁用户样本,保证了训练集中的正常用户、威胁用户的类别平衡;...  相似文献   

6.
阴影集的模糊支持向量机样本选择方法   总被引:1,自引:1,他引:0  
样本选择可以提高模糊支持向量机训练速度并在一定程度上提高其抗噪能力,但存在有效样本选择困难和选样率高的问题,利用阴影集对模糊集的分析能力,提出一种新的基于阴影集的模糊支持向量机样本选择方法,将模糊集合划分为可信任、不可信任及不确定3个子集,仅在可信任和不确定子集中选样,并分别采用子空间样本选择和边界向量提取的方法选样.实验结果表明,该方法在保持分类器泛化能力的前提下可以有效降低选样率和训练时间.因该方法去除了样本中的不可信任数据,所以当训练样本中含有噪声时,还可以有效提高分类器的分类性能.  相似文献   

7.
对网络流量数据进行分类时,由于网络流量具有多个类别,并且各类样本数量不均衡,故在利用机器学习进行分类时,会导致分类的模型的性能降低,致使样本被误分为样本数量多的类别,进而致使样本数量较少的类别(小类别)的召回率过低。针对该问题,提出一种基于卡方方法及对称不确定性网络流量特征选择方法。该方法首先计算特征与类之间的加权卡方值,选择卡方值较大的特征组成候选特征子集,然后根据特征与所有类之间的对称不确定性进一步筛选特征集。在Moore网络流量数据集上进行实验,得到的实验结果证明,通过该方法选择的特征对网络流量数据进行分类,在保证准确率高的前提下也得到了较高的小类召回率,减轻了数据不均衡问题带来的不良影响。  相似文献   

8.
结合Filter和Wrapper方法的优点,提出一种基于集成遗传算法(FSEGA)的特征选择方法,用于从基因表达谱数据中选择特征基因。根据基因正负样本的分布关系定义信息指标过滤噪声基因,在递归特征消除过程中根据基因的集成权值生成候选基因子集,选择分类测试中具有最高AUC(接收者工作特征曲线下的面积)值的候选基因子集作为基因表达谱数据集的特征基因子集,将支持向量机(SVM)用于算法的适应度函数,研究FSEGA方法与分类器算法之间的关系,对5个肿瘤特征基因表达谱数据集进行基因选取实验。结果表明,采用提出的集成特征选取方法选取的特征基因集合含丰富类别信息,重复性较好,提高了肿瘤特征基因选取的稳定性和鲁棒性。  相似文献   

9.
针对工业控制系统流量数据存在特征冗余及深度学习模型对较小规模数据集检测能力较差的问题,提出了一种基于特征选择和时间卷积网络的工业控制系统入侵检测模型。首先,对源域数据集的异常特征和样本不平衡数据进行处理,提高源域数据集质量。其次,针对流量数据的特征冗余,利用信息增益率和主成分分析法构建IGR-PCA特征选择算法,筛选出最优特征子集实现数据降维。然后,根据工业控制系统流量数据的时间序列特性,在较大规模的源域数据集上,利用时间卷积网络(temporal convolution network,TCN)对时间序列数据优异的处理能力,构建源域时间卷积网络预训练模型。最后,在较小规模的目标域数据集上,结合迁移学习(transfer learning,TL)微调策略,获取源域样本数据的流量特征,构建目标域TCN-TL模型。利用公开的工业控制系统数据集进行实验测试,实验结果表明:流量数据经本文特征算法处理后,相较于其他方法,在降低数据维度减少计算量的同时仍具有良好的检测效果;在较大规模的源域数据集和较小规模的目标域数据集上,本文模型均取得了良好的检测效果,在目标域中利用迁移学习微调策略能够学习到源域中的知识,模型检测准确率为99.06%,在训练时间对比中,本文模型训练时间消耗更少,具有更好的泛化能力,能够更好地保护工业控制系统安全。  相似文献   

10.
随着卫星数量和星上动作快速增加,卫星测控站测控任务也随之指数式增加,导致传统的24小时人工监视任务难以实现。基于数据挖掘的大数据实时分析技术能有效解决该问题,但面临样本维度高和标记数据不平衡的问题。提出一种新的集成学习模型——混合降维森林(HDRF),来处理复杂的天线跟踪数据。首先通过提出的样本特征化转换过程(SFTP)将异常样本转化为拓展的样本特征,其次通过基于树的特征选择算法挑选样本的强特征,并使用主成分分析(PCA)算法对新特征和未选择特征进行降维,生成具有有效性和补偿性的新特征。最后,在5个真实数据集上的实验表明,提出的算法优于其他主流的集成分类算法,且对天线跟踪数据实时处理切实有效。  相似文献   

11.
为了提高卷积神经网络训练的分类器分类准确率,往往需要大量的已标记数据,但有时已标记数据并不容易获得。针对少标记样本图像分类问题,提出基于集成GMM聚类与标签传递思想的解决方案,通过一定的规则给未标记数据赋予标签,将未标记数据转换成已标记数据用于模型的训练。在手写数字识别数据集上进行实验,结果表明新算法在少标记样本的情况下,结合集成GMM聚类的方法比只采用有标记样本训练得到的模型分类准确率有着较大提高,验证了该算法的有效性。  相似文献   

12.
为了提高变压器故障识别的诊断精度,提出一种基于多尺度卷积神经网络模型的变压器故障诊断方法。首先,在1DCNN结构基础上设计2个多尺度卷积模块,构造变压器故障识别模型的总体结构。其次,针对样本特征较少问题,采用基于比值法的特征扩充方法,将样本特征由5维增强至25维;针对故障样本量少以及故障间样本数分布不平衡问题,采用基于对抗生成网络的样本数增强方法,生成大量模拟样本。最后,利用改造后的数据集对所设计的模型进行训练与测试。结果表明,模型平均准确率为93.24%,与相关主流方法在不同数据集下实验对比,本模型表现效果良好。  相似文献   

13.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(6):53-57
为提高网络入侵检测的分类效率,提出一种结合主动学习和半监督学习的入侵检测算法。结合入侵检测实际,对主动学习算法进行简化,用有标记样本训练生成2个分类器,实现对未标记样本的预测;将2个分类器预测不一致的未标记样本作为信息量丰富的样本,使用半监督学习算法进行标记;最后, 把新增加的新标记样本添加到主动学习和半监督学习的训练集中,训练各自分类器, 反复迭代直到未标记样本集为空, 并用最新的有标记样本集训练形成最终的分类器。使用KDD CUP 99数据集进行入侵检测实验,其结果表明,与SVM方法相比,其分类率提高了4.3%,且较好地缩减了问题规模。    相似文献   

14.
研究了一个有效适用的企业信用风险预警模型。针对单一BP神经网络预测模型由于财务指标选择不当导致误判率较高的问题,提出了首先进行特征选择,利用遗传算法搜索出最优特征子集,并采用BP神经网络作为遗传算法的评估函数,构建了一个基于Wrapper方法的神经网络信用风险预测模型。以沪深股市1998—2004年间的制造企业数据为例对模型进行实验,结果表明,新模型提高了预测准确率,评估结果更具科学性,实际应用具有良好的信用风险预测能力。  相似文献   

15.
原始Tri-training算法对有标记的数据集通过随机采样方法,形成3个训练集去训练3个分类器。但是由这种随机采样形成的训练集中,可能出现有标记数据集中的不同类别数据数量相差较大,从而导致训练集中样本类别不平衡问题,影响分类器的分类正确率。本文通过分类采样对Tri-training算法的随机采样方法进行改进,根据该改进的Tri-training算法,建立分类模型,并利用其对哈工大中文问句集和本文扩展问句集进行分类实验。结果表明,本文算法有良好的适应性,且分类正确率明显提高;适当增大训练集和未标记样本数据可以增强分类器的泛化能力,从而使分类正确率提高。  相似文献   

16.
提出了一种基于HSV(Hue-Saturation-Value)空间的Haar小波特征和多SVM(Support Vector Machine)分类器的摩托车识别算法,以解决因样本比例不平衡所导致的对摩托车识别性能差的问题.首先在HSV颜色空间基于无符号小波系数构造特征提取算法,然后对训练数据应用所提出的样本重构方法得到若干训练子集,基于各个训练子集训练相应的SVM分类器,识别时将各SVM的输出结果进行融合即可得到最终识别结果.实验结果表明:该方法识别性能高,鲁棒性好,对于受数据的不平衡性严重影响的对象识别具有较好的应用和推广价值.  相似文献   

17.
提出了一种基于改进的奇异值和遗传算法的人脸识别方法.首先对预处理后的人脸图像进行改进的奇异值特征提取.应用遗传算法并行搜索选择满足最小类间欧式距离的类别特征.最后运用选择特征子集来训练BP神经网络作为分类器.实验结果表明:该方法的识别率及平均检测时间均优于普通方法.  相似文献   

18.
如何准确检测出用户侧窃电行为是长期存在于各供电公司一个难点,传统的窃电检测方案均存在一定的局限性。针对窃电检测领域正负类样本高度不平衡,且单一分类模型表现不佳的问题,提出一种基于改进旋转森林算法的窃电检测方法。旋转森林算法采用主成分分析(principal component analysis,PCA)进行特征提取,利用原始训练集的所有主成分训练每个基分类器。在经典的旋转森林算法基础上,使用改进合成少数类过采样(synthetic minority oversampling technique,SMOTE)算法平衡样本子集中的正负类样本;使用Bagging算法中的Bootstrap抽样对训练子集进一步抽样;按准确率对基分类器进行选择性集成等3个方面的改进。算例使用华东某地区实际用户数据,结果表明所提窃电检测方法对比单一分类模型和现有集成学习策略,在多项评价指标下均取得更好的效果。  相似文献   

19.
基于DNA微阵列数据的特征子空间集成分类   总被引:2,自引:1,他引:1  
针对DNA微阵列数据应用于临床诊断时分类准确率过低的问题,结合其高维小样本的特点提出了一种特征子空间集成分类方法。该方法首先通过层次聚类与信噪比特征选择策略将原始训练数据集映射到一个非冗余的特征基因空间,然后随机抽取一些特征子空间构成训练子集并应用支持向量机训练基分类器,最后采用多数投票的方式决定测试样本的类属。最后在4个标准的微阵列数据集上与其他方法进行了对比实验,结果证明了本文方法的有效性。  相似文献   

20.
为提高半监督分类的性能,提出一种安全的基于分歧的半监督分类算法Safe Co-SSC。通过有标记样本训练3个有监督分类器,利用无标记样本的信息增加分类器的差异性,采取3个分类器加权投票的策略实现对无标记样本的伪标记;对伪标记样本进行二次验证,选用能使分类器误差减小的新增标记样本扩充标记样本集。保证新样本的添加既减小了分类器的分类误差,又提高了分类器的分歧性。对UCI数据集进行分类实验的结果表明,该算法具有较高的分类率和样本标记率。    相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号