首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 375 毫秒
1.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

2.
基于DNA微阵列数据的特征子空间集成分类   总被引:2,自引:1,他引:1  
针对DNA微阵列数据应用于临床诊断时分类准确率过低的问题,结合其高维小样本的特点提出了一种特征子空间集成分类方法。该方法首先通过层次聚类与信噪比特征选择策略将原始训练数据集映射到一个非冗余的特征基因空间,然后随机抽取一些特征子空间构成训练子集并应用支持向量机训练基分类器,最后采用多数投票的方式决定测试样本的类属。最后在4个标准的微阵列数据集上与其他方法进行了对比实验,结果证明了本文方法的有效性。  相似文献   

3.
对网络流量数据进行分类时,由于网络流量具有多个类别,并且各类样本数量不均衡,故在利用机器学习进行分类时,会导致分类的模型的性能降低,致使样本被误分为样本数量多的类别,进而致使样本数量较少的类别(小类别)的召回率过低。针对该问题,提出一种基于卡方方法及对称不确定性网络流量特征选择方法。该方法首先计算特征与类之间的加权卡方值,选择卡方值较大的特征组成候选特征子集,然后根据特征与所有类之间的对称不确定性进一步筛选特征集。在Moore网络流量数据集上进行实验,得到的实验结果证明,通过该方法选择的特征对网络流量数据进行分类,在保证准确率高的前提下也得到了较高的小类召回率,减轻了数据不均衡问题带来的不良影响。  相似文献   

4.
针对不平衡数据中特征维数高、标记样本缺乏问题,提出一种基于遗传算法和BiasedSVM的不平衡数据半监督特征选择算法。该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,得到新标记样本集,最后采用基于遗传算法的不平衡数据特征选择方法选出最优的特征子集。实验结果表明,所提方法在不同的标记样本率下均具有较高的平均特征子集缩减率和平均小类识别率。  相似文献   

5.
不均衡问题中的特征选择新算法:Im-IG   总被引:2,自引:2,他引:0  
机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalanced information gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。  相似文献   

6.
针对传统单标签特征选择算法不能直接应用于多标签数据的问题,提出一种多标签特征选择算法——MML-RF算法.在ReliefF的基础上,MML-RF算法提出新的类内最近邻样本查找方式,并结合多标签的贡献值改进特征权值的计算方法,能很好地适应多标签数据的特点;同时为了减少特征冗余,MML-RF算法以互信息作为特征冗余度量方式,提出一种去冗余方法,能够得到更小的特征子集.实验表明,MML-RF多标签特征选择算法得到的特征子集规模较小,且在多标签数据集上具有很好的分类效果,能够提升多标签学习和数据挖掘工作的效率.  相似文献   

7.
基于边界样本的训练样本选择方法   总被引:3,自引:1,他引:3  
以入侵检测系统中的分类器设计为例,研究分类器训练样本选择问题。提出了一种大规模数据集的训练样本选择方法,首先通过聚类将训练数据划分成不同的子集缩小搜索范围;然后根据聚类内离散度和样本的覆盖区域选择样本,保留每个聚类的边界样本,删除内部样本。 即保留了典型样本,减少了训练样本数量,从而保证分类器的性能并且训练效率较高。  相似文献   

8.
为了解决传统的辨识矩阵空间复杂度高,难以应用于大规模数据的问题,提出了一种基于随机抽样的属性约简算法.首先随机抽取多个小样本子集,以降低辨识矩阵的空间复杂度; 然后分别对每个样本子集进行属性约简,并计算每个属性子集的权重; 最后选择高权重的几个属性子集进行测试,找出精度最高的属性子集.实验结果证明,本文方法比传统辨识矩阵的占用空间降低2~3个数量级,并且精度与其基本相当.  相似文献   

9.
高通量生物技术的应用产生了大量的高维小样本生物数据。在生物医学"大数据"领域中,特征选择算法是解决维数灾难的有效方法之一。基于此提出一种新的特征选择算法(记为Sub(filter)Lasso)。实验结果表明:对于现有特征选择算法,分类性能表现较差的两个生物数据集ALL2和CNS,新算法的分类性能显著提高;新算法选出了具有非常好分类性能的特征子集,在不同的分类器上取得了稳健的分类效果;对15个数据集进行比较实验的结果表明,Sub(filter)Lasso是表现更好的算法,显著提高了分类准确性。  相似文献   

10.
针对网络流量分类中类不均衡问题,提出一种基于K均值和k近邻的流量分类算法(traffic classification based on K-means and k nearest neighbor,KMk NN);以KMk NN为基础设计了一种集成分类器(ensemble classifier based on KMk NN,KKEC)。首先通过抽取不同的输入特征子集分别进行训练,获得不同的分类器,进而采取绝对多数与相对多数相结合的投票方式产生集成输出结果,最后采用非平衡数据集进行测试。理论分析和实验结果都表明,算法在面对非均衡协议流时提高了小类流的识别率。  相似文献   

11.
在分析了传统特征选择方法构造的4项基本信息元素的基础上提出一种强类别信息的度量标准,并在此基础上,提出一种适用于不平衡文本的特征选择方法。该方法综合考虑了类别信息因子、词频因子,分别用于提高少数类和多数类类别分类精度。该方法在reuter-21578数据集上进行了实验,实验结果表明,该特征选择方法比IG、CHI方法都更好,不但微平均指标有一定程度的提高,而且宏平均指标也有一定程度的提高。  相似文献   

12.
根据统计学习理论,间隔大小是反映泛化能力的一个很重要的方面. 受一类支持向量机(SVM)的启发,提出的双边界SVM能分别用2个边界对2类问题分类. 它能在保证分类正确的同时保证分类间隔的最大化,理论上分别从推广性能和不平衡类分布2方面证明了其优越性. 标准数据集上的实验表明,双边界SVM得到的分类间隔要大于SVM, 泛化性有了显著提高;另外,不平衡数据集上分析得到它对少数类识别率有明显提升. 真实入侵数据测试结果表明,双边界SVM算法比边界样本选择算法的检测率高出2%以上.  相似文献   

13.
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。  相似文献   

14.
为了避免倾向于高频词的信息增益(information gain,IG)方法忽略各类别间的相似性特点,提出了一种基于特征分布的选择方法对IG进行修正,使真正拥有高类别区分信息的特征项被保留.同时,对最大期望值(expectation maximization,EM)算法的效率低下问题加以改进,将拥有较高后验类别概率的未标注文档逐步从未标注文档集转至已标注文档集,有效减少算法迭代次数.测试结果表明,基于特征分布的半监督学习方法在Reuter-21578和Epinion.com两个不同特点的数据集上都取得了较好的分类效果和性能.  相似文献   

15.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于近邻密度改进的SVM(NDSVM)不平衡数据集分类算法.该算法先计算多数类内每个样本的近邻密度值,然后依据该密度值选出多数类中位于边界区域、靠近边界区域的与少数类数目相等的样本分别与少数类完成SVM初始分类,最后用所得的支持向量机和剩余的多数类样本完成初始分类器迭代优化.人工数据集和UCI数据集的实验结果表明,与WSVM、ALSMOTE -SVM和基本SVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能.  相似文献   

16.
基于支持向量机和遗传算法的水下目标特征选择算法   总被引:6,自引:0,他引:6  
基于统计学习理论和遗传算法理论,提出了一种基于支持向量机和遗传算法相结合的水下目标特征选择算法。通过对实测数据的特征集的优化选择实验,证明了该算法的有效性和鲁棒性,它能较好地解决在复杂水下目标信号所提取的特征维数高,样本采样困难,数目偏少的实际情况下的分类识别问题。  相似文献   

17.
Featuresubsetselection(FSS)istoselectrele vantfeaturesandcastawayirrelevantandredundantfeaturesfromtheoriginalfeaturesetaccordingtoaFSSmeasure[1].IfafeaturesubsetsatisfiestheFSSmeas ureandhastheminimumsize,itisconsideredapartoftheoptimalfeaturesubset.Comp…  相似文献   

18.
通信网络故障预测数据集样本不均衡,影响故障预测的准确性,对此,提出了基于样本均衡与特征交互的通信网络故障预测方法. 首先,将基于Wasserstein距离的梯度惩罚生成对抗网络(WGAN-GP)用于生成新的少数类样本,解决了告警数据集中存在的样本不均衡问题,并提出了嵌入记忆向量的特征生成卷积神经网络(M-FGCNN)模型. 利用多层感知器和卷积神经网络加强特征间的交互,将告警领域专家经验与因子分解机模型结合生成新的告警特征;在模型的嵌入矩阵中加入记忆向量并改进了模型的损失函数,增强了模型的记忆性. 在样本不均衡的公开数据集上进行实验的结果表明,引入WGAN-GP模型的方法比已有的样本均衡方法能生成质量更好的新数据. M-FGCNN模型比其他深度学习模型具有更好的通信网络故障预测性能.  相似文献   

19.
基于知识语义权重特征的朴素贝叶斯情感分类算法   总被引:1,自引:0,他引:1  
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号