首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

2.
对于平衡数据集支持向量机(support vector machine,SVM)通常具有很好的分类性能和泛化能力,然而对于不平衡数据集,SVM只能得到次优结果,针对该问题提出了一种基于SVM的AS-Ada Boost SVM分类算法.首先,通过使用ADASYN采样,提高少类样本在边界区域的密度;然后,使用基于径向基核支持向量机(radial basis function kernel mapping support vector machine,RBFSVM)模型弱分类器的Ada Boost SVM算法训练得到决策分类器.通过将该算法在各种不平衡数据集上的测试结果与单纯运用ADASYN技术、Ada Boost SVM、SMOTEBoost等其他分类器进行比较,验证了该算法的有效性和鲁棒性.  相似文献   

3.
针对核空间中大数据集的计算代价高问题, 提出用NSVM方法减少分类器的训练数据. 先用NSVM、核主成分分析(KPCA)和贪婪KPCA分别从全部训练数据中提取训练分类器的子集; 再用子集训练分类器, 并用训练和测试数据的错分率对分类结果进行评价. 在两个数据集和两种分类器中, 用KPCA提取的子集训练的分类器的分类性能弱于NSVM和贪婪KPCA, 但用贪婪KPCA提取的子集训练的分类器的泛化能力弱于NSVM. 仿真结果表明, 用NSVM方法提取的子集训练的分类器, 不仅保证了分类器的泛化能力, 也降低了分类算法的计算复杂度.  相似文献   

4.
针对复杂交通场景车辆检测算法自适应能力差的问题,提出了基于Co-training半监督学习方法的车辆鲁棒检测算法.首先,针对手工标记的少量样本,分别训练基于Haar-like特征的AdaBoost分类器和基于HOG(histograms of oriented gradients)特征的SVM(support vector machines)分类器,使其具有一定的识别能力;然后,基于Co-training半监督学习框架,将利用2种算法进行分类得到的新样本分别加入到对方的样本库中,增加训练样本数量,再次进行分类器的训练.由于这2类特征具有冗余性,各自检测出的正负样本包含对方漏检和误检的图像.由于样本数的增加,再次训练所得到的新分类器的鲁棒性得到了很大提高,能更加准确地检测出车辆,而且由算法对未标记样本进行分类标记,不再需要人为标记,提高了车辆检测算法的自适应能力.  相似文献   

5.
粗糙集与支持向量机在肝炎诊断中的应用   总被引:3,自引:1,他引:2  
提出了一种基于粗糙集与支持向量机(SVM)的肝炎诊断方法.利用粗糙集对原始特征进行约减,得到多个特征子集,然后采用组选择算法进行二次约减,根据约减后的特征子集生成新的数据集,使用SVM对新的数据集进行训练和预测.采用UCI机器学习公共数据集,试验结果与数据分析表明,与SVM、神经网络(NN)、决策树所预测的结果对比,本...  相似文献   

6.
水下目标识别中训练样本集含有冗余样本、噪声样本及无关样本,且特征提取、特征选择和决策系统设计过程分离而导致系统识别性能的下降,为此提出了基于加权最近邻收缩样本选择的SVM集成算法(SVME-WRNN)和基于加权免疫克隆样本选择的SVM集成算法(SVME-WICISA)。这2种集成方法通过样本选择来构建精度高、差异大的子分类器,并将其集成。利用4类水下目标实测数据进行了分类仿真实验。实验结果表明:SVME-WRNN算法和SVME-WICISA算法与SVME算法(无样本选择)相比较,在识别率相当的情况下,大幅度地降低了训练样本数目,得到的综合分类器具有良好的分类精度。  相似文献   

7.
基于LS-SVM的多标签分类算法   总被引:2,自引:0,他引:2  
多标签分类是指部分样本同时归属多个类别.基于数据分解的算法因训练速度快、性能良好而得到广泛的应用.本文采用一对一分解策略,将k标签数据集分解为k(k-1)/2个两类单标签和两类双标签的数据子集.对每一训练子集统一用LS-SVM模型建立子分类器,当出现双标签样本时将其函数值设为0,并确定适当的分类阈值.对情感、景象和酵母数据集的实验结果表明,本文算法的某些性能指标优于现有一些常用的多标签分类方法.  相似文献   

8.
该文提出一种基于随机森林的不完整数据集的多功能雷达(MFR)辐射源识别方法,该方法在MFR辐射源波形单元识别框架基础上,首先对参数缺失的先验知识集进行多重划分,得到多个不含缺失参数的样本子集,然后删减冗余子集并利用随机森林算法对各个子集构建弱分类器,最后根据弱分类器对识别结果贡献率的不同,进行权值设定,得到最终的识别模型。仿真实验证实了提出的MDRF-WA方法能够提高少量先验知识条件下波形单元识别的准确率和鲁棒性,降低计算成本。  相似文献   

9.
运用单个动作传感器通过机器学习算法——支持向量机(SVM),建立出色的人体日常动作识别模型.通过3个主要步骤对动作数据进行了处理,即小波转换,基于降维和K层交叉验证的主成分分析(PCA)以及自动寻优搜索获得SVM径向基核函数中的最佳参数σ和c,获得识别6种人体动作的最佳分类器.采用SVM(支持向量机)算法获得的动作分类器,在对不同动作识别时,得出的平均准确率达到94.5%.这表明基于人体动作识别的验证方法具有实用价值的,并在不久的将来会有进一步的提升.  相似文献   

10.
提出一种基于ReliefF算法的时频联合特征及随机森林的配电网电缆故障识别方法. 针对零序电压,从时域和频域构造23个故障敏感特征,采用ReliefF算法进行特征选择,得到最具分类能力的特征子集. 将特征子集作为基于随机森林的输入进行训练,得到最终的分类模型,实现了电缆故障类型识别. 所提方法与基于单一特征的方法相比,能够更加充分地挖据数据潜力,同时由于采用ReliefF算法筛除了无关特征,提高了算法效率. 最后采用Matlab软件进行仿真,并与决策树、KNN、SVM等算法进行比较,仿真结果验证了所提方法的可行性和高准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号