首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对分类器的构建,在保证基分类器准确率和差异度的基础上,提出了采用差异性度量特征选择的多分类器融合算法(multi-classifier fusion algorithm based on diversity measure for feature selection,MFA-DMFS)。该算法的基本思想是在原始特征集中采用Relief特征评估结果按权值大小选择特征,构造特征子集,通过精调使各特征子集间满足一定的差异性,从而构建最优的基分类器。MFA-DMFS不但能提高基分类器的准确率,而且保持基分类器间的差异,克服差异性和平均准确率之间存在的相互制约,并实现这两方面的平衡。在UCI数据集上与基于Bagging、Boosting算法的多分类器融合系统进行了对比实验,实验结果表明,该算法在准确率和运行速度方面优于Bagging和Boosting算法,此外在图像数据集上的检索实验也取得了较好的分类效果。  相似文献   

2.
尹光  朱玉全  陈耿 《计算机工程》2012,38(8):167-169
为提高集成分类器系统的分类性能,提出一种分类器选择集成算法MCC-SCEN。该算法选取基分类器集中具有最大互信息差异性的子集和最大个体分类能力的子集,以确定待扩展分类器集,选择具有较大混合分类能力的基分类器加入到待扩展集中,构成集成系统,进行加权投票并产生结果。实验结果表明,该方法优于经典的AdaBoost和Bagging方法,具有较高的分类准确率。  相似文献   

3.
针对多分类器集成方法产生的流量分类器在泛化能力方面的局限性,提出一种选择性集成网络流量分类框架,以满足流量分类对分类器高效的需求。基于此框架,提出一种多分类器选择性集成的网络流量分类方法 MCSE(Multiple Classifiers Selective Ensemble network traffic classification method),解决多分类器的选取问题。该方法首先利用半监督学习技术提升基分类器的精度,然后改进不一致性度量方法对分类器差异性的度量策略,降低多分类器集成方法实现网络流量分类的复杂性,有效减少选择最优分类器的计算开销。实验表明,与Bagging算法和GASEN算法相比,MCSE方法能更充分利用基分类器间的互补性,具有更高效的流量分类性能。  相似文献   

4.
Bagging组合的不平衡数据分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
秦姣龙  王蔚 《计算机工程》2011,37(14):178-179
提出一种基于Bagging组合的不平衡数据分类方法CombineBagging,采用少数类过抽样算法SMOTE进行数据预处理,在此基础上利用C-SVM、径向基函数神经网络、Random Forests 3种不同的基分类器学习算法,分别对采样后的数据样本进行Bagging集成学习,通过投票规则集成学习结果。实验结果表明,该方法能够提高少数类的分类准确率,有效处理不平衡数据分类问题。  相似文献   

5.
针对字符识别对象的多样性,提出了一种基于Bagging集成的字符识别模型,解决了识别模型对部分字符识别的偏好现象。采用Bagging采样策略形成不同的数据子集,在此基础上用决策树算法训练形成多个基分类器,用多数投票机制对基分类器预测结果集成输出。理论分析与仿真实验结果表明,所提模型相比其他分类方法具有更好的分类能力。  相似文献   

6.
如何构造差异性大的基分类器是集成学习研究的重点,为此提出迭代循环选择法:以最大化正则互信息为准则提取最优特征子集,进而基于此训练得到基分类器;同时以错分样本个数作为差异性度量准则来评价所得基分类器的性能,若满足条件则停止,反之则循环迭代直至结束.最后用加权投票法融合所选基分类器的识别结果.通过仿真实验验证算法的有效性,以支持向量机为分类器,在公共数据集UCI上进行实验,并与单SVM及经典的Bagging集成算法和特征Bagging集成算法进行对比.实验结果显示,该方法可获得较高的分类精度.  相似文献   

7.
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。  相似文献   

8.
Learn++.NSE集成的单个基分类器需根据其在所有历经环境中的分类错误率加权计算投票权重,学习效率有待提高.因此,文中采用滑动窗口技术优化权重的计算过程,提出基于滑动窗口的快速Learn++.NSE算法(SW-Learn++.NSE).该算法仅考虑使用单个基分类器近期窗口内的分类准确率计算投票权重,提高集成学习的效率.实验表明,相比Learn++.NSE,在取得同等分类准确率的情况下,文中算法分类学习的效率更高.  相似文献   

9.
王忠民  张爽  贺炎 《计算机科学》2018,45(1):307-312
为了提高基于智能手机的人体行为识别率,优化多分类器集成系统的泛化性能及个体分类器的差异性,提出了基于差异性增量聚类(Diversity Measure Increment-Affinity Propagation clustering,DMI-AP)的选择性集成人体行为识别模型。首先对训练集的所有样本进行bootstrap抽样并训练基分类器,选出大于平均识别率的基分类器构成分类器集合;然后将集合的基分类器作为聚类对象进行分组,通过计算基分类器间的双误差异性值求出表征个体分类器特征的双误差异性增量值,输入近邻传播聚类算法得到k个类簇,选取每簇的中心分类器构成多分类器集成系统;最后使用等概率均值法融合k个分类器的输出结果。实验表明,该模型算法使个体分类器的差异性增大、分类器搜索空间缩小;与传统的Bagging,Adaboost以及RF方法相比,该模型的识别准确率平均提高了8.11%。  相似文献   

10.
《计算机科学与探索》2019,(11):1935-1944
针对现有常用分类器性能不能满足头部姿态估计对准确率的要求,以及光照变化影响头部姿态估计准确率的问题,提出了一种基于Bagging-SVM集成分类器的头部姿态估计方法。首先,通过图片预处理和Adaboost检测人脸区域算法减少背景、光照等干扰因素对于头部姿态特征提取的影响。其次,采用融合方向梯度直方图(HOG)特征和局部二值模式(LBP)特征分别对人脸的轮廓特征和纹理特征进行提取。然后,通过主成分分析(PCA)对融合的头部姿态特征进行特征选择,抽取其主元特征分量供分类器进行训练。最后,通过Bagging方法构建多个训练数据集,并采用支持向量机(SVM)对每个数据集进行训练,产生多个弱分类器,多个弱分类器投票决定测试样本所属类别。将该算法在Pointing’04数据集、CAS-PEAL-R1数据集和自建数据集上进行验证实验,实验结果表明提出的算法相比线性判别分类器(LDA)、朴素贝叶斯分类器(NB)等常用分类算法具有更高的分类准确率,对光照的变化具有较好的鲁棒性。  相似文献   

11.
基分类器之间的差异性和单个基分类器自身的准确性是影响集成系统泛化性能的两个重要因素,针对差异性和准确性难以平衡的问题,提出了一种基于差异性和准确性的加权调和平均(D-A-WHA)度量基因表达数据的选择性集成算法。以核超限学习机(KELM)作为基分类器,通过D-A-WHA度量调节基分类器之间的差异性和准确性,最后选择一组准确性较高并且与其他基分类器差异性较大的基分类器组合进行集成。通过在UCI基因数据集上进行仿真实验,实验结果表明,与传统的Bagging、Adaboost等集成算法相比,基于D-A-WHA度量的选择性集成算法分类精度和稳定性都有显著的提高,且能有效应用于癌症基因数据的分类中。  相似文献   

12.

Cancer classification is one of the main steps during patient healing process. This fact enforces modern clinical researchers to use advanced bioinformatics methods for cancer classification. Cancer classification is usually performed using gene expression data gained in microarray experiment and advanced machine learning methods. Microarray experiment generates huge amount of data, and its processing via machine learning methods represents a big challenge. In this study, two-step classification paradigm which merges genetic algorithm feature selection and machine learning classifiers is utilized. Genetic algorithm is built in MapReduce programming spirit which makes this algorithm highly scalable for Hadoop cluster. In order to improve the performance of the proposed algorithm, it is extended into a parallel algorithm which process on microarray data in distributed manner using the Hadoop MapReduce framework. In this paper, the algorithm was tested on eleven GEMS data sets (9 tumors, 11 tumors, 14 tumors, brain tumor 1, lung cancer, brain tumor 2, leukemia 1, DLBCL, leukemia 2, SRBCT, and prostate tumor) and its accuracy reached 100% for less than 25 selected features. The proposed cloud computing-based MapReduce parallel genetic algorithm performed well on gene expression data. In addition, the scalability of the suggested algorithm is unlimited because of underlying Hadoop MapReduce platform. The presented results indicate that the proposed method can be effectively implemented for real-world microarray data in the cloud environment. In addition, the Hadoop MapReduce framework demonstrates substantial decrease in the computation time.

  相似文献   

13.
吕佳  鲜焱 《计算机应用》2021,41(3):686-693
针对协同训练算法在迭代过程中加入的无标记样本的有用信息不足和多分类器对样本标记不一致导致的分类错误累积问题,提出结合改进密度峰值聚类和共享子空间的协同训练算法。该算法先采取属性集合互补的方式得到两个基分类器,然后基于虹吸平衡法则进行改进密度峰值聚类,并从簇中心出发来推进式选择相互邻近度高的无标记样本交由两个基分类器进行分类,最后利用多视图非负矩阵分解算法得到的共享子空间来确定标记不一致样本的最终类别。该算法利用改进密度峰值聚类和相互邻近度选择出更具空间结构代表性的无标记样本,并采用共享子空间来修订标记不一致的样本,解决了因样本误分类造成的分类精度低的问题。在9个UCI数据集上的多组对比实验证明了该算法的有效性,实验结果表明所提算法相较于对比算法在7个数据集上取得最高的分类正确率,在另2个数据集取得次高的分类正确率。  相似文献   

14.
宋哲理  王超  王振飞 《计算机科学》2018,45(Z11):468-473, 479
特征选择是文本分类的关键步骤,分类结果的准确度主要取决于选择得到的特征词的优劣。文中提出一种基于MapReduce的多级特征选择机制,一方面利用改进的CHI特征选择算法进行初次筛选,再通过互信息方法对初选结果进行噪声词过滤、优质特征词前置等操作;另一方面将本机制载入MapReduce模型中,以减少多级特征选择作用于海量数据的时间消耗。实验结果表明,该机制能在较短的时间内处理大规模数据,同时也提升了文本分类的精度。  相似文献   

15.
Recent researches in fault classification have shown the importance of accurately selecting the features that have to be used as inputs to the diagnostic model. In this work, a multi-objective genetic algorithm (MOGA) is considered for the feature selection phase. Then, two different techniques for using the selected features to develop the fault classification model are compared: a single classifier based on the feature subset with the best classification performance and an ensemble of classifiers working on different feature subsets. The motivation for developing ensembles of classifiers is that they can achieve higher accuracies than single classifiers. An important issue for an ensemble to be effective is the diversity in the predictions of the base classifiers which constitute it, i.e. their capability of erring on different sub-regions of the pattern space. In order to show the benefits of having diverse base classifiers in the ensemble, two different ensembles have been developed: in the first, the base classifiers are constructed on feature subsets found by MOGAs aimed at maximizing the fault classification performance and at minimizing the number of features of the subsets; in the second, diversity among classifiers is added to the MOGA search as the third objective function to maximize. In both cases, a voting technique is used to effectively combine the predictions of the base classifiers to construct the ensemble output. For verification, some numerical experiments are conducted on a case of multiple-fault classification in rotating machinery and the results achieved by the two ensembles are compared with those obtained by a single optimal classifier.  相似文献   

16.
郭冰楠  吴广潮 《计算机应用》2019,39(10):2888-2892
在网络贷款用户数据集中,贷款成功和贷款失败的用户数量存在着严重的不平衡,传统的机器学习算法在解决该类问题时注重整体分类正确率,导致贷款成功用户的预测精度较低。针对此问题,在代价敏感决策树敏感函数的计算中加入类分布,以减弱正负样本数量对误分类代价的影响,构建改进的代价敏感决策树;以该决策树作为基分类器并以分类准确度作为衡量标准选择表现较好的基分类器,将它们与最后阶段生成的分类器集成得到最终的分类器。实验结果表明,与已有的常用于解决此类问题的算法(如MetaCost算法、代价敏感决策树、AdaCost算法等)相比,改进的代价敏感决策树对网络贷款用户分类可以降低总体的误分类错误率,具有更强的泛化能力。  相似文献   

17.
王乐  韩萌  李小娟  张妮  程浩东 《计算机应用》2022,42(4):1137-1147
针对数据流集成分类如何使分类器适应不断变化的数据流,调整基分类器的权重选择合适的分类器集合的问题,提出了一种基于动态加权函数的集成分类算法。首先,提出了一种加权函数调节基分类器的权重,使用不断更新的数据块训练分类器;然后,使用一个新的权重函数对候选分类器进行一个合理的选择;最后,在基分类器中应用决策树的增量性质,实现对数据流的分类。通过大量实验发现,基于动态加权函数的集成分类算法的性能不受块的大小影响,与AUE2算法相比,叶子数平均减少了681.3、节点数平均减少了1 192.8,树的深度平均减少了4.42,同时相对地提高了准确率,降低了消耗时间。实验结果表明该算法在对数据流进行分类时不但可以保证准确率还可以节省大量的内存空间和时间。  相似文献   

18.
方丁  王刚 《计算机系统应用》2012,21(7):177-181,248
随着Web2.0的迅速发展,越来越多的用户乐于在互联网上分享自己的观点或体验。这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此基于计算机的文本情感分类技术应运而生,并且研究的重点之一就是提高分类的精度。由于集成学习理论是提高分类精度的一种有效途径,并且已在许多领域显示出其优于单个分类器的良好性能,为此,提出基于集成学习理论的文本情感分类方法。实验结果显示三种常用的集成学习方法 Bagging、Boosting和Random Subspace对基础分类器的分类精度都有提高,并且在不同的基础分类器条件下,Random Subspace方法较Bagging和Boosting方法在统计意义上更优,以上结果进一步验证了集成学习理论在文本情感分类中应用的有效性。  相似文献   

19.
为提高中医诊断的智能化以及辩证的准确度,提出一种基于多模态扰动策略的集成学习算法(MPEL算法)。首先,在样本域多次抽样产生不同的样本子空间;其次,在属性域采用改进的层次聚类特征选择算法,划分不同的属性子空间,进而训练出具有较大差异性的基分类器;然后,采用贪心策略选取最优的基分类器组合,提高算法整体性能。选择中医哮喘病症状-证型病案进行验证,并与其它集成学习算法对比,实验结果表明,改进的集成学习算法在哮喘病症状-证型分类预测中训练速度较快、识别准确率更高,最高识别率高达98.16%。  相似文献   

20.
集成分类通过将若干个弱分类器依据某种规则进行组合,能有效改善分类性能。在组合过程中,各个弱分类器对分类结果的重要程度往往不一样。极限学习机是最近提出的一个新的训练单隐层前馈神经网络的学习算法。以极限学习机为基分类器,提出了一个基于差分进化的极限学习机加权集成方法。提出的方法通过差分进化算法来优化集成方法中各个基分类器的权值。实验结果表明,该方法与基于简单投票集成方法和基于Adaboost集成方法相比,具有较高的分类准确性和较好的泛化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号