首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
为了提高不平衡数据集中少数类的分类准确率,文章对组合分类算法进行了研究,提出了一种新的组合分类算法WDB.该算法采用决策树C4.5和朴素贝叶斯两种不同的分类器作为基分类器,选择精确度(precision)作为权值,根据不同的训练集,通过"权值学习"的方式自动调整各基分类器的权值大小,然后,结合各基分类器的预测结果,利用加权平均法进行代数组合,构造出一种新的分类算法WDB.最后,以开放的不平衡数据集作为数据源,利用常见的性能评价指标进行实验验证.实验结果证明,在组合分类算法中引入"权值学习"能够发挥基分类器对于特定数据类型的分类优势,提高预测结果的准确率.WDB算法对不平衡数据集分类的性能优于决策树C4.5算法、朴素贝叶斯算法及随机森林算法,能够有效提升不平衡数据集中少数类的分类准确率.  相似文献   

2.
吕佳  鲜焱 《计算机应用》2021,41(3):686-693
针对协同训练算法在迭代过程中加入的无标记样本的有用信息不足和多分类器对样本标记不一致导致的分类错误累积问题,提出结合改进密度峰值聚类和共享子空间的协同训练算法。该算法先采取属性集合互补的方式得到两个基分类器,然后基于虹吸平衡法则进行改进密度峰值聚类,并从簇中心出发来推进式选择相互邻近度高的无标记样本交由两个基分类器进行分类,最后利用多视图非负矩阵分解算法得到的共享子空间来确定标记不一致样本的最终类别。该算法利用改进密度峰值聚类和相互邻近度选择出更具空间结构代表性的无标记样本,并采用共享子空间来修订标记不一致的样本,解决了因样本误分类造成的分类精度低的问题。在9个UCI数据集上的多组对比实验证明了该算法的有效性,实验结果表明所提算法相较于对比算法在7个数据集上取得最高的分类正确率,在另2个数据集取得次高的分类正确率。  相似文献   

3.
提出了一种使用基于规则的基分类器建立组合分类器的新方法PCARules。尽管新方法也采用基分类器预测的加权投票来决定待分类样本的类,但是为基分类器创建训练数据集的方法与bagging和boosting完全不同。该方法不是通过抽样为基分类器创建数据集,而是随机地将特征划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将所有训练数据映射到新的特征空间作为基分类器的训练集。在UCI机器学习库的30个随机选取的数据集上的实验表明:算法不仅能够显著提高基于规则的分类方法的分类性能,而且与bagging和boosting等传统组合方法相比,在大部分数据集上都具有更高的分类准确率。  相似文献   

4.
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。  相似文献   

5.
吴涛  陈黎飞  钟韵宁  孔祥增 《计算机应用研究》2023,40(11):3303-3308+3314
针对传统K-means型软子空间聚类技术中子空间差异度量定义的困难问题,提出一种基于概率距离的子空间差异表示模型,以此为基础提出一种自适应的投影聚类算法。该方法首先基于子空间聚类理论提出一个描述各簇类所关联的软子空间之间的相异度公式;其次,将其与软子空间聚类相结合,定义了聚类目标优化函数,并根据局部搜索策略给出了聚类算法过程。在合成和实际数据集上进行了一系列实验,结果表明该算法引入子空间比较可以为簇类学习更优的软子空间;与现有主流子空间聚类算法相比,所提算法大幅度提升了聚类精度,适用于高维数据聚类分析。  相似文献   

6.
N-gram字符序列能有效捕捉文本中作者的个体风格信息,但其特征空间稀疏度高,且存在较多噪音特征。针对该问题,提出一种基于半随机特征采样的中文书写纹识别算法。该算法首先采用一种离散度准则为每个作者选取一定粒度的个体特征集,然后将个体特征集以一种半随机选择机制划分成多个等维度的特征子空间,并基于每个子空间训练相应的基分类器,最后采取多数投票法的融合策略构造集成分类模型。在中文真实数据集上与基于随机子空间和Bagging算法的集成分类器进行了对比试验,结果表明,该算法在正确率和差异度方面优于随机子空间和Baggrog算法,并且取得了比单分类模型更好的识别性能。  相似文献   

7.
郝晓丽  张靖 《计算机科学》2014,41(6):260-263
针对传统径向基函数神经网络构造的网络分类器通常存在分类精度不高、训练时间长等缺陷,首先提出了一种改进的自适应聚类算法,用于确定分类器的隐含层节点。该算法通过筛选基于轮廓系数的优秀样本群,来寻找最佳初始聚类中心,避免了传统K-means算法易受初始聚类中心点影响,导致最终的分类效果严重偏离全局等情况的发生。其次,将该改进算法用于构造径向基函数神经网络分类器和快速有效地确定隐含层节点径向基函数中心及函数的宽度。最后,通过大量UCI数据集的实验和仿真,验证了改进算法在聚类时间、聚类轮廓系数及聚类正确率等方面具有优越性。同时,大量的仿真实验也证明了基于改进算法构造的RBF分类器具有更高的分类精度。  相似文献   

8.
聚类算法在银行客户细分中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
针对聚类算法在金融领域广泛应用的实际情况,基于银行客户数据集,对DBSCAN, K-means和X-means 3种聚类算法在执行效率、可扩展性、异常点检测能力等方面进行对比分析,并提出将X-means算法应用于银行业客户细分。利用X-means算法建立了一套银行客户细分模型,为银行决策者提供科学的决策支持。  相似文献   

9.
范莹  计华  张化祥 《计算机应用》2008,28(5):1204-1207
提出一种新的基于模糊聚类的组合分类器算法,该算法利用模糊聚类技术产生训练样本的分布特征,据此为每一个样本赋予一个权值,来确定它们被采样的概率,利用采样样本训练的分类器调整训练集的采样概率,依次生成新的分类器直至达到一定的精度。该组合分类器算法在UCI的多个标准数据集上进行了测试,并与Bagging和AdaBoost算法进行了比较,实验结果表明新的算法具有更好的健壮性和更高的分类精度。  相似文献   

10.
多层自动确定类别的谱聚类算法   总被引:1,自引:0,他引:1  
金慧珍  赵辽英 《计算机应用》2008,28(5):1229-1231
自动确定聚类数和海量数据的处理是谱聚类的关键问题。在自动确定聚类数谱聚类算法的基础上,提出了一种能处理大规模数据集的多层算法。该算法的核心思想是把大规模数据集根据一定的相关性逐级进行合并,使之成为小数据集,再对分组后的小数据集用自动确定类别的谱聚类算法聚类,最后逐层进行拆分并微调, 完成全部数据的聚类。实验证明该算法的聚类效果很好。  相似文献   

11.
作为一种典型的大数据,数据流具有连续、无限、概念漂移和快速到达等特点,因此传统的分类技术无法直接有效地应用于数据流挖掘。本文在经典的精度加权集成(Accuracy weighted ensemble,AWE)算法的基础上提出概念自适应快速决策树更新集成(Concept very fast decision tree update ensemble,CUE)算法。该算法不仅在基分类器的权重分配方面进行了改进,而且在解决数据块大小的敏感性问题以及增加基分类器之间的相异性方面,有明显的改善。实验表明在分类准确率上,CUE算法高于AWE算法。最后,提出聚类动态分类器选择(Dynamic classifier selection with clustering,DCSC)算法。该算法基于分类器动态选择的思想,没有繁琐的赋权值机制,所以时间效率较高。实验结果验证了DCSC算法的有效和高效性,并能有效地处理概念漂移。  相似文献   

12.
Ensemble learning is attracting much attention from pattern recognition and machine learning domains for good generalization. Both theoretical and experimental researches show that combining a set of accurate and diverse classifiers will lead to a powerful classification system. An algorithm, called FS-PP-EROS, for selective ensemble of rough subspaces is proposed in this paper. Rough set-based attribute reduction is introduced to generate a set of reducts, and then each reduct is used to train a base classifier. We introduce an accuracy-guided forward search and post-pruning strategy to select part of the base classifiers for constructing an efficient and effective ensemble system. The experiments show that classification accuracies of ensemble systems with accuracy-guided forward search strategy will increase at first, arrive at a maximal value, then decrease in sequentially adding the base classifiers. We delete the base classifiers added after the maximal accuracy. The experimental results show that the proposed ensemble systems outperform bagging and random subspace methods in terms of accuracy and size of ensemble systems. FS-PP-EROS can keep or improve the classification accuracy with very few base classifiers, which leads to a powerful and compact classification system.  相似文献   

13.
结合随机子空间和核极端学习机集成提出了一种新的高光谱遥感图像分类方法。首先利用随机子空间方法从高光谱遥感图像数据的整体特征中随机生成多个大小相同的特征子集;然后利用核极端学习机在这些特征子集上进行训练从而获得基分类器;最后将所有基分类器的输出集成起来,通过投票机制得到分类结果。在高光谱遥感图像数据集上的实验结果表明:所提方法能够提高分类效果,且其分类总精度要高于核极端学习机和随机森林方法。  相似文献   

14.
针对microRNA识别方法中过多注重新特征、忽略弱分类能力特征和冗余特征,导致敏感性和特异性指标不佳或两者不平衡的问题,提出一种基于特征聚类和随机子空间的集成算法CLUSTER-RS。该算法采用信息增益率剔除部分弱分类能力的特征后,利用信息熵度量特征之间相关性,对特征进行聚类,再从每个特征簇中随机选取等量特征组成特征集用于构建基分类器,最后将基分类器集成用于microRNA识别。通过调整参数、选择基分类器实现算法最优化后,在microRNA最新数据集上与经典方法Triplet-SVM、miPred、MiPred、microPred和HuntMi进行对比实验,结果显示CLUSTER-RS在识别中敏感性不及microPred但优于其他模型,特异性为六者最优,而且从整体性能指标准确性和马修兹系数可以看出,CLUSTER-RS比其他算法具有优势。结果表明,CLUSTER-RS取得了较好的识别效果,在敏感性和特异性上实现了很好的平衡,即在性能指标平衡方面优于对比方法。  相似文献   

15.

Human-centric driver assistance systems with integrated sensing, processing and networking aim to find solutions for traffic accidents and other relevant issues. The key technology for developing such a system is the capability of automatically understanding and characterizing driver behaviors. This paper proposes a novel driving posture recognition approach, which consists of an efficient combined feature extraction and a random subspace ensemble of multilayer perceptron classifiers. A Southeast University Driving Posture Database (SEU-DP Database) has been created for training and testing the proposed approach. The data set contains driver images of (1) grasping the steering wheel, (2) operating the shift lever, (3) eating a cake and (4) talking on a cellular phone. Combining spatial scale features and histogram-based features, holdout and cross-validation experiments on driving posture classification are conducted, comparatively. The experimental results indicate that the proposed combined feature extraction approach with random subspace ensemble of multilayer perceptron classifiers outperforms the two individual feature extraction approaches. The experiments also suggest that talking on a cellular phone is the most difficult posture in classification among the four predefined postures. Using the proposed approach, the classification accuracy on talking on a cellular phone is over 89 % in both holdout and cross-validation experiments. These results show the effectiveness of the proposed combined feature extraction approach and random subspace ensemble of multilayer perceptron classifiers in automatically understanding and characterizing driver behaviors toward human-centric driver assistance systems.

  相似文献   

16.
由于高维数据通常存在冗余和噪声,在其上直接构造覆盖模型不能充分反映数据的分布信息,导致分类器性能下降.为此提出一种基于精简随机子空间多树集成分类方法.该方法首先生成多个随机子空间,并在每个子空间上构造独立的最小生成树覆盖模型.其次对每个子空间上构造的分类模型进行精简处理,通过一个评估准则(AUC值),对生成的一类分类器进行精简.最后均值合并融合这些分类器为一个集成分类器.实验结果表明,与其它直接覆盖分类模型和bagging算法相比,多树集成覆盖分类器具有更高的分类正确率.  相似文献   

17.
Rotation Forest, an effective ensemble classifier generation technique, works by using principal component analysis (PCA) to rotate the original feature axes so that different training sets for learning base classifiers can be formed. This paper presents a variant of Rotation Forest, which can be viewed as a combination of Bagging and Rotation Forest. Bagging is used here to inject more randomness into Rotation Forest in order to increase the diversity among the ensemble membership. The experiments conducted with 33 benchmark classification data sets available from the UCI repository, among which a classification tree is adopted as the base learning algorithm, demonstrate that the proposed method generally produces ensemble classifiers with lower error than Bagging, AdaBoost and Rotation Forest. The bias–variance analysis of error performance shows that the proposed method improves the prediction error of a single classifier by reducing much more variance term than the other considered ensemble procedures. Furthermore, the results computed on the data sets with artificial classification noise indicate that the new method is more robust to noise and kappa-error diagrams are employed to investigate the diversity–accuracy patterns of the ensemble classifiers.  相似文献   

18.
Credit scoring aims to assess the risk associated with lending to individual consumers. Recently, ensemble classification methodology has become popular in this field. However, most researches utilize random sampling to generate training subsets for constructing the base classifiers. Therefore, their diversity is not guaranteed, which may lead to a degradation of overall classification performance. In this paper, we propose an ensemble classification approach based on supervised clustering for credit scoring. In the proposed approach, supervised clustering is employed to partition the data samples of each class into a number of clusters. Clusters from different classes are then pairwise combined to form a number of training subsets. In each training subset, a specific base classifier is constructed. For a sample whose class label needs to be predicted, the outputs of these base classifiers are combined by weighted voting. The weight associated with a base classifier is determined by its classification performance in the neighborhood of the sample. In the experimental study, two benchmark credit data sets are adopted for performance evaluation, and an industrial case study is conducted. The results show that compared to other ensemble classification methods, the proposed approach is able to generate base classifiers with higher diversity and local accuracy, and improve the accuracy of credit scoring.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号