首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
针对微阵列基因表达数据高维小样本、高冗余且高噪声的问题,提出一种基于FCBF特征选择和集成优化学习的分类算法FICS-EKELM。首先使用快速关联过滤方法FCBF滤除部分不相关特征和噪声,找出与类别相关性较高的特征集合;其次,运用抽样技术生成多个样本子集,在每个训练子集上利用改进乌鸦搜索算法同步实现最优特征子集选择和核极限学习机KELM分类器参数优化;然后基于基分类器构建集成分类模型对目标数据进行分类识别;此外运用多核平台多线程并行方式进一步提高算法计算效率。在六组基因数据集上的实验结果表明,本文算法不仅能用较少特征基因达到较优的分类效果,并且分类结果显著高于已有和相似方法,是一种有效的高维数据分类方法。  相似文献   

2.
半监督学习过程中,由于无标记样本的随机选择造成分类器性能降低及不稳定性的情况经常发生;同时,面对仅包含少量有标记样本的高维数据的分类问题,传统的半监督学习算法效果不是很理想.为了解决这些问题,本文从探索数据样本空间和特征空间两个角度出发,提出一种结合随机子空间技术和集成技术的安全半监督学习算法(A safe semi-supervised learning algorithm combining stochastic subspace technology and ensemble technology,S3LSE),处理仅包含极少量有标记样本的高维数据分类问题.首先,S3LSE采用随机子空间技术将高维数据集分解为B个特征子集,并根据样本间的隐含信息对每个特征子集优化,形成B个最优特征子集;接着,将每个最优特征子集抽样形成G个样本子集,在每个样本子集中使用安全的样本标记方法扩充有标记样本,生成G个分类器,并对G个分类器进行集成;然后,对B个最优特征子集生成的B个集成分类器再次进行集成,实现高维数据的分类.最后,使用高维数据集模拟半监督学习过程进行实验,实验结果表明S3LSE具有较好的性能.  相似文献   

3.
孟军  尉双云 《计算机科学》2015,42(3):241-244, 260
针对高维数据中的类标记仅与少部分特征关联紧密的问题,提出了基于排序聚合和聚类分组的特征随机选择集成学习方法。采用排序聚合技术对特征进行过滤,选出与样本分类相关的特征,以bicor关联系数作为关联衡量标准,利用近邻传播聚类算法进行分组,使不同组的特征互不关联,然后从每个分组中随机选择一个特征生成特征子集,便可得到多个既存在差异性又具备区分能力的特征子集,最后分别在对应的特征子空间训练基分类器,采用多数投票进行融合集成。在7个基因表达数据集上的实验结果表明,提出的方法分类误差较低,分类性能稳定,可扩展性好。  相似文献   

4.
为改进SVM对不均衡数据的分类性能,提出一种基于拆分集成的不均衡数据分类算法,该算法对多数类样本依据类别之间的比例通过聚类划分为多个子集,各子集分别与少数类合并成多个训练子集,通过对各训练子集进行学习获得多个分类器,利用WE集成分类器方法对多个分类器进行集成,获得最终分类器,以此改进在不均衡数据下的分类性能.在UCI数据集上的实验结果表明,该算法的有效性,特别是对少数类样本的分类性能.  相似文献   

5.
在多标记分类问题中,有效地利用标记间的依赖关系是进一步提升分类器性能的主要途径之一。基于分类器链算法,利用互信息度量理论构造分类对象的类属性之间明确的多标记关系依赖模型,并依据建立的标记依赖模型将分类器链中的线性依赖拓展成树型依赖,以适应更为复杂的标记依赖关系;同时,在此基础上利用Stacking集成学习方法建立最终训练模型,提出了一种新的针对树型依赖表示模型的Stacking算法。 在多个实验数据集上的实验结果表明,与原有的Stacking集成学习相比,该算法提升了分类器的相应评价指标。  相似文献   

6.
提出一种针对弱标记的多标记数据集成学习分类方法,它通过采用基于相似性成对约束投影的方法来处理数据,更好地利用了弱标记样本的特征,从而提高了分类性能。  相似文献   

7.
在多标记学习中,发现与利用各标记之间的依赖关系能提高学习算法的性能。文中基于分类器链模型提出一种针对性的多标记分类算法。该算法首先量化标记间的依赖程度,并构建标记之间明确的树型依赖结构,从而可减弱分类器链算法中依赖关系的随机性,并将线性依赖关系泛化成树型依赖关系。为充分利用标记间的相互依赖关系,文中采用集成学习技术进一步学习并集成多个不同的标记树型依赖结构。实验结果表明,同分类器链等算法相比,该算法经过集成学习后有更好的分类性能,其能更有效地学习标记间的依赖关系。  相似文献   

8.
周钢  郭福亮 《计算机科学》2021,48(z1):250-254
从集成学习的预测误差分析和偏差-方差分解可以发现使用有限的、具有正确率和差异性的基学习器进行集成学习,具有更好的泛化精度.利用信息熵构建了两阶段的特征选择集成学习方法,第一阶段先按照相对分类信息熵构建精度高于0.5的基特征集B;第二阶段先在B的基础上按互信息熵标准评判独立性,运用贪心算法构建独立的特征子集,再运用Jaccard系数评价特征子集间多样性,选取多样性的独立特征子集并构建基学习器.通过数据实验分析发现,该优化方法的执行效率和测试精度优于普通Bagging方法,在多分类的高维数据集上优化效果更好,但不适用于二分类问题.  相似文献   

9.
液压缸的工况错综复杂,为了确保液压缸的正常运行,寿命预测系统采集了大量数据以获悉液压缸的寿命状况。针对液压缸监测信号噪声大、单一分类器分类性能不佳的问题,提出了一种基于深度学习的液压缸寿命预测方法。利用DAE算法对噪声数据进行重构,以完成数据的特征提取;利用BP神经网络对数据中各特征子集进行分别训练构成弱分类器,然后采用Adaboost算法对弱分类器进行加权合并成强分类器以实现数据的特征选择。通过实验验证,提出方法可有效提高液压缸的寿命预测精度。  相似文献   

10.
由于高维数据通常存在冗余和噪声,在其上直接构造覆盖模型不能充分反映数据的分布信息,导致分类器性能下降.为此提出一种基于精简随机子空间多树集成分类方法.该方法首先生成多个随机子空间,并在每个子空间上构造独立的最小生成树覆盖模型.其次对每个子空间上构造的分类模型进行精简处理,通过一个评估准则(AUC值),对生成的一类分类器进行精简.最后均值合并融合这些分类器为一个集成分类器.实验结果表明,与其它直接覆盖分类模型和bagging算法相比,多树集成覆盖分类器具有更高的分类正确率.  相似文献   

11.
Feature selection for multi-label naive Bayes classification   总被引:4,自引:0,他引:4  
In multi-label learning, the training set is made up of instances each associated with a set of labels, and the task is to predict the label sets of unseen instances. In this paper, this learning problem is addressed by using a method called Mlnb which adapts the traditional naive Bayes classifiers to deal with multi-label instances. Feature selection mechanisms are incorporated into Mlnb to improve its performance. Firstly, feature extraction techniques based on principal component analysis are applied to remove irrelevant and redundant features. After that, feature subset selection techniques based on genetic algorithms are used to choose the most appropriate subset of features for prediction. Experiments on synthetic and real-world data show that Mlnb achieves comparable performance to other well-established multi-label learning algorithms.  相似文献   

12.
基于标记特征的多标记分类算法通过对标记的正反样例集合进行聚类,计算样例与聚类中心间的距离构造样例针对标记的特征子集,并生成新的训练集,在新的训练集上利用传统的二分类器进行分类。算法在构造特征子集的过程中采用等权重方式,忽略了样例之间的相关性。提出了一种改进的多标记分类算法,通过加权方式使生成的特征子集更加准确,有助于提高样例的分类精度。实验表明改进的算法性能优于其他常用的多标记分类算法。  相似文献   

13.
Cheng  Yusheng  Song  Fan  Qian  Kun 《Applied Intelligence》2021,51(10):6997-7015

For a multi-label learning framework, each instance may belong to multiple labels simultaneously. The classification accuracy can be improved significantly by exploiting various correlations, such as label correlations, feature correlations, or the correlations between features and labels. There are few studies on how to combine the feature and label correlations, and they deal more with complete data sets. However, missing labels or other phenomena often occur because of the cost or technical limitations in the data acquisition process. A few label completion algorithms currently suitable for missing multi-label learning, ignore the noise interference of the feature space. At the same time, the threshold of the discriminant function often affects the classification results, especially those of the labels near the threshold. All these factors pose considerable difficulties in dealing with missing labels using label correlations. Therefore, we propose a missing multi-label learning algorithm with non-equilibrium based on a two-level autoencoder. First, label density is introduced to enlarge the classification margin of the label space. Then, a new supplementary label matrix is augmented from the missing label matrix with the non-equilibrium label completion method. Finally, considering feature space noise, a two-level kernel extreme learning machine autoencoder is constructed to implement the information feature and label correlation. The effectiveness of the proposed algorithm is verified by many experiments on both missing and complete label data sets. A statistical analysis of hypothesis validates our approach.

  相似文献   

14.
现有的类属属性学习方法在提取类别标签的特征时,大多仅单一考虑标签间的相关性,忽略实例和实例间以及特征与特征间的相关性,可能会降低分类精度.为了解决此问题,文中设计多类别相关性结合的类属属性多标签学习算法,考虑标签相关性、特征相关性和实例相关性.利用标签之间的余弦相似度计算标签相关性,构建相似图矩阵计算特征相关性和实例相关性.文中算法紧凑地选择标签的类属属性,提高分类精度,有效解决多标签分类遇到的维度过大问题.  相似文献   

15.
针对多标签学习中实例标签的缺失补全和预测问题,本文提出一种基于正则化的半监督弱标签分类方法(简称SWCMR),方法同时兼顾实例相似性和标签相关性.SWCMR首先根据标签相关性对弱标签实例的缺失标签进行初步预估,然后利用弱标签实例和无标签实例构造邻域图,从实例相似性和标签相关性角度构建基于平滑性假设的正则化项,接下来利用预估后的弱标签实例结合无标签实例训练半监督弱标签分类模型.在多种公共多标签数据集上的实验结果表明,SWCMR提高了分类性能,尤其是标签信息较少时,分类效果提升更显著.  相似文献   

16.
在多标记分类问题当中,多标记分类器的目的是为实例预测一个与其关联的标记集合。典型方法之一是将多标记分类问题转化为多个二类分类问题,这些二类分类器之间可以存在一定的关系。简单地考虑标记间依赖关系可以在一定程度上改善分类性能,但同时计算复杂度也是必须考虑的问题。该文提出了一种利用多标记间依赖关系的有序分类器集合算法,该算法通过启发式的搜索策略寻找分类器之间的某种次序,这种次序可以更好地反映标记间的依赖关系。在实验中,该文选取了来自不同领域的数据集和多个评价指标,实验结果表明该文所提出的算法比一般多标记分类算法具有更好的分类性能。  相似文献   

17.
林梦雷  刘景华  王晨曦  林耀进 《计算机科学》2017,44(10):289-295, 317
在多标记学习中,特征选择是解决多标记数据高维性的有效手段。每个标记对样本的可分性程度不同,这可能会为多标记学习提供一定的信息。基于这一假设,提出了一种基于标记权重的多标记特征选择算法。该算法首先利用样本在整个特征空间的分类间隔对标记进行加权,然后将特征在整个标记集合下对样本的可区分性作为特征权重,以此衡量特征对标记集合的重要性。最后,根据特征权重对特征进行降序排列,从而得到一组新的特征排序。在6个多标记数据集和4个评价指标上的实验结果表明,所提算法优于一些当前流行的多标记特征选择算法。  相似文献   

18.
在多标记学习中,如何处理高维特征一直是研究难点之一,而特征提取算法可以有效解决数据特征高维性导致的分类性能降低问题。但目前已有的多标记特征提取算法很少充分利用特征信息并充分提取"特征-标记"独立信息及融合信息。基于此,提出一种基于特征标记依赖自编码器的多标记特征提取方法。使用核极限学习机自编码器将原标记空间与原特征空间融合并产生重构后的新特征空间。一方面最大化希尔伯特-施密特范数以充分利用标记信息;另一方面通过主成分分析来降低特征提取过程中的信息损失,结合二者并分别提取"特征-特征"和"特征-标记"信息。通过在Yahoo多组高维多标记数据集上的对比实验表明,该算法的性能优于当前五种主要的多标记特征提取方法,验证了所提算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号