共查询到20条相似文献,搜索用时 31 毫秒
1.
高维数据的很多特征与类别的相关性弱,影响了随机森林的分类正确率。针对原始随机森林算法在高维数据上的分类问题,提出了一种分层子空间权重树随机森林算法。同时,传统的单机模式无法满足高维数据计算效率的需求,因此利用开源集群计算框架Spark在内存缓存和迭代计算上的优势,将所提算法在Spark上实现。所提算法采用以决策树为单位的分层抽样来生成特征子空间,在提高单棵决策树性能的同时,保证决策树之间的多样性;并且采用权重树的集成策略,使分类能力强的树在集成过程中影响力更大。通过在Mnist和Gisette数据集上的实验结果表明,相比原始随机森林算法、TWRF算法以及分层子空间随机森林算法,所提算法具有更好的正确率,提高了泛化误差性能,可扩展性良好,能够有效分类高维数据。 相似文献
2.
针对传统串行聚类集成算法在处理高维海量数据时效率低下的问题,提出基于Spark的并行聚类集成算法SCEA(Spark based Clustering Ensemble Algorithm).首先,通过主成分分析与成对约束结合的方法对算法输入数据进行预处理,达到数据降维并去除特征相关性的目的;其次,通过调用不同聚类算法获得基聚类成员后,采用三元组方法通过基聚类成员的簇标签构造出相似度矩阵,并调用层次聚类算法得到最终的聚类结果;最后,在调用MLlib中已有聚类算法的基础上,基于Scala对SCEA算法进行了实现.将SCEA与同类算法在多组数据集下进行对比测试,实验结果表明:总体上SCEA不仅较已有算法在准确率方面有所提高,并且通过分析运行时间、加速比以及可扩展性3个性能指标,证明了SCEA在算法性能上的优越性. 相似文献
3.
4.
高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特征优化。采用K-Prototypes聚类算法提取高维混合型数据的统计序列特征,评估数据与类中心的相异性,计算数据与类中心的欧氏距离,实现高维混合型数据聚类。采用异构并行计算技术进行高维混合型数据K-Prototypes聚类的并行化处理,合理分配CPU与GPU工作,达到CPU与GPU的工作负载平衡,提高K-Prototypes的聚类效率。实验结果表明,此算法对于高维混合型数据的聚类效果好、运行时间短、性能稳定。 相似文献
5.
针对抽油机故障诊断问题,提出一种基于振动特征和IWOA-stacking集成模型的抽油机故障诊断方法。首先,基于stacking算法构建了两层集成模型,模型第一层采用最小二乘支持向量机、随机森林、梯度提升模型和XGBoost模型作为基学习器,第二层采用多元线性回归作为元学习器;其次,基于改进鲸鱼优化算法对四个基学习器的超参数进行优化;最后,针对采集的振动数据优选用于故障诊断的时域特征指标,用超参数优化后的集成模型进行学习和诊断,并与4种基模型进行对比。实验结果表明,所提模型具有更高的识别效果且具有很好的泛化能力。 相似文献
6.
随机森林是近些年发展起来的新集成学习算法,具有较好的分类准确率。针对该算法计算复杂度较高的不足,提出了一种基于谱聚类划分的随机森林算法。首先,利用聚类效果较好的谱聚类算法对原始样本集的每一类进行聚类处理。然后,在每一聚类簇中随机选取一个样本作为代表,组成新训练样本集合。最后,在新训练样本集上训练随机森林分类器。该算法通过谱聚类技术对原始样本进行了初步划分,将位置相近的多个样本用簇内的一个样本代表,较大程度地减少了训练样本的个数。在Corel Image图像识别数据集上的实验表明,算法可以用较少的分类时间达到较高的分类精度。 相似文献
7.
8.
朴素贝叶斯分类算法由于其计算高效在生活中应用广泛。本文根据集成算法的差异性特征,聚类算法聚类点的选择方式的可变性,提出了基于K-medoids聚类技术的贝叶斯集成算法,朴素贝叶斯的泛化性能得到了提升。首先,通过样本集训练出多个朴素贝叶斯基分类器模型;然后,为了增大基分类器之间的差异性,利用K-medoids算法对基分类器在验证集上的预测结果进行聚类;最后,从每个聚类簇中选择泛化性能最佳的基分类器进行集成学习,最终结果由简单投票法得出。将该算法应用于UCI数据集,并与其他类似算法进行比较可得,本文提出的基于K-medoids聚类的贝叶斯集成算法(NBKME)提高了数据集的分类准确率。 相似文献
9.
10.
基于Gabor小波与RBF神经网络的人脸识别新方法 总被引:1,自引:0,他引:1
在人脸识别中,高维、小样本是一个问题.对此,提出了一种基于Gabor小波与径向基函数(RBF)神经网络的人脸识别方法.首先对人脸进行Gabor滤波,选取有效的Gabor组合.进行小波分解,获取低频图像,构造特征矢量,采用主分量分析降低特征维数.接着,提出了一种聚类方法用于确定RBF神经网络的结构和初值,采用混合学习法训练RBF神经网络.用ORL人脸库进行试验,结果表明本文提出的方法具有优秀的学习效率和识别效果. 相似文献
11.
为解决传统聚类算法无法对高维数据聚类的问题,文中提出了一种结合贪心选择和特征加权的TC-Mean shift高维数据聚类算法。通过对一维数据进行聚类,获得一维数据的聚类结果,再通过加权添加维度聚类,最终获得所有维度数据的聚类,实现对高维数据的聚类。测试结果表明,该算法能够准确地对稀疏的高维数据样本进行聚类,能够处理各种维度的数据,具有良好的实际应用价值。 相似文献
12.
13.
聚类集成旨在通过融合多个不同的基聚类结果得到一个统一的类簇划分.针对现实环境中的模糊和不确定性数据,本文提出了一种基于阴影集的多粒度三支聚类集成算法.算法首先使用FCM聚类产生一组有差异性的基聚类成员,并通过阴影集构造三支聚类.然后引入多粒度粗糙集构建了四个近似集合,将每一个类簇划分为一个核心域和三个边界域.最后对边界域中的数据依次划分到核心域中,无法划分的对象则留在边界域,最终得到了三支聚类集成的结果.实验结果表明,本算法在准确率、调整兰德系数和归一化互信息方面,与多种现有的聚类集成算法相比得到了更好的聚类集成结果. 相似文献
14.
一类分类是一种将目标类样本和其他所有的非目标类样本区分开的分类方法.传统的一类分类方法针对所有训练样本建立一个分类器,忽视了数据的内在结构,在样本分布复杂时,其分类性能会严重下降.为了提升复杂分布情况下的分类性能,该文提出一种集成式Beta过程最大间隔一类方法.该方法利用Dirichlet过程混合模型(DPM)对训练样本聚类,同时在每一个聚类学习一个Beta过程最大间隔一类分类器.通过多个分类器的集成,可以构造出一个描述能力更强的分类器,提升复杂分布下的分类效果.DPM聚类模型和Beta过程最大间隔一类分类器在同一个贝叶斯框架下联合优化,保证了每一个聚类样本的可分性.此外,在Beta过程最大间隔一类分类器中,加入了服从Beta过程先验分布的特征选择因子,从而可以降低特征冗余度以及提升分类效果.基于仿真数据、公共数据集和实测SAR图像数据的实验结果证明了所提方法的有效性. 相似文献
15.
16.
纠错输出编码作为解决多类分类问题的通用集成框架,能有效的把多类问题分解为二类问题从而使问题得以简化.然而在生成基分类器的过程中,经常面临提高基分类器之间的差异性和增加各基分类器与集成分类器学习的一致性的矛盾,称之为consistent-diverse平衡问题.在保证差异性的前提下减小由学习不一致性引起的分类错误率是解决该平衡问题的一个出发点,在此利用加权解码,通过对加权系数矩阵的再学习进而减弱和消除由基分类器学习不一致性产生的误差.实验利用人工数据集和UCI数据集分别加以验证,结果表明以集成分类器的分类错误率为适应度函数的遗传算法搜索出的最优加权系数矩阵相比其它方法产生的系数矩阵在解决consistent-diverse平衡问题更具有优越性. 相似文献
17.
针对传统集成学习方法直接应用于单类分类器效果不理想的问题,该文首先证明了集成学习方法能够提升单类分类器的性能,同时证明了若基分类器集不经选择会导致集成后性能下降;接着指出了经典集成方法直接应用于单类分类器集成时存在基分类器多样性严重不足的问题,并提出了一种能够提高多样性的基单类分类器混合生成策略;最后从集成损失构成的角度拆分集成单类分类器的损失函数,针对性地构造了集成单类分类器修剪策略并提出一种基于混合多样性生成和修剪的单类分类器集成算法,简称为PHD-EOC。在UCI标准数据集和恶意程序行为检测数据集上的实验结果表明,PHD-EOC算法兼顾多样性与单类分类性能,在各种单类分类器评价指标上均较经典集成学习方法有更好的表现,并降低了决策阶段的时间复杂度。 相似文献
18.
音频场景聚类的任务是将属于相同音频场景的音频样本合并到同一个类中.本文提出一种基于联合学习框架的音频场景聚类方法.该框架由一个卷积自编码网络(Convolution Autoencoder Network,CAN)与一个判别性聚类网络(Discriminative Clustering Network,DCN)组成.CAN包括编码器和译码器,用于提取深度变换特征,DCN用于对输入的深度变换特征进行类别估计从而实现音频场景聚类.采用DCASE-2017和LITIS-Rouen数据集作为实验数据,比较不同特征与聚类方法的性能.实验结果表明:采用归一化互信息和聚类精度作为评价指标时,基于联合学习框架提取的深度变换特征优于其他特征,本文方法优于其他方法.本文方法所需要付出的代价是需要较大的计算复杂度. 相似文献
19.
首先将聚类集成问题归结为直观的最佳子空间的求解问题;随后根据线性代数理论将该问题描述为带约束条件的优化问题,通过放松离散约束条件进一步约简为矩阵低秩近似问题;最后通过求解超图的加权邻接矩阵的奇异值分解问题获得最佳子空间的一组标准正交基.据此,设计了一个基于矩阵低秩近似的算法,该算法根据每个对象在低维空间下的坐标使用K均值算法进行聚类,从而得到最终的结果.在多组基准数据集上的实验结果表明:较之于传统的聚类集成算法,本文的算法获得了更好的聚类结果,且效率较高. 相似文献
20.
根据刚体各部位具有变换一致性这一特性,提出一种采用高维数据聚类的目标跟踪方法。从数学理论方面证明提出的度量方法可以应用于目标跟踪, 称其为高维数据聚类跟踪器(HDDC tracker)。该算法框架如下,首先, 采用Harris检测器对模板与跟踪区域进行特征提取;然后利用这些特征的空间信息对所提取的特征进行编组;接着计算模板特征组与跟踪区域特征组间的仿射变换阵;最后,采用高维数据聚类对这些仿射变换阵进行度量, 将那些相似仿射阵对应的跟踪区域作为跟踪目标。实验表明: HDDC tracker能够有效地跟踪具有仿射形变的目标,并且性能优于先进跟踪算法。 相似文献