首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
面向分布式数据流大数据分类的多变量决策树   总被引:1,自引:0,他引:1  
张宇  包研科  邵良杉  刘威 《自动化学报》2018,44(6):1115-1127
分布式数据流大数据中的类别边界不规则且易变,因此基于单变量决策树的集成分类器需要较大数量的基分类器才能准确地近似表达类别边界,这将降低集成分类器的学习与分类性能.因而,本文提出了基于几何轮廓相似度的多变量决策树.在最优基准向量的引导下将n维空间样本点投影到一维空间以建立有序投影点集合,然后通过类别投影边界将有序投影点集合划分为多个子集,接着分别对不同类别集合的交集递归投影分裂,最终生成决策树.实验表明,本文提出的多变量决策树GODT具有很高的分类精度和较低的训练时间,有效结合了单变量决策树学习效率高与多变量决策树表示能力强的优点.  相似文献   

2.
赵亮  刘建辉  王星 《计算机科学》2016,43(6):280-282, 307
分类变量的相似度分析是数据挖掘任务中的一个重要环节,现有的分类变量相似度算法中存在忽视变量差异、受不均衡分布影响严重、无法应用于混合数据集等缺点。为克服以上缺点,提出了一种基于Hellinger距离的分类变量相似度算法。该算法累加分类变量对应子集中不同属性变量的分布差异作为相似度,且支持混合数据集。将所提算法代入聚类算法并应用于UCI公共数据集,结果表明,该算法在准确度、有效性和稳定性上都有较大提高。  相似文献   

3.
一种多变量决策树方法研究   总被引:1,自引:1,他引:0  
单变量的决策树算法造成树的规模庞大,规则复杂,不易理解.本文结合粗糙集原理中的相对核及加权粗糙度的方法,提出了一种新的多变量决策树算法.通过实例表明,本文的多变量决策树方法产生的决策树比传统的ID3算法构造的决策树更简单,具有较好的分类效果.  相似文献   

4.
在网络故障诊断系统中,利用粗糙集理论约简反映网络信息的MIB变量,得出最有利于分类的变量集合.通过对约简结果构造单变量决策树的方法提取相应的决策规则,判断网络故障类型.实验结果表明,决策树构造方法简单,且提取出来的规则以决策树形式表示,规则易于理解、网络故障诊断效率较高.  相似文献   

5.
单变量决策树难以反映信息系统属性间的关联作用,构造的决策树往往规模较大。多变量决策树能较好地反映属性间的关系,得到非常简单的决策树,但使构造的决策树难以理解。针对以上两种决策树特点,提出了基于知识粗糙度的混合变量决策树的构造方法,选择知识粗糙度较小的分类属性来构造决策树。实验结果表明,这是一种操作简单、效率很高的决策树生成方法。  相似文献   

6.
一种多变量决策树的构造与研究   总被引:3,自引:0,他引:3       下载免费PDF全文
单变量决策树算法造成树的规模庞大、规则复杂、不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法(RD)。在UCI上部分数据集的实验结果表明,提出的多变量决策树算法的分类效果与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。  相似文献   

7.
目前对决策树(Decision Tree,DT)分类问题的相关研究已取得了很多成果,但仍存在一些问题,如决策树在寻找最优切分点时需要遍历特征的所有取值,当数据集规模较大时,递归构建决策树所需时间将会很长,因此在保证分类精度的前提下加速决策树的构建具有重要意义.本文首先根据数据的不同分布,给出两种特征值区间的分割方法,即...  相似文献   

8.
赵蕊  李宏 《计算机工程》2007,33(13):87-89
提出了一种多值属性和多类标数据的决策树算法(SSC),在MMC算法中,对用孩子结点的类标集相似度来评定结点属性分类效果的计算方法进行了改进,综合考虑集合的同一性和一致性,提出了相似度评定方法,使类标集相似度的计算更加全面和准确。实验证明该算法的分类效果优于MMC算法。  相似文献   

9.
潜在属性空间树分类器   总被引:2,自引:0,他引:2  
何萍  徐晓华  陈崚 《软件学报》2009,20(7):1735-1745
提出一种潜在属性空间树分类器(latent attribute space tree classifier,简称LAST)框架,通过将原属性空间变换到更容易分离数据或更符合决策树分类特点的潜在属性空间,突破传统决策树算法的决策面局限,改善树分类器的泛化性能.在LAST 框架下,提出了两种奇异值分解斜决策树(SVD (singular value decomposition) oblique decision tree,简称SODT)算法,通过对全局或局部数据进行奇异值分解,构建正交的潜在属性空间,然后在潜在属性空间内构建传统的单变量决策树或树节点,从而间接获得原空间内近似最优的斜决策树.SODT 算法既能够处理整体数据与局部数据分布相同或不同的数据集,又可以充分利用有标签和无标签数据的结构信息,分类结果不受样本随机重排的影响,而且时间复杂度还与单变量决策树算法相同.在复杂数据集上的实验结果表明,与传统的单变量决策树算法和其他斜决策树算法相比,SODT 算法的分类准确率更高,构建的决策树大小更稳定,整体分类性能更鲁棒,决策树构建时间与C4.5 算法相近,而远小于其他斜决策树算法.  相似文献   

10.
针对于使用支持向量机求解大规模复杂问题存在训练时间过长和分类精度不高等困难,本文提出了一种结合支持向量机(SvM)和K-最近邻(KNN)分类的分治算法.首先对支持向量机分类机理进行分析可以得出它作为分类器实际相当于每类只选一个代表点的最近邻分类器.在此基础上,根据分治算法的基本思想将训练集划分为多个训练子集,用每个子集单独训练一个SVM,这样每个训练子集由训练后的SVM可以分别得到正例和反例的一个代表点,由这些代表点的全体构成了整个训练集的正例和反例代表点的集合,然后在这个代表点集合基础上使用KNN分类器最为整个问题的解.实验结果表明该分治算法对于大规模数据可使训练时间大幅度下降且使分类精度不同程度提高.  相似文献   

11.
决策树算法采用递归方法构建,训练效率较低,过度分类的决策树可能产生过拟合现象.因此,文中提出模型决策树算法.首先在训练数据集上采用基尼指数递归生成一棵不完全决策树,然后使用一个简单分类模型对其中的非纯伪叶结点(非叶结点且结点包含的样本不属于同一类)进行分类,生成最终的决策树.相比原始的决策树算法,这样产生的模型决策树能在算法精度不损失或损失很小的情况下,提高决策树的训练效率.在标准数据集上的实验表明,文中提出的模型决策树在速度上明显优于决策树算法,具备一定的抗过拟合能力.  相似文献   

12.
一种与神经元网络杂交的决策树算法   总被引:7,自引:0,他引:7  
神经元网络在多数情况下获得的精度要比决策树和回归算法精度高,这是因为它能适应更复杂的模型,同时由于决策树通常每次只使用一个变量来分支,它所对应的识别空间只能是超矩形,这也就比神经元网络简单,粗度不能与神经元网络相比,然而神经元网络需要相对多的学习时间,并且其模型的可理解性不如决策树、Naive-Bayes等方法直观,本文在进行两种算法对复杂模型的识别对比后,提出了一个新的算法NNTree,这是一个决策树和神经元网络杂交的算法,决策树节点包含单变量的分支就象正常的决策树,但是叶子节点包含神经元网络分类器,这个方法针对决策树处理大型数据的效能,保留了决策树的可理解性,改善了神经元网络的学习性能,同时可使这个分类器的精度大大超过这两种算法,尤其在测试更大的数据集复杂模型时更为明显。  相似文献   

13.
基于主成分分析的多变量决策树构造方法   总被引:3,自引:0,他引:3  
大多数决策树构造方法在每个节点上只检验单个属性,这种单变量决策树忽视了信息系统中广泛存在的属性间的关联作用,而且修剪时往往代价很大。针对以上两点,提出了一种基于主成分分薪的多变量决策树构造方法,提取信息系统中的若干主成分来构造决策树。实验结果表明,这是一种操作简单,效率很高的决策树生成方法。  相似文献   

14.
We have proposed a hybrid SVM based decision tree to speedup SVMs in its testing phase for binary classification tasks. While most existing methods addressed towards this task aim at reducing the number of support vectors, we have focused on reducing the number of test datapoints that need SVM’s help in getting classified. The central idea is to approximate the decision boundary of SVM using decision trees. The resulting tree is a hybrid tree in the sense that it has both univariate and multivariate (SVM) nodes. The hybrid tree takes SVM’s help only in classifying crucial datapoints lying near decision boundary; remaining less crucial datapoints are classified by fast univariate nodes. The classification accuracy of the hybrid tree is guaranteed by tuning a threshold parameter. Extensive computational comparisons on 19 publicly available datasets indicate that the proposed method achieves significant speedup when compared to SVMs, without any compromise in classification accuracy.  相似文献   

15.
决策树是数据挖掘的一种重要方法,通常用来形成分类器和预测模型。ID3算法作为决策树的核心算法,由于它的简单与高效而得到了广泛的应用,然而它倾向于选择属性值较多的属性作为分支属性,从而可能错过分类能力强的属性。对ID3算法的分支策略进行改进,增加了对属性的类区分度的考量。经实验比较,新方法能提高决策树的精度,简化决策树。  相似文献   

16.
二叉决策树生成算法的VC维上界   总被引:1,自引:1,他引:0  
在统计学习理论中,尤其对于分类问题,VC维扮演着中心作用。大多数常用算法的VC维未知。该文计算了二叉决策树生成算法的VC维上界,获得了定理2,认为该上界随决策树的复杂度和节点可调参数个数的增大而提高。作为补充,还计算了单变量决策树非叶子节点的VC维上界,获得了定理3。为了评估定理2的数值结果,通过实验验证了有关的经验结论,发现它们在决策树复杂度较大时能够与实际符合。比较定理2和经验结论发现两者存在较大的数值差别但是变化趋势相同。探讨了产生差别的原因以及定理对实际应用的指导意义。  相似文献   

17.
一种基于属性加权的决策树算法   总被引:1,自引:0,他引:1  
ID3算法和C4.5算法是简单而有效的决策树分类算法,但其应用于复杂决策问题上存在准确性差的问题。本文提出了一种新的基于属性加权决策树算法,基于粗集理论提出通过属性对决策影响程度的不同进行加权来构建决策树,提高了决策结果准确性。通过属性加权标记属性的重要性,权值可以从训练数据中学习得到。实验结果表明,算法明显提高了决策结果的准确率。  相似文献   

18.
决策树是数据挖掘的分类应用中采用最广泛的模型之一,但是传统的ID3、C4.5和CART等算法在应用于超大型数据库的挖掘时,有效性会降得很低,甚至出现内存溢出的现象,针对此本文提出了一种基于属性加权的随机决策树算法,并通过实验证明该算法减少了对系统资源的占用,并且对高维的大数据集具有很高的分类准确率,非常适合被用于入侵检测的分类之中。  相似文献   

19.
大多数决策树构造方法在每个节点上只检验单个属性,这种单变量决策树忽视了信息系统中广泛存在的属性间的关联作用,而且修剪时往往代价很大。针对以上两点,提出了一种基于主成分分析的多变量决策树构造方法,提取信息系统中的若干主成分来构造决策树。实验结果表明,这是一种操作简单,效率很高的决策树生成方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号