首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 922 毫秒
1.
基于粗糙集的决策树算法由于粒化冲突与噪声影响容易导致特征选择的失效。提出属性纯度并结合属性依赖度来构建决策树归纳算法。采用统计集成策略来建立属性纯度,表示决策分类关于条件分类的识别性,并用于相应的属性特征选择;分析属性纯度与属性依赖度的同质性和异态性,采用先属性依赖度后属性纯度选择节点的方法,改进基于粗糙集的决策树算法。决策表例分析与数据实验对比均表明所提算法的有效性与改进性。  相似文献   

2.
决策树是数据挖掘的一种重要方法,通常用来形成分类器和预测模型。ID3算法作为决策树的核心算法,由于它的简单与高效而得到了广泛的应用,然而它倾向于选择属性值较多的属性作为分支属性,从而可能错过分类能力强的属性。对ID3算法的分支策略进行改进,增加了对属性的类区分度的考量。经实验比较,新方法能提高决策树的精度,简化决策树。  相似文献   

3.
决策树是数据挖掘的一种重要方法,通常用来形成分类器和预测模型。ID3算法作为决策树的核心算法,由于它的简单与高效而得到了广泛的应用,然而它倾向于选择属性值较多的属性作为分支属性,从而可能错过分类能力强的属性。对ID3算法的分支策略进行改进,增加了对属性的类区分度的考量。经实验比较,新方法能提高决策树的精度,简化决策树。  相似文献   

4.
处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度.在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算法的方法,能更合理更准确地对连续属性进行离散化,在此基础上创建的决策树具有更好的准确率.实验结果表明,基于改进方法的C5.0算法创建的决策树分类模型具有较高的分类准确率.  相似文献   

5.
许俊 《福建电脑》2006,(12):34-35
决策树是分类数据挖掘的重要方法。其中,经典ID3算法根据具有最大信息增益的属性对训练样本集进行分类,适用于离散型属性。C4.5算法延用了ID3算法的基本策略,增加了处理连续数值型属性的方法。本文在其基础上讨论了新的基于属性变换的离散化处理方法。该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度。  相似文献   

6.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

7.
高效性和可扩展性是多关系数据挖掘中最重要的问题,而提高算法效率的主要瓶颈在于假设空间,且用户对分类的指导会在很大程度上帮助系统完成分类任务,减少系统独自摸索的时间。针对以上问题提出了改进的多关系决策树算法,即将虚拟连接元组传播技术和提出的背景属性传递技术应用到多关系决策树算法中。对改进的多关系决策树算法进行了理论证明,并且对多关系决策树算法和改进的多关系决策树算法进行比较实验。通过实验可以得出,当改进的多关系决策树在搜索数据项达到背景属性传递阈值时,改进的多关系决策树算法的效率相对很高且受属性个数增加(或  相似文献   

8.
属性频率划分和信息熵离散化的决策树算法   总被引:2,自引:0,他引:2       下载免费PDF全文
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。  相似文献   

9.
基于朴素贝叶斯与ID3算法的决策树分类   总被引:2,自引:0,他引:2       下载免费PDF全文
v在朴素贝叶斯算法和ID3算法的基础上,提出一种改进的决策树分类算法。引入客观属性重要度参数,给出弱化的朴素贝叶斯条件独立性假设,并采用加权独立信息熵作为分类属性的选取标准。理论分析和实验结果表明,改进算法能在一定程度上克服ID3算法的多值偏向问题,并且具有较高的执行效率和分类准确度。  相似文献   

10.
潜在属性空间树分类器   总被引:2,自引:0,他引:2  
何萍  徐晓华  陈崚 《软件学报》2009,20(7):1735-1745
提出一种潜在属性空间树分类器(latent attribute space tree classifier,简称LAST)框架,通过将原属性空间变换到更容易分离数据或更符合决策树分类特点的潜在属性空间,突破传统决策树算法的决策面局限,改善树分类器的泛化性能.在LAST 框架下,提出了两种奇异值分解斜决策树(SVD (singular value decomposition) oblique decision tree,简称SODT)算法,通过对全局或局部数据进行奇异值分解,构建正交的潜在属性空间,然后在潜在属性空间内构建传统的单变量决策树或树节点,从而间接获得原空间内近似最优的斜决策树.SODT 算法既能够处理整体数据与局部数据分布相同或不同的数据集,又可以充分利用有标签和无标签数据的结构信息,分类结果不受样本随机重排的影响,而且时间复杂度还与单变量决策树算法相同.在复杂数据集上的实验结果表明,与传统的单变量决策树算法和其他斜决策树算法相比,SODT 算法的分类准确率更高,构建的决策树大小更稳定,整体分类性能更鲁棒,决策树构建时间与C4.5 算法相近,而远小于其他斜决策树算法.  相似文献   

11.
针对决策树C4.5算法在处理连续值属性过程中时间复杂度较高的问题,提出一种新的决策树构建方法:采用概率论中属性间的相关系数(Pearson),对数据集中的属性进行约简;结合属性的信息增益率,保留决策属性的最优子集,保证属性子集中没有冗余属性;采用边界点的判定,改进了连续值属性离散化过程中阈值分割方法,对信息增益率的计算进行修正。采用UCI数据库中的数据集,在Pycharm平台上进行一系列对比实验,结果表明:采用改进后C4.5决策树算法,决策树生成效率提高了约50%,准确率提升约2%,比较有效地解决了原C4.5算法属性选择偏连续值属性的问题。  相似文献   

12.
针对决策者在面对几个分类结果时会有选择其中某一个结果的倾向性这一事实,提出了一种基于相关性的类偏好敏感决策树分类算法(CPSDT)。该算法引入了类偏好度、偏好代价矩阵等概念。为弥补在传统决策树构造过程中,选择分裂属性时未考虑非类属性之间相关性的不足,该算法在进行学习之前先采用基于相关性的特征预筛选排除属性冗余并重新构造了基于相关性的属性选择因子。经实验证明,该算法能够有效减小决策树规模,且能够在实现对偏好类的高精度预测的同时保证决策树拥有较好的整体精度。  相似文献   

13.
区间值属性单调决策树算法是处理区间值属性单调分类问题的重要途径之一,但此算法构建决策树过程中没有考虑属性间的相关性,因此极可能继续分类没有意义或意义很小的冗余属性。针对以上不足,在区间值属性单调决策树算法的基础上,分析了区间值属性之间的冗余信息对构建单调决策树的影响,并提出了一种扩展算法,要求选取的扩展属性不仅与决策属性的排序互信息值最大,还与同一分支上已被选取的条件属性的排序互信息值最小。实验结果表明,考虑了区间值属性间的交互信息后,可避免同一条件属性的重复选择,与已有的算法相比,该扩展算法能构建出更优的单调决策树。  相似文献   

14.
华文立  胡学刚 《微机发展》2007,17(3):116-118
在分析C4.5算法原理的基础上,进一步讨论了C4.5算法在决策树的规模控制、属性选择、滤躁和去除不相关属性等方面的不足,讨论了决策树挖掘中对训练数据进行属性约简的必要性。从实用的角度提出了一种利用遗传算法进行寻优的、基于属性约简的决策树构建模型,并为此模型设计了一个适应度函数。该模型具有自适应的特点,通过调整适应度函数的参数,可以约束遗传算法的寻优方向,实现对决策树的优化。实验表明,决策树寻优后,在所用训练集属性减少的同时,分类精度却有一定程度的提高,而分类规则的规模却降低了,因此,该模型具有一定的实用价值。  相似文献   

15.
采用粗糙集理论中的属性重要度作为挑选测试属性的指标来构造决策树,形成了一种新的决策树分类算法S_D_Tree,在计算挑选测试属性的时间复杂度为O(|C||n|)。实验结果表明,该算法可以构建一个较简洁的决策树,与C4.5算法相比较,具有更好的预测准确率。  相似文献   

16.
基于C4.5决策树的流量分类方法   总被引:18,自引:1,他引:17  
徐鹏  林森 《软件学报》2009,20(10):2692-2704
近年来,利用机器学习方法处理流量分类问题成为网络测量领域一个新兴的研究方向.在现有研究中,朴素贝叶斯方法及其改进算法以其实现简单、分类高效的特点而被广泛应用.但此类方法过分依赖于样本在样本空间的分布,具有潜在的不稳定性.为此,引入C4.5决策树方法来处理流量分类问题.该方法利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.理论分析和实验结果都表明,利用C4.5决策树来处理流量分类问题在分类稳定性上均具有明显的优势.  相似文献   

17.
针对增强现实系统三维注册在线跟踪模型漂移问题,以及特征检测算法耗时问题导致的注册失败。提出一种基于MEEM跟踪和改进ORB特征检测的三维注册方法。通过MEEM算法对移动对象区域跟踪。对跟踪的目标位置采用ORB算法检测特征点时,采用多尺度空间理论提取稳定特征点,并且采用改进决策树的递归调整方式,同时对特征检测参数设置。利用相邻帧之间特征点的匹配关系求得三维注册矩阵;将跟踪数据集与OpenGL生成的立方体模型进行跟踪注册仿真实验。仿真结果表明,改进ORB特征检测算法对待注册区域的检测具有尺度不变性、更高稳定性以及特征分布均匀,误差相比ORB算法降低约42%,该注册方法在运行过程中基本能够保证误差在7 mm以内;使得AR系统具有较好的实时性、精确性和鲁棒性。  相似文献   

18.
基于RBF神经网络和决策树的文本分类方法   总被引:3,自引:0,他引:3  
该文根据CH I值原理、基于R BF神经网络和决策树原理,提出了一种文本分类的新方法。决策树分类方法具有出色的数据分析效率和容易抽取易于理解的分类规则等优势,但只能应用于维数较低的特征空间,对于维数达成千上万维的文本分类问题很难应用。该文分析了CH I值原理,提出了一种改进的CH I值;并用改进的CH I值选择了对每个文本类别分类贡献大的若干词条,并采用基于RBF神经网络方法对选择的特征进行进一步提取,因此得到维数较小的文本向量空间。最后再使用决策树进行分类,从而既保证了分类精度又可很容易地抽取出分类规则。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号