首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
针对样本中有无关的、冗余的属性会降低决策树算法的分类精度,本文提出基于一致性度量属性约简后构建决策树的方法。对UCI机器学习数据库中5个两类分类样本离散化后,分别基于粗糙集和一致性度量的属性约简来构建C45和CART决策树,实验表明基于一致性度量属性约简构建的决策树有较高的精度和可行性。  相似文献   

2.
一种改进的CAIM算法   总被引:1,自引:0,他引:1       下载免费PDF全文
在CAIM算法中,离散判别式仅考虑了区间中最多的类与属性间的依赖度,使离散化过度而导致结果不精确。基于此,提出对CAIM的改进算法,该算法考虑到按属性重要性从小到大顺序进行离散,同时根据粗糙集理论提出条件属性可分辨率概念,与近似精度同时控制信息表最终的离散程度,有效解决了离散化过度问题。实验通过C4.5和支持向量机分别对离散化后的数据进行识别和分类预测,结果证明了该算法的有效性。  相似文献   

3.
基于Cramer’s V的连续属性离散化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
郭启铭  樊玮 《计算机工程》2008,34(4):111-112
在类-属性相关离散化方法的基础上,提出一种基于Cramer’s V的连续属性离散化算法CVM,该方法利用统计学中的Cramer’s V来量化类-属性相关度,以保证离散后的类-属性相关度最大。与CADD和CAIM算法的实验比较以及对离散化后的数据进行C4.5分类测试,表明CVM算法性能良好,其离散化的数据明显地提高了分类器的预测精度。  相似文献   

4.
针对粒子群属性约简算法容易早熟、易陷入局部最优解的问题,提出一种融合混沌离散粒子群与粗糙集的属性约简算法(CBPSORS).在该算法中,首先利用混沌序列初始化粒子的位置和速度,得到一个无序的粒子种群.其次改进最优粒子进行混沌变异过程,改进惯性因子和加速因子来提高算法性能.再次用粗糙集理论对生成的属性子集相关性进行评估.最后用K-近邻(KNN)算法生成分类模型在UCI数据集上对该算法进行验证.理论分析与实验结果表明,与基于粗糙集的属性约简算法(RS)、基于粒子群的粗糙集属性约简算法(PSORS)以及基于遗传算法的粗糙集属性约简算法(GARS)相比,文中算法可以在保持决策表知识信息的前提下,约减掉更多的条件属性,提高分类精度.  相似文献   

5.
根据医学图像数据的特性,提出一种基于粗糙集和决策树相结合的数据挖掘新方法。该方法利用粗糙集中基于属性重要性的离散化方法对医学图像特征进行离散化,采用粗糙集对其属性进行约简,得到低维训练数据,再用SLIQ决策树算法产生决策规则。实验表明:将粗糙理论与SLIQ相结合的数据挖掘方法既保留了原始数据的内部特点,同时剔除了与分类无关或关系不大的冗余特征,从而提高了分类的准确率和效率。  相似文献   

6.
华文立  胡学刚 《微机发展》2007,17(3):116-118
在分析C4.5算法原理的基础上,进一步讨论了C4.5算法在决策树的规模控制、属性选择、滤躁和去除不相关属性等方面的不足,讨论了决策树挖掘中对训练数据进行属性约简的必要性。从实用的角度提出了一种利用遗传算法进行寻优的、基于属性约简的决策树构建模型,并为此模型设计了一个适应度函数。该模型具有自适应的特点,通过调整适应度函数的参数,可以约束遗传算法的寻优方向,实现对决策树的优化。实验表明,决策树寻优后,在所用训练集属性减少的同时,分类精度却有一定程度的提高,而分类规则的规模却降低了,因此,该模型具有一定的实用价值。  相似文献   

7.
税收信用分类管理在税务系统中起着重要作用,应用分类算法解决税收信用等级手工评定问题是当前税务系统的难题之一.决策树算法是分类算法中一类重要算法,其中以C4.5算法最为经典,但该算法在连续属性离散化方面花费时间成本较多.该文在C4.5连续属性离散化算法基础上引入基于经验值的窗口分割技术,在保证生成决策树准确率的前提下,有效的提高了算法运行效率.应用改进算法构造税收信用等级判定决策树,并根据构造的决策树实现对纳税人税收信用等级的自动判决.  相似文献   

8.
处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度.在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算法的方法,能更合理更准确地对连续属性进行离散化,在此基础上创建的决策树具有更好的准确率.实验结果表明,基于改进方法的C5.0算法创建的决策树分类模型具有较高的分类准确率.  相似文献   

9.
一种基于一致性准则的属性约简算法   总被引:3,自引:0,他引:3  
粗糙集方法提供了一种新的处理不精确、不完全与不相容知识的数学工具.属性约简是粗糙集理论的重要研究内容之一,已有的大多数属性约简算法主要针对离散值属性的约简,面向连续值属性的约简报道较少.为此,在引入新的对象一致性定义后,提出一种新的基于一致性准则的属性约简模型,该模型可针对离散或连续值属性进行有效的约简,是经典粗糙集属性约简模型的有效推广.依据新模型,提出了一种基于一致性准则的属性约简算法,该算法可有效进行连续值属性的约简,且通过错分对象数的控制可有效增强属性约简的有效性.理论分析和实验表明提出的算法是有效可行的.  相似文献   

10.
基于粗糙集的决策树构造算法   总被引:7,自引:2,他引:5       下载免费PDF全文
针对ID3算法构造决策树复杂、分类效率不高问题,基于粗糙集理论提出一种决策树构造算法。该算法采用加权分类粗糙度作为节点选择属性的启发函数,与信息增益相比,能全面地刻画属性分类的综合贡献能力,并且计算简单。为消除噪声对选择属性和生成叶节点的影响,利用变精度粗糙集模型对该算法进行优化。实验结果表明,该算法构造的决策树在规模与分类效率上均优于ID3算法。  相似文献   

11.
采用粗糙集理论中的属性重要度作为挑选测试属性的指标来构造决策树,形成了一种新的决策树分类算法S_D_Tree,在计算挑选测试属性的时间复杂度为O(|C||n|)。实验结果表明,该算法可以构建一个较简洁的决策树,与C4.5算法相比较,具有更好的预测准确率。  相似文献   

12.
CAIM discretization algorithm   总被引:8,自引:0,他引:8  
The task of extracting knowledge from databases is quite often performed by machine learning algorithms. The majority of these algorithms can be applied only to data described by discrete numerical or nominal attributes (features). In the case of continuous attributes, there is a need for a discretization algorithm that transforms continuous attributes into discrete ones. We describe such an algorithm, called CAIM (class-attribute interdependence maximization), which is designed to work with supervised data. The goal of the CAIM algorithm is to maximize the class-attribute interdependence and to generate a (possibly) minimal number of discrete intervals. The algorithm does not require the user to predefine the number of intervals, as opposed to some other discretization algorithms. The tests performed using CAIM and six other state-of-the-art discretization algorithms show that discrete attributes generated by the CAIM algorithm almost always have the lowest number of intervals and the highest class-attribute interdependency. Two machine learning algorithms, the CLIP4 rule algorithm and the decision tree algorithm, are used to generate classification rules from data discretized by CAIM. For both the CLIP4 and decision tree algorithms, the accuracy of the generated rules is higher and the number of the rules is lower for data discretized using the CAIM algorithm when compared to data discretized using six other discretization algorithms. The highest classification accuracy was achieved for data sets discretized with the CAIM algorithm, as compared with the other six algorithms.  相似文献   

13.
董跃华  刘力 《计算机应用》2016,36(1):188-193
针对经典粗糙集只能处理离散型属性的问题,提出一种基于自适应混合粒子群优化(AHPSO)的离散化算法。首先,引入自适应调整策略,以克服粒子群易陷入局部解的缺点,提高了粒子群全局寻优能力;然后对每一代全局最优粒子进行禁忌搜索(TS),得到当代最佳全局最优粒子,增强了粒子群局部搜索能力;最后,在保持决策表分类能力不变的情况下,将属性离散化分割点初始化为粒子群体,通过粒子间的相互作用得到最佳的离散化分割点。使用WEKA平台上的J48决策树分类方法,与基于属性重要度、信息熵的离散化算法相比,该算法的分类精度提升了10%~20%;与基于小生境离散粒子群优化(NDPSO)、参数线性递减粒子群的离散化算法相比,该算法的分类精度提升了2%~5%。实验结果表明,该算法显著地提高了J48决策树的分类学习精度,在对数据离散化时也有较好的性能。  相似文献   

14.
基于知识的模型自动选择策略   总被引:1,自引:0,他引:1       下载免费PDF全文
戴超凡  冯旸赫 《计算机工程》2010,36(11):170-172
模型自动选择是决策支持系统智能化发展的必然要求。针对目前实用算法较少的现状,提出一种模型自动选择策略。基于知识框架描述模型,根据事实库和知识库提取相应规则生成推理树,结合经验和专业知识实现模型自动选择。实验结果表明,该策略具有较高的命中率。  相似文献   

15.
针对决策树C4.5算法在处理连续值属性过程中时间复杂度较高的问题,提出一种新的决策树构建方法:采用概率论中属性间的相关系数(Pearson),对数据集中的属性进行约简;结合属性的信息增益率,保留决策属性的最优子集,保证属性子集中没有冗余属性;采用边界点的判定,改进了连续值属性离散化过程中阈值分割方法,对信息增益率的计算进行修正。采用UCI数据库中的数据集,在Pycharm平台上进行一系列对比实验,结果表明:采用改进后C4.5决策树算法,决策树生成效率提高了约50%,准确率提升约2%,比较有效地解决了原C4.5算法属性选择偏连续值属性的问题。  相似文献   

16.
王蓉  刘遵仁  纪俊 《计算机科学》2017,44(Z11):129-132
传统的ID3决策树算法存在属性选择困难、分类效率不高、抗噪性能不强、难以适应大规模数据集等问题。针对该情况,提出一种基于属性重要度及变精度粗糙集的决策树算法,在去除噪声数据的同时保证了决策树的规模不会太庞大。利用多个UCI标准数据集对该算法进行了验证,实验结果表明该算法在所得决策树的规模和分类精度上均优于ID3算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号