首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
ID3算法是数据挖掘分类中的一种重要算法,它是以信息增益作为属性选择的标准。针对 ID3算法存在的一些不足,提出一种基于修正参数简化标准的 ID3改进算法:1)在信息熵中引入修正参数;2)对引入修正参系数后的信息熵进行简化。实验数据结果表明,改进后的算法能得到更合理、更有效的规则,不仅在一定程度上克服了取值偏向问题,同时减少计算量。  相似文献   

2.
《软件》2016,(12):89-92
随着硬件设备的普及,促使信息技术和移动互联网的快速发展,人们已经告别了信息匮乏的时期,而进入到了信息过载的时期。人们试图用搜索功能搜索出自己想要的信息,如今已是非常困难,怎样从海量的数据中筛选出有价值的信息是信息提供者和信息需求者都要面对的挑战。本文对数据分类中的ID3算法的基本概念和原理以及其构造过程进行了详细阐述,针对ID3算法倾向于选择取值较多的属性的缺点,引进属性阈值和信息增益率两个概念。弥补ID3算法属性选择标准的不足,来实现新的属性选择标准,对原有ID3算法进行改进。通过实验对改进前后的算法进行了比较,实验表明,改进后的算法提高了分类准确度。  相似文献   

3.
决策树属性选择标准的改进   总被引:1,自引:0,他引:1       下载免费PDF全文
决策树算法是数据挖掘领域的一个研究热点,通常用来形成分类器和预测模型,在实际中有着广泛的应用。重点阐述了经典的ID3决策树算法,分析了它的优缺点,结合泰勒公式和麦克劳林公式提出了新的属性选择标准。改进后的算法通过简化信息熵的计算,提高了分类准确度,缩短了决策树的生成时间,减少了计算成本。实验证明,改进后算法的有效性和正确性。  相似文献   

4.
ID3算法是一种信息熵的决策树学习算法,把信息熵作为选择测试属性的标准,对训练实例集进行分类并构造决策树来预测如何由属性对整个实例空间进行划分。ID3算法对于相对小的数据集是很有效的,但对大型数据库而言,ID3算法无法处理。SLIQ分类算法使用了一些独特的技术,改进了学习的时间,同时在没有降低精确度的情况下,解决了对磁盘驻留大数据集的分类。具有更快的速度而且生成较小的树。  相似文献   

5.
针对ID3算法多值偏向及误分类代价被忽视的问题,结合属性相似度和代价敏感学习,提出基于均衡系数的决策树优化算法。该算法既克服了多值偏向,又考虑了误分类代价问题。首先引进属性相似度和性价比值两者的均衡系数,对ID3算法进行改进;然后运用麦克劳林公式对ID3算法进行公式简化;最后将算法改进和公式简化相结合,得到基于均衡系数的决策树优化算法。实验结果表明,基于均衡系数的决策树优化算法,既能够提高分类精度,缩短决策树生成时间,又能考虑代价问题并降低误分类代价,还能克服多值偏向问题。  相似文献   

6.
基于属性重要度的ID3改进算法   总被引:8,自引:0,他引:8  
ID3算法是数据挖掘中最经典的分类算法.该算法偏向于选择取值较多的属性,而属性值较多的属性不总是重要的,从而影响了分类预测的高效性.通过对ID3算法的研究,依据属性重要度粗糙集理论的思想,对经典的ID3算法做了相应的改进,改进后的ID3算法(AIID3),提高了算法的决策效率.最后的实例及应用表明,改进的算法更有效,更快速.  相似文献   

7.
决策树算法用于井漏分类时,由于井漏数据离散化后多值属性占比较大,且具有多值偏向的缺点,分类效果不理想。为此,提出一种基于改进ID3的AFIV-ID3算法。在ID3的基础上引入属性重要度计算新的信息熵,属性重要度大小由决策者依靠先验或领域知识决定。在信息增益计算中加入关联度函数比,对信息增益值做出修正。AFIV-ID3算法克服了ID3多值偏向的缺点,提高了数据中重要属性的权重,从而提升井漏类型分类精度。4组UCI数据集和真实井漏数据测试结果表明,该算法的分类精度优于ID3和C4. 5算法,并能够将人工经验法不稳定的分类精度提高至约72. 23%。  相似文献   

8.
决策树分类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
张琳  陈燕  李桃迎  牟向伟 《计算机工程》2011,37(13):66-67,70
ID3算法在选择分裂属性时偏向于选取属性取值较多的属性。针对该问题,引入属性重要性和属性取值数量2个参数对ID3算法的信息增益公式进行改进,从而提高取值数量少但较为关键的属性的重要性,使算法更好地反映实际决策情况,并根据凸函数的性质简化信息熵的计算,提高决策树的构造效率。通过实例介绍改进算法的具体应用方法,证明其性能相比原算法有所提高。  相似文献   

9.
决策树的优化算法   总被引:78,自引:1,他引:78  
刘小虎  李生 《软件学报》1998,9(10):797-800
决策树的优化是决策树学习算法中十分重要的分支.以ID3为基础,提出了改进的优化算法.每当选择一个新的属性时,算法不是仅仅考虑该属性带来的信息增益,而是考虑到选择该属性后继续选择的属性带来的信息增益,即同时考虑树的两层结点.提出的改进算法的时间复杂性与ID3相同,对于逻辑表达式的归纳,改进算法明显优于ID3.  相似文献   

10.
决策树是数据挖掘的一种重要方法,通常用来形成分类器和预测模型。ID3算法作为决策树的核心算法,由于它的简单与高效而得到了广泛的应用,然而它倾向于选择属性值较多的属性作为分支属性,从而可能错过分类能力强的属性。对ID3算法的分支策略进行改进,增加了对属性的类区分度的考量。经实验比较,新方法能提高决策树的精度,简化决策树。  相似文献   

11.
ID3算法是目前最具有影响力的一种决策树构造算法,但仍然有许多的缺点,例如在多值属性偏向方面的问题、计算时间复杂度高、效率不高等问题。提出了一种基于斯皮尔曼等级相关系数的ID3决策树构造优化算法,利用相关系数克服了ID3算法在多值属性偏向方面的问题,在一定程度上提高了算法的分类准确率。利用相关数学知识对计算过程进行了化简,减少了ID3算法在log运算上的运行时间。最后通过实验验证了优化后的算法是可行的,且在准确率和运行速度方面都有更好的表现。  相似文献   

12.
针对决策树算法在分类时的多值偏向问题,提出了一种合理的基于相关系数的MID3算法的改进算法。该算法在生成决策树的过程中,将属性与分类结果之间的相关关系引入决策树节点的属性选择中,从而在一定程度上解决ID3算法的多值倾向问题,同时考虑系统两层节点从全局上优化树的结构。利用UCI数据集样本进行实验,将本文算法与ID3算法进行对比,得到了算法的效率的比较结果。实验结论表明,算法提高了数据的平均分类准确率,生成的决策树结构更加合理。  相似文献   

13.
基于朴素贝叶斯与ID3算法的决策树分类   总被引:2,自引:0,他引:2       下载免费PDF全文
v在朴素贝叶斯算法和ID3算法的基础上,提出一种改进的决策树分类算法。引入客观属性重要度参数,给出弱化的朴素贝叶斯条件独立性假设,并采用加权独立信息熵作为分类属性的选取标准。理论分析和实验结果表明,改进算法能在一定程度上克服ID3算法的多值偏向问题,并且具有较高的执行效率和分类准确度。  相似文献   

14.
《Knowledge》1999,12(5-6):269-275
An algorithm for decision-tree induction is presented in which attribute selection is based on the evidence-gathering strategies used by doctors in sequential diagnosis. Since the attribute selected by the algorithm at a given node is often the best attribute according to the Quinlan's information gain criterion, the decision tree it induces is often identical to the ID3 tree when the number of attributes is small. In problem-solving applications of the induced decision tree, an advantage of the approach is that the relevance of a selected attribute or test can be explained in strategic terms. An implementation of the algorithm in an environment providing integrated support for incremental learning, problem solving and explanation is presented.  相似文献   

15.
属性选择是一种有效的数据预处理方法,可同时保留多变量时间序列重要变量的时序关系及其实际物理意义。针对很多实际数据无类别信息的问题,文中提出一种无监督属性选择算法并分析其复杂度。首先设计一种无需进行相空间重构的多变量时间序列分形维数计算方法,并将分形维数视为其本质维,利用属性子集的分形维数及其属性数目的变化作为子集优劣的评价标准。再优化离散粒子群算法以解决高维属性空间搜索的“组合爆炸”问题。最后利用典型混沌动力学系统所产生的多变量时间序列和UCI数据库的5组数据集进行仿真计算,结果表明该算法可在较短时间内找到较优的属性子集,具有较优的整体性能。  相似文献   

16.
康猛  蒙祖强 《计算机应用》2022,42(2):449-456
基于区分矩阵的传统属性约简方法具有直观易理解的优点,但时间和空间复杂度都很高,当数据规模较大或条件属性较多时,会无法快速得到约简结果.为解决该问题,在区分关系的基础上构造了条件区分能力来进行属性选择,提出一种基于条件区分能力的属性约简算法.而为了进一步加快属性重要性的计算、提高约简效率,依据大数定律中频率的稳定性,通过...  相似文献   

17.
数据库通常包含很多冗余特征,找出重要特征叫做特征提取。本文提出一种基于属性重要度的启发式特征选取算法。该算法以属性重要度为迭代准则得到属性集合的最小约简。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号