共查询到19条相似文献,搜索用时 359 毫秒
1.
基于属性重要度的ID3改进算法 总被引:8,自引:0,他引:8
ID3算法是数据挖掘中最经典的分类算法.该算法偏向于选择取值较多的属性,而属性值较多的属性不总是重要的,从而影响了分类预测的高效性.通过对ID3算法的研究,依据属性重要度粗糙集理论的思想,对经典的ID3算法做了相应的改进,改进后的ID3算法(AIID3),提高了算法的决策效率.最后的实例及应用表明,改进的算法更有效,更快速. 相似文献
2.
分析了ID3算法的基本原理、实现步骤及现有两种改进分类算法的优缺点,针对ID3算法的取值偏向问题和现有两种改进算法在分类时间、分类精确度方面存在的不足,提出了一种新的分类属性选择方案,并利用数学知识对其进行了优化。经实验证明,优化后的方案克服了ID3算法的取值偏向问题,同时在分类时间及分类精确度方面优于ID3算法及现有两种改进的分类算法。 相似文献
3.
4.
基于属性值的ID3算法改进 总被引:6,自引:1,他引:5
ID3算法是数据挖掘中经典的决策树分类算法.针对ID3算法所存在的属性取值偏向问题及只时较小的数据集有效的缺点提出改进.当训练样本各属性的取值个数相差较大的情况下,在计算划分标准时引入了属性取值个数N,在一定程度上克服了ID3算法易偏向于取值较多的属性这一缺陷,得到了结构更简洁的、较为理想的决策树.采用先剪枝的方法实现改进,设定一个阈值避免决策树的完全生长,在保持分类准确率的同时,大大地提高了算法的速度.实验结果表明,改进后的算法(AVID3)对许多数据集比传统ID3算法更有效. 相似文献
5.
ID3算法是数据挖掘分类中的一种重要算法,它是以信息增益作为属性选择的标准。针对 ID3算法存在的一些不足,提出一种基于修正参数简化标准的 ID3改进算法:1)在信息熵中引入修正参数;2)对引入修正参系数后的信息熵进行简化。实验数据结果表明,改进后的算法能得到更合理、更有效的规则,不仅在一定程度上克服了取值偏向问题,同时减少计算量。 相似文献
6.
在构造决策树的过程中,分裂属性选择的标准直接影响分类的效果。分析了现有改进的ID3算法不同程度地存在学习效率偏低和对多值属性重要性的主观评测等问题,提出一种高效而且可靠的基于灰色关联度的决策树改进算法。该算法通过灰色关联分析建立各特征属性与类别属性之间的关系,进而利用灰色关联度来修正取值较多但非重要属性的信息增益。通过实验与其它ID3改进算法进行了比较,验证了改进后的算法是有效的。 相似文献
7.
决策树是数据挖掘的一种重要方法,通常用来形成分类器和预测模型。ID3算法作为决策树的核心算法,由于它的简单与高效而得到了广泛的应用,然而它倾向于选择属性值较多的属性作为分支属性,从而可能错过分类能力强的属性。对ID3算法的分支策略进行改进,增加了对属性的类区分度的考量。经实验比较,新方法能提高决策树的精度,简化决策树。 相似文献
8.
庄卿卿 《电脑与微电子技术》2009,(5):43-46
决策树是数据挖掘的一种重要方法,通常用来形成分类器和预测模型。ID3算法作为决策树的核心算法,由于它的简单与高效而得到了广泛的应用,然而它倾向于选择属性值较多的属性作为分支属性,从而可能错过分类能力强的属性。对ID3算法的分支策略进行改进,增加了对属性的类区分度的考量。经实验比较,新方法能提高决策树的精度,简化决策树。 相似文献
9.
10.
对分类预测中广泛使用的ID3决策树算法进行了分析,指出了该算法的取值偏向性以及运算效率不高等缺点,在此基础上提出了一种改进的ID3算法并将其应用于某移动通信公司的客户流失预测。改进的算法通过属性加权克服取值偏向性,运用熵函数的递推性质并通过二元熵函数查表法显著地提高运算效率。应用结果表明,提出的改进算法性能明显改善。 相似文献
11.
针对现有邻域粗糙集模型中存在属性权重都相同,无法保证关键属性在属性约简时能够被保留的问题,提出了一种基于信息熵加权的属性约简算法。首先,采用了类间熵、类内熵策略,以最大化类间熵最小化类内熵为原则给属性赋予权重;其次,构造了基于加权邻域关系的加权邻域粗糙集模型;最后,基于依赖关系评估属性子集的重要性,从而实现属性约简。在基于UCI数据集上与其他三种属性约简算法进行对比实验,结果表明,该算法能够有效去除冗余,提高分类精度。 相似文献
12.
13.
针对基于正域的属性约简算法在约简过程中存在重复计算属性相对重要度从而导致算法效率低的问题,从属性度量和搜索策略的角度提出基于知识粗糙熵的快速属性约简算法。首先,在决策信息系统中通过引入知识距离提出知识粗糙熵以度量知识的粗糙程度;其次,利用知识粗糙熵作为属性显著度的评价标准来评估单个属性的重要程度;最后,利用属性重要度对所有条件属性进行排序,且通过属性依赖度删除冗余属性,从而实现快速约简。在六个公开数据集上将所提算法与其他三种算法在运行效率和分类精度上进行对比实验。结果表明,该算法的运行效率比其他三种算法分别提高了83.24%、28.77%和59.92%;在三种分类器中,分类精度分别平均提高了0.83%、0.63%和1.37%。因此,所提算法在保证分类性能的同时,能以更快的速度获得约简。 相似文献
14.
15.
16.
17.
基于属性间交互信息的ID3算法 总被引:3,自引:0,他引:3
启发式算法是决策树研究的核心。文中分析了最常见的一种决策树归纳启发式算法即ID3算法的不足,给出了一个改进版本,它在选择测试属性时不仅要求该属性带来的信息增益尽可能大,而且要求其与同一分支上已经使用过的各属性之间的交互信息尽可能小,从而避免了对冗余属性的选择,实现信息熵的真正减少。分析及实验结果表明,与ID3算法相比,该算法能构造出更优的决策树。 相似文献
18.
为了获得决策表中更好的属性约简,提出一种信息增益引导的蜂群优化算法;该算法以属性的信息熵为基础构造条件属性与决策属性间的互信息,用待选条件属性引起的信息增益作为引导蜜蜂搜索的启发信息,最终求得属性约简集;对UCI数据库多个数据集的测试结果表明,与其它基于群智能的属性约简算法相比,该算法获得最小属性约简的机率提高到90%以上,同时较对比算法的计算时间少耗费至少10%。 相似文献
19.
条件属性的重要性存在差异,通过引入差异度,对不完备信息系统中属性的重要性进行了定义,提出了一种基于权重联系度的属性约简算法。通过实例说明该算法能得到不完备决策表的最小相对约简。 相似文献