首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
由于基于排序熵的有序决策树在扩展属性选取时,需计算每个条件属性的每个割点处的排序互信息,并通过对比这些排序互信息的大小来确定最大值(最大值对应的属性为扩展属性),计算复杂度较高.针对此问题,文中将割点分为平衡割点和非平衡割点两部分,建立一个数学模型,从理论上证明排序互信息最大值不会在平衡割点处达到,而只能在非平衡割点处达到.这说明在计算排序互信息时只需遍历非平衡割点,而无需再计算平衡割点处的值,从而使决策树构建的计算效率得到较大程度提高.数值实验验证此结果.  相似文献   

2.
属性频率划分和信息熵离散化的决策树算法   总被引:2,自引:0,他引:2       下载免费PDF全文
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。  相似文献   

3.
基于粗糙集的决策树算法由于粒化冲突与噪声影响容易导致特征选择的失效。提出属性纯度并结合属性依赖度来构建决策树归纳算法。采用统计集成策略来建立属性纯度,表示决策分类关于条件分类的识别性,并用于相应的属性特征选择;分析属性纯度与属性依赖度的同质性和异态性,采用先属性依赖度后属性纯度选择节点的方法,改进基于粗糙集的决策树算法。决策表例分析与数据实验对比均表明所提算法的有效性与改进性。  相似文献   

4.
基于粗糙集的决策树构造算法   总被引:7,自引:2,他引:5  
针对ID3算法构造决策树复杂、分类效率不高问题,基于粗糙集理论提出一种决策树构造算法。该算法采用加权分类粗糙度作为节点选择属性的启发函数,与信息增益相比,能全面地刻画属性分类的综合贡献能力,并且计算简单。为消除噪声对选择属性和生成叶节点的影响,利用变精度粗糙集模型对该算法进行优化。实验结果表明,该算法构造的决策树在规模与分类效率上均优于ID3算法。  相似文献   

5.
基于离散度的决策树构造方法   总被引:1,自引:0,他引:1  
在构造决策树的过程中,属性选择将影响到决策树的分类精度.对此,讨论了基于信息熵方法和WMR方法的局限性,提出了信息系统中条件属性集的离散度的概念.利用该概念在决策树构造过程中选择划分属性,设计了基于离散度的决策树构造算法DSD.DSD算法可以解决WMR方法在实际应用中的局限性.在UCI数据集上的实验表明,该方法构造的决策树精度与基于信息熵的方法相近,而时间复杂度则优于基于信息熵的方法.  相似文献   

6.
基于动态粗集理论,提出一种改进的动态粗集决策树算法。改进后的算法对每一属性计算数据对象迁移系数的和,值最大的属性成为决策树的根;在对决策树分叉时,给每一决策类别的数据对象集合计算从根到分叉属性所构成的属性集的膨胀度,值大的属性构成分支结点。算法在UCI机器学习数据库原始数据集及其噪音数据集上的实验结果表明,该算法构造的决策树在规模与分类准确率上均优于ID3算法及C4.5算法。  相似文献   

7.
目前存在的一些区间值属性决策树算法都是在无序情况下设计的,未考虑条件属性和决策属性之间的序关系.针对这些算法处理有序分类问题的不足,提出区间值属性的单调决策树算法,用于处理区间值属性的单调分类问题.该算法利用可能度确定区间值属性的序关系,使用排序互信息度量区间值属性的单调一致程度,通过排序互信息的最大化选取扩展属性.此外,将非平衡割点应用到区间值属性决策树构建过程中,减少排序互信息的计算次数,提高计算效率.实验表明文中算法提高了效率和测试精度.  相似文献   

8.
周亮  晏立 《计算机应用研究》2010,27(8):2899-2901
为了克服现有决策树分类算法在大数据集上的有效性和可伸缩性的局限,提出一种新的基于粗糙集理论的决策树算法。首先提出基于代表性实例的原型抽象方法,该方法从原始数据集中抽取代表性实例组成抽象原型,可缩减实例数目和无关属性,从而使算法可以处理大数据集;然后提出属性分类价值量概念,并作为选择属性的启发式测度,该测度描述了属性对分类的贡献价值量的多少,侧重考虑了属性之间以及实例与分类之间的关系。实验表明,新算法比其他算法生成的决策树规模要小,准确率也有显著提高,在大数据集上尤为明显。  相似文献   

9.
将决策粗糙集与代价敏感学习相结合,提出了一种基于决策粗糙集的代价敏感分类方法。依据决策粗糙集理论和属性约简方法,对待预测样本分别计算最优测试属性集,使得样本在最优测试属性集上计算的分类结果具有最小误分类代价和测试代价,依此给出样本的最小总代价分类结果。针对全局最优测试属性集求解过程中计算复杂度高的问题,提出了局部最优测试属性集的启发式搜索算法。该算法以单个属性对降低总分类代价的贡献率为启发函数,搜索各样本的局部最优测试属性集,并输出在局部最优测试属性集上样本的代价敏感分类结果。在UCI数据上的实验分析显示,所提算法有效地降低了分类结果的总代价和测试属性个数,使得样本分类结果同时具有较小的误分类代价和较小的测试代价。  相似文献   

10.
王蓉  刘遵仁  纪俊 《计算机科学》2017,44(Z11):129-132
传统的ID3决策树算法存在属性选择困难、分类效率不高、抗噪性能不强、难以适应大规模数据集等问题。针对该情况,提出一种基于属性重要度及变精度粗糙集的决策树算法,在去除噪声数据的同时保证了决策树的规模不会太庞大。利用多个UCI标准数据集对该算法进行了验证,实验结果表明该算法在所得决策树的规模和分类精度上均优于ID3算法。  相似文献   

11.
采用粗糙集理论中的属性重要度作为挑选测试属性的指标来构造决策树,形成了一种新的决策树分类算法S_D_Tree,在计算挑选测试属性的时间复杂度为O(|C||n|)。实验结果表明,该算法可以构建一个较简洁的决策树,与C4.5算法相比较,具有更好的预测准确率。  相似文献   

12.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

13.
一种基于粗糙集构造决策树的新方法   总被引:18,自引:0,他引:18  
在构造决策树的过程中,分离属性选择的标准直接影响分类的效果。基于粗糙集的理论提出了加权平均粗糙度的概念,将其作为选择分离属性的标准。经实验证明,用该方法构造的决策树与传统的基于信息熵方法构造的决策树相比较,复杂性低,且能有效提高分类效果。  相似文献   

14.
变精度粗糙集模型在决策树构造中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
针对ID3算法构造决策树复杂、分类效率不高等问题,本文基于变精度粗糙集模型提出了一种新的决策树构造算法。该算法采用加权分类粗糙度作为节点选择属性的启发函数,与信息增益相比,该标准更能够全面地刻画属性分类的综合贡献能力,计算简单,并且可以消除噪声数据对选择属性和生成叶节点的影响。实验结果证明,本算法构造的决策树在规模与分类效率上均优于ID3算法。  相似文献   

15.
基于粗糙集技术的决策树归纳   总被引:3,自引:0,他引:3       下载免费PDF全文
ID3算法是一种典型的决策树归纳算法,它以信息增益作为选择扩展属性根结点的标准,并递归地生成决策树。但ID3算法倾向于选取属性取值较多的属性作为根结点,而且它假设训练集中各类别样例的比例应与实际问题领域里各类别样例的比例相同。提出一种新的基于粗糙集技术的决策树归纳算法,它是一种完全数据驱动的归纳算法,可以克服ID3算法的上述不足。  相似文献   

16.
决策树是数据挖掘中常用的分类方法。针对高等院校学生就业问题中出现由噪声造成的不一致性数据,本文提出了基于变精度粗糙集的决策树模型,并应用于学生就业数据分析。该方法以变精度粗糙集的分类质量的量度作为信息函数,对条件属性进行选择,作为树的节点,自上而下地分割数据集,直到满足某种终止条件。它充分考虑了属性间的依赖性和冗余性,允许在构造决策树的过程中划入正域的实例类别存在一定的不一致性。实验表明,该算法能够有效地处理不一致性数据集,并能正确合理地将就业数据分类,最终得到若干有价值的结论,供决策分析。该算法大大提高了决策规则的泛化能力,减化了树的结构。  相似文献   

17.
基于相容关系的基因选择方法   总被引:1,自引:0,他引:1  
焦娜  苗夺谦 《计算机科学》2010,37(10):217-220
有效的基因选择是对基因表达数据进行分析的重要内容。粗糙集作为一种软计算方法能够保持在数据集分类能力不变的基础上,对属性进行约简。由于基因表达数据的连续性,为了避免运用粗糙集方法所必需的离散化过程带来的信息丢失,将相容粗糙集应用于基因的特征选取,提出了基于相容关系的基因选择方法。首先,通过i检验对基因表达数据进行排列,选择评分靠前的若干基因;然后,通过相容粗糙集对这些基因进一步约简。在两个标准的基因表达数据上进行了实验,结果表明该方法是可行性和有效性的。  相似文献   

18.
集值信息系统的粗糙集扩展模型   总被引:1,自引:0,他引:1       下载免费PDF全文
通过分析研究现有集值信息系统下定义的二元关系,基于集合包含度在集值信息系统中引入相似度概念,定义了一种基于相似度的α-相容关系,提出基于α-相容关系的粗糙集扩展模型,并分析比较了该模型与现有粗糙集扩展模型之间的关系。最后,给出实例加以验证。  相似文献   

19.
一种多变量决策树的构造与研究   总被引:3,自引:0,他引:3       下载免费PDF全文
单变量决策树算法造成树的规模庞大、规则复杂、不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法(RD)。在UCI上部分数据集的实验结果表明,提出的多变量决策树算法的分类效果与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。  相似文献   

20.
洪菁  陈强  刘惠彬 《微机发展》2006,16(10):32-34
对传统的粗糙集理论进行了扩展,提出了一种改进的粗糙集归纳学习方法。一方面,针对连续属性离散化,利用模糊集理论对连续属性进行模糊化,再根据模糊贴近度构造模糊相似矩阵,并用k-w方法粗略评估各连续属性的重要度,建立基于模糊相似关系的划分,最终生成相容的决策表。另一方面,针对解决最优属性的选择问题,提出一种加权求和的属性重要度定义。基于以上模型开发了一个原型系统,并以一个工程实例验证了此方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号