首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
决策树是常用的数据挖掘方法,扩展属性的选择是决策树归纳的核心问题。基于离散化方法的连续值决策 树归纳在选择扩展属性时,需要度量每一个条件属性的每一个割点的分类不确定性,并通过这些割点的不确定性选择 扩展属性,其计算时间复杂度高。针对这一问题,提出了一种基于相容粗糙集技术的连续值属性决策树归纳方法。该 方法首先利用相容粗糙集技术选择扩展属性,然后找出该属性的最优割点,分割样例集并递归地构建决策树。从理论 上分析了该算法的计算时间复杂度,并在多个数据集上进行了实验。实验结果及对实验结果的统计分析均表明,提出 的方法在计算复杂度和分类精度方面均优于其他相关方法。  相似文献   

2.
基于粗糙集的决策树构造算法   总被引:7,自引:2,他引:5  
针对ID3算法构造决策树复杂、分类效率不高问题,基于粗糙集理论提出一种决策树构造算法。该算法采用加权分类粗糙度作为节点选择属性的启发函数,与信息增益相比,能全面地刻画属性分类的综合贡献能力,并且计算简单。为消除噪声对选择属性和生成叶节点的影响,利用变精度粗糙集模型对该算法进行优化。实验结果表明,该算法构造的决策树在规模与分类效率上均优于ID3算法。  相似文献   

3.
基于知识的模型自动选择策略   总被引:1,自引:0,他引:1  
戴超凡  冯旸赫 《计算机工程》2010,36(11):170-172
模型自动选择是决策支持系统智能化发展的必然要求。针对目前实用算法较少的现状,提出一种模型自动选择策略。基于知识框架描述模型,根据事实库和知识库提取相应规则生成推理树,结合经验和专业知识实现模型自动选择。实验结果表明,该策略具有较高的命中率。  相似文献   

4.
针对单一数据挖掘方法对肺结核疾病诊断效率低、准确性不高的问题,本研究对北京市昌平区结核病防治所,北京市结核病控制研究所的1203例肺结核病人档案资料构建了电子档案,采用粗糙集和决策树结合方法建立肺结核疾病诊断模型,并对其准确性进行评估,在此基础上构建肺结核疾病诊断系统;在研究中,使用粗糙集和决策树相结合的方法进行属性约简,约简掉冗余属性57个,剩余属性22个,得到决策规则7条,模型准确率为83.46%;与未未约简的方法相比,决策规则减少128%,模型准确率基本保持不变;研究结果表明:使用该组合算法,在保证模型准确率的同时,降低了算法的时间和空间复杂性,提高了挖掘效率,为临床诊断提供了一定的借鉴。  相似文献   

5.
根据医学图像数据的特性,提出一种基于粗糙集和决策树相结合的数据挖掘新方法。该方法利用粗糙集中基于属性重要性的离散化方法对医学图像特征进行离散化,采用粗糙集对其属性进行约简,得到低维训练数据,再用SLIQ决策树算法产生决策规则。实验表明:将粗糙理论与SLIQ相结合的数据挖掘方法既保留了原始数据的内部特点,同时剔除了与分类无关或关系不大的冗余特征,从而提高了分类的准确率和效率。  相似文献   

6.
一种基于有序属性决策系统分类规则提取策略   总被引:1,自引:0,他引:1  
分类规则的精度取决于分类算法的构造,论文在综合分析基本粗糙集合概念及其约简算法的基础上,阐述了一种基于准则的有序属性决策系统的数据挖掘算法.为此首先介绍了基于有序属性决策系统的集合表达,然后利用有序属性决策系统中准则集与属性集的基本特征构造上下近似扩展模型,得到准则集决策系统的四个相关参数.并进一步提出相应的数据约简与分类规则提取算法。最后给出了用此算法约简有序属性决策系统的算例,实验结果表明此方法挖掘出的规则简练,更具合理性和可靠性。  相似文献   

7.
一种多变量决策树的构造与研究   总被引:3,自引:0,他引:3       下载免费PDF全文
单变量决策树算法造成树的规模庞大、规则复杂、不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法(RD)。在UCI上部分数据集的实验结果表明,提出的多变量决策树算法的分类效果与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。  相似文献   

8.
A rough set theory is a new mathematical tool to deal with uncertainty and vagueness of decision system and it has been applied successfully in all the fields. It is used to identify the reduct set of the set of all attributes of the decision system. The reduct set is used as preprocessing technique for classification of the decision system in order to bring out the potential patterns or association rules or knowledge through data mining techniques. Several researchers have contributed variety of algorithms for computing the reduct sets by considering different cases like inconsistency, missing attribute values and multiple decision attributes of the decision system. This paper focuses on the review of the techniques for dimensionality reduction under rough set theory environment. Further, the rough sets hybridization with fuzzy sets, neural network and metaheuristic algorithms have also been reviewed. The performance analysis of the algorithms has been discussed in connection with the classification.  相似文献   

9.
决策树是一种有效用于分类的数据挖掘方法.在决策树构造算法中,粗集理论的相对核已被应用于解决多变量检验中属性的选择问题.考虑到决策树技术和粗集的优缺点,将二者结合起来,先对每个结点包含的属性个数加以限制,再用属性相关度和De Mantaras距离函数选择相关的属性组合作为属性选择的标准,给出一种新的构造算法.该算法的优点是能有效降低树的高度,而且增强了分类规则的可读性.  相似文献   

10.
决策树是数据挖掘中常用的分类方法。针对高等院校学生就业问题中出现由噪声造成的不一致性数据,本文提出了基于变精度粗糙集的决策树模型,并应用于学生就业数据分析。该方法以变精度粗糙集的分类质量的量度作为信息函数,对条件属性进行选择,作为树的节点,自上而下地分割数据集,直到满足某种终止条件。它充分考虑了属性间的依赖性和冗余性,允许在构造决策树的过程中划入正域的实例类别存在一定的不一致性。实验表明,该算法能够有效地处理不一致性数据集,并能正确合理地将就业数据分类,最终得到若干有价值的结论,供决策分析。该算法大大提高了决策规则的泛化能力,减化了树的结构。  相似文献   

11.
采用粗糙集理论中的属性重要度作为挑选测试属性的指标来构造决策树,形成了一种新的决策树分类算法S_D_Tree,在计算挑选测试属性的时间复杂度为O(|C||n|)。实验结果表明,该算法可以构建一个较简洁的决策树,与C4.5算法相比较,具有更好的预测准确率。  相似文献   

12.
周亮  晏立 《计算机应用研究》2010,27(8):2899-2901
为了克服现有决策树分类算法在大数据集上的有效性和可伸缩性的局限,提出一种新的基于粗糙集理论的决策树算法。首先提出基于代表性实例的原型抽象方法,该方法从原始数据集中抽取代表性实例组成抽象原型,可缩减实例数目和无关属性,从而使算法可以处理大数据集;然后提出属性分类价值量概念,并作为选择属性的启发式测度,该测度描述了属性对分类的贡献价值量的多少,侧重考虑了属性之间以及实例与分类之间的关系。实验表明,新算法比其他算法生成的决策树规模要小,准确率也有显著提高,在大数据集上尤为明显。  相似文献   

13.
叶片气动优化设计过程中产生的海量过程仿真数据中隐含着丰富的领域设计知识,为了获取其中隐含的设计知识,将基于粗糙集的决策树数据挖掘方法应用到叶片气动过程仿真数据的知识挖掘中。以跨音速压气机转子叶片NASA Rotor37气动优化设计为例,利用K-Means聚类分析对仿真数据进行离散化处理,采用粗糙集属性重要性算法进行属性约简,采用决策树算法构建叶片优化设计知识决策树,挖掘出叶片优化设计变量弯扭、周向积迭线的控制点偏移量与目标函数总压损失系数之间隐含的设计规则。结果表明,基于粗糙集的决策树的数据挖掘技术为叶片气动优化设计领域知识获取提供了一条有效的新途径。  相似文献   

14.
黄恒秋  曾玲  黎利辉 《控制与决策》2018,33(7):1207-1214
针对混合值不完备系统,提出一种基于双邻域粗糙集模型的分类方法.首先,定义一个新的不确定距离度量函数-----联系度距离函数,进而建立基于联系度距离函数的双邻域粗糙集模型;然后,基于所建立的模型讨论该模型的属性约简算法,并给出基于属性约简、覆盖约简的双邻域粗糙集规则学习分类算法;最后,通过多个UCI 数据集进行实证分析,结果表明所提出的分类算法是客观有效的,特别是在缺失值较多的情况下,其优势更加明显.  相似文献   

15.
费洪晓  胡琳 《计算机工程与应用》2012,48(22):124-128,243
针对入侵检测系统收集数据海量、高维、检测模型复杂和检测准确率低等问题,采用粗糙集属性约简的优势寻找与判断入侵与否相关的属性,利用决策树分类算法生成模型并对网络连接进行入侵预测分类检测,从而提出了一种粗糙集属性约简和决策树预测分类相结合的网络入侵检测方法.实验结果表明,该方法在入侵检测准确率上有很大的提高,对DoS攻击、Probe攻击和R2L攻击的检测效果均有所提高,同时大大降低了检测的误报率.  相似文献   

16.
丁春荣  李龙澍 《微机发展》2007,17(11):110-113
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,分离属性的选择标准直接影响到分类的效果,传统的决策树算法往往是基于信息论度量的。基于粗糙集的理论提出了一种基于属性重要度和依赖度为属性选择标准的决策树规则提取算法。使用该算法,能提取出明确的分类规则,比传统的ID3算法结构简单,并且能提高分类效率。  相似文献   

17.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

18.
Tumor classification based on gene expression levels is important for tumor diagnosis. Since tumor data in gene expression contain thousands of attributes, attribute selection for tumor data in gene expression becomes a key point for tumor classification. Inspired by the concept of gain ratio in decision tree theory, an attribute selection method based on fuzzy gain ratio under the framework of fuzzy rough set theory is proposed. The approach is compared to several other approaches on three real world tumor data sets in gene expression. Results show that the proposed method is effective. This work may supply an optional strategy for dealing with tumor data in gene expression or other applications.  相似文献   

19.
As we know, learning in real world is interactive, incremental and dynamical in multiple dimensions, where new data could be appeared at anytime from anywhere and of any type. Therefore, incremental learning is of more and more importance in real world data mining scenarios. Decision trees, due to their characteristics, have been widely used for incremental learning. In this paper, we propose a novel incremental decision tree algorithm based on rough set theory. To improve the computation efficiency of our algorithm, when a new instance arrives, according to the given decision tree adaptation strategies, the algorithm will only modify some existing leaf node in the currently active decision tree or add a new leaf node to the tree, which can avoid the high time complexity of the traditional incremental methods for rebuilding decision trees too many times. Moreover, the rough set based attribute reduction method is used to filter out the redundant attributes from the original set of attributes. And we adopt the two basic notions of rough sets: significance of attributes and dependency of attributes, as the heuristic information for the selection of splitting attributes. Finally, we apply the proposed algorithm to intrusion detection. The experimental results demonstrate that our algorithm can provide competitive solutions to incremental learning.  相似文献   

20.
决策树是一种比较有效的数据挖掘方法,缺点是当训练集数据属性很多时,构建的决策树的规模会随着属性个数增加而增长。论文从GAAA算法的角度,提出一种动态融合的方法,确定最佳融合时刻。实验结果表明该算法可以有效克服停滞,提高搜索效率,有效地挖掘出最优的分类规则集。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号