首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 772 毫秒
1.
数据挖掘是一种重要的数据分析方法,决策树是数据挖掘中的一种主要技术,如何构造出最优决策树是许多研究者关心的问题。本文通过Rough集方法对决策表进行属性约简和属性值约简,去除决策表中与决策无关的冗余信息。在简化的决策表基础上构造近似最优决策树,本文给出了近似最优决策树的生成算法,并通过实例说明。  相似文献   

2.
为了更好地获取由边界域产生的不确定性规则知识,提出最优近似粗糙集的属性约简方法,为此给出了近似空间上粗糙集最优近似集的判定与计算,引入最优近似分布协调集、最优近似分布约简概念.讨论了Pawlak属性约简、分布约简、最优近似分布约简之间关系,得到在协调决策表中它们是等价的,在不协调决策表中最优近似分布约简是分布约简子集.最后通过实例进行了验证与说明  相似文献   

3.
新型决策树构造方法   总被引:1,自引:0,他引:1       下载免费PDF全文
决策树是一种重要的数据挖掘工具,但构造最优决策树是一个NP-完全问题。提出了一种基于关联规则挖掘的决策树构造方法。首先定义了高可信度的近似精确规则,给出了挖掘这类规则的算法;在近似精确规则的基础上产生新的属性,并讨论了新生成属性的评价方法;然后利用新生成的属性和数据本身的属性共同构造决策树;实验结果表明新的决策树构造方法具有较高的精度。  相似文献   

4.
粗糙集理论是一种有效的处理不一致、不精确和不完备等各种信息的数学分析工具。属性约简算法是粗糙集理论的关键技术之一,是数据挖掘研究的一个重要课题,也是知识获取中研究的关键问题之一。高效的属性约简算法使属性约简的求解被证实是一个NP-Hard问题,它通常是一个预处理阶段,使适应决策表上的分类分析。本文提出一种有效的方法——SEGMENT-SIG,可以得到最小约简子集,保持决策表的分类一致性。本文对算法最坏的时间计算复杂度进行了分析,该算法的输出是两种不同的分类器,一个是IF-THEN规则体系,另一个是决策树。  相似文献   

5.
不完全决策表的一种信息熵属性约简算法   总被引:1,自引:0,他引:1  
唐彬  李龙澍 《微机发展》2004,14(10):127-130
属性约简是粗糙集理论的核心问题之一,也是粗糙集有效算法研究的焦点。为获得最简明的规则集,通常希望能找出最小的属性约简集,但得到最优解NP-hard的问题,通常采取启发式的算法得到近似最优解。文中研究了不完全决策表的属性约简,提出了对不完全决策表的一种基于信息熵的属性约简算法,并通过例子说明算法的具体过程和验证了算法的可行性。对寻找对象的相似类的步骤则在排序和二分查找的基础上提出了一种高效的算法,这样就相应地提高了属性约简算法的效率。  相似文献   

6.
决策表的一种知识约简与规则获取方法   总被引:1,自引:0,他引:1  
粗糙集理论是一种新型的数据挖掘和决策分析方法,利用粗糙集理论进行决策表的知识约简与决策规则挖掘已经成为研究热点。文中介绍了粗糙集的基本理论,在此基础上运用该理论对从决策表中获取最小规则进行了研究,提出了决策表约简的启发式方法,并通过一个具体实例详细说明了决策规则获取过程,实例分析表明了其有效性。  相似文献   

7.
属性约简和属性值约简是决策表的两种简化方法,本文研究决策表的论域约简.提出了决策表论域约简的总体框架及一致决策表的连续性假设,给出了纯信息粒的概念及三种表示方法,通过实例说明了可以在不影响决策能力的情况下对决策表的论域进行约简.  相似文献   

8.
一种新的完全决策表属性约简的高效算法   总被引:2,自引:2,他引:2  
属性约简是粗糙集理论的核心问题之一,也是粗糙集有效算法研究的焦点。为获得最简明的规则集,通常希望能找出最小的属性约简集,但得到最优解是NP-hard的问题,通常采取启发式的算法得到近似最优解。文中研究了不完全决策表的属性约简,提出一种衡量不完全决策表属性重要性的标准,依此给出了一种新的进行属性约简启发式算法。对寻找对象的相似类的步骤则在排序和二分查找的基础上提出了一种新的高效的算法,这样就相应地使得属性约简的效率得到提高。此算法较好地解决了不完全决策表的属性约简问题。  相似文献   

9.
属性约简是粗糙集理论的核心问题之一,也是粗糙集有效算法研究的焦点.为获得最简明的规则集,通常希望能找出最小的属性约简集,但得到最优解是NP-hard的问题,通常采取启发式的算法得到近似最优解.文中研究了不完全决策表的属性约简,提出一种衡量不完全决策表属性重要性的标准,依此给出了一种新的进行属性约简启发式算法.对寻找对象的相似类的步骤则在排序和二分查找的基础上提出了一种新的高效的算法,这样就相应地使得属性约简的效率得到提高.此算法较好地解决了不完全决策表的属性约简问题.  相似文献   

10.
李树臣 《数字社区&智能家居》2009,(11):8687-8688,8693
该文对粗糙集理论进行了研究,提出一种基于树的约简算法。该算法的特点是能够得到决策表的所有约简,并且适合相容决策表和不相容决策表。通过构造约简树,得到基于约简树的决策表的极小属性集,最后通过实例来验证该算法。  相似文献   

11.
Shuyu  Zhongying 《Knowledge》2006,19(8):675-680
This paper proposes an improved decision tree method for web information retrieval with self-map attributes. Our self-map tree has a value of self-map attribute in its internal node, and information based on dissimilarity between a pair of map sequences. Our method selects self-map which exists between data by exhaustive search based on relation and attribute information. Experimental results confirm that our improved method constructs comprehensive and accurate decision tree. Moreover, an example shows that our self-map decision tree is promising for data mining and knowledge discovery.  相似文献   

12.
基于Web的自映射空间决策树方法研究   总被引:1,自引:0,他引:1  
论文讨论了Web信息的自映射空间模型和决策树算法的实现。从应用角度提出一种新的决策树方法SMS-DT,并根据映射序列的不同在内节点得到唯一的映射属性值。在关系和属性信息的基础上,自映射由不同数据集选择合理的空间模型,得到有效的决策树映射方法。实验结果进一步证实自映射决策树具有全面性与精确性。由于自映射决策树较好地软化了数量属性论域的划分边界,从而为进一步满足Web信息检索提供了一种个性化的高效信息检索工具。  相似文献   

13.
决策树是数据挖掘中常用的分类方法。针对高等院校学生就业问题中出现由噪声造成的不一致性数据,本文提出了基于变精度粗糙集的决策树模型,并应用于学生就业数据分析。该方法以变精度粗糙集的分类质量的量度作为信息函数,对条件属性进行选择,作为树的节点,自上而下地分割数据集,直到满足某种终止条件。它充分考虑了属性间的依赖性和冗余性,允许在构造决策树的过程中划入正域的实例类别存在一定的不一致性。实验表明,该算法能够有效地处理不一致性数据集,并能正确合理地将就业数据分类,最终得到若干有价值的结论,供决策分析。该算法大大提高了决策规则的泛化能力,减化了树的结构。  相似文献   

14.
基于信息熵的决策树算法实现   总被引:5,自引:0,他引:5  
由数据挖掘中的分类技术引出ID3算法并对其进行了简要的概括,探讨基于信息增益的度量选择测试属性方法。以MFC Class Wizard的过滤记录集取代以往记录集,研制C++实现最优属性选择和ID3算法。  相似文献   

15.
基于遗传算法的多属性模糊决策树的优化   总被引:1,自引:0,他引:1       下载免费PDF全文
决策树是数据挖掘中的一种高效方法,但是当训练数据的属性很多时,构建的决策树的规模会随属性个数增加而指数级增长,进而会产生海量的规则。针对该问题,提出了一种基于遗传算法的优化方法。首先根据信息增益利用轮盘赌方法选取若干组属性,构建多棵决策树,然后利用遗传算法对多棵决策树进行组合,并最终形成规则集。最后给出了实验结果,证明了该方法的可行性和有效性。  相似文献   

16.
In medical information system, the data that describe patient health records are often time stamped. These data are liable to complexities such as missing data, observations at irregular time intervals and large attribute set. Due to these complexities, mining in clinical time-series data, remains a challenging area of research. This paper proposes a bio-statistical mining framework, named statistical tolerance rough set induced decision tree (STRiD), which handles these complexities and builds an effective classification model. The constructed model is used in developing a clinical decision support system (CDSS) to assist the physician in clinical diagnosis. The STRiD framework provides the following functionalities namely temporal pre-processing, attribute selection and classification. In temporal pre-processing, an enhanced fuzzy-inference based double exponential smoothing method is presented to impute the missing values and to derive the temporal patterns for each attribute. In attribute selection, relevant attributes are selected using the tolerance rough set. A classification model is constructed with the selected attributes using temporal pattern induced decision tree classifier. For experimentation, this work uses clinical time series datasets of hepatitis and thrombosis patients. The constructed classification model has proven the effectiveness of the proposed framework with a classification accuracy of 91.5% for hepatitis and 90.65% for thrombosis.  相似文献   

17.
决策树是一种有效地进行实例分类的数据挖掘方法。在处理不完备信息系统中的缺省值数据时,现有决策树算法大多使用猜测技术。在不改变缺失值的情况下,利用极大相容块的概念定义了不完备决策表中条件属性对决策属性的决策支持度,将其作为属性选择的启发式信息。同时,提出了一种不完备信息系统中的决策树生成算法IDTBDS,该算法不仅可以快速得到规则集,而且具有较高的准确率。  相似文献   

18.
决策树是数据挖掘的一种重要方法,通常用来形成分类器和预测模型。ID3算法作为决策树的核心算法,由于它的简单与高效而得到了广泛的应用,然而它倾向于选择属性值较多的属性作为分支属性,从而可能错过分类能力强的属性。对ID3算法的分支策略进行改进,增加了对属性的类区分度的考量。经实验比较,新方法能提高决策树的精度,简化决策树。  相似文献   

19.
一种集成数据挖掘的自动视频分类方法   总被引:1,自引:0,他引:1  
针对自动视频分类工作中分类预测精度低的问题,提出了一种集成数据挖掘技术的自动视频分类方法。首先进行视频分割,形成了一个视频属性数据库;然后分别使用决策树、分类关联规则等技术对视频属性数据库进行数据挖掘,提取出决策树分类规则集和分类关联规则集;最后利用一个规则集的合并裁减算法来合并这两个分类预测规则集,形成最终的具有更高精度的视频分类规则集。通过实验验证了决策树分类预测规则和分类关联规则具有分类预测的一致性;同时实验表明,使用合并后的规则集比单独使用一个规则集来预测视频具有更高的预测准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号