首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
基于变精度粗糙集的决策树优化算法研究   总被引:4,自引:2,他引:4  
应用变精度粗糙集理论,提出了一种利用新的启发式函数构造决策树的方法。该方法以变精度粗糙集的分类质量的量度作为信息函数,对条件属性进行选择。和ID3算法比较,本方法充分考虑了属性间的依赖性和冗余性,尤其考虑了训练数据中的噪声数据,允许在构造决策树的过程中划入正域的实例类别存在一定的不一致性,可简化生成的决策树,提高决策树的泛化能力。  相似文献   

2.
ID3算法是数据挖掘中经典的决策树分类算法,该算法具有抗噪声能力差的缺点。通过对ID3算法的研究,依据可变精度粗糙集理论的思想,采用在计算属性信息熵时设定阈值的方法,以放宽属性选择的要求,从而对经典的ID3算法做了相应的改进。改进后的ID3算法(VPID3)可在一定程度上降低噪声对系统分类的干扰,使分类结果更加符合实际要求。最后通过举例,说明了改进算法的可行性。  相似文献   

3.
基于信息熵的决策树算法实现   总被引:5,自引:0,他引:5  
由数据挖掘中的分类技术引出ID3算法并对其进行了简要的概括,探讨基于信息增益的度量选择测试属性方法。以MFC Class Wizard的过滤记录集取代以往记录集,研制C++实现最优属性选择和ID3算法。  相似文献   

4.
基于粗糙集的决策树构造算法   总被引:5,自引:2,他引:5  
针对ID3算法构造决策树复杂、分类效率不高问题,基于粗糙集理论提出一种决策树构造算法。该算法采用加权分类粗糙度作为节点选择属性的启发函数,与信息增益相比,能全面地刻画属性分类的综合贡献能力,并且计算简单。为消除噪声对选择属性和生成叶节点的影响,利用变精度粗糙集模型对该算法进行优化。实验结果表明,该算法构造的决策树在规模与分类效率上均优于ID3算法。  相似文献   

5.
针对传统ID3算法计算过程复杂以及存在信息冗余的问题,提出了一种改进算法——基于粗糙集属性约简的简化ID3算法.该算法利用粗糙集中属性约简的性质删掉了系统中多余的知识,在保证同样的分类能力下使得分类系统更简洁,同时借助了泰勒公式对熵公式进行化简,使得计算更简便,然后把改进的算法用到实例中去,并用相关数据库上的大量数据编程进行仿真实验,最后得出的仿真结果证明了所提出算法的正确性与可行性,不仅能够有效降低信息重复度,减少了冗余规则,还保证了算法精度,同时为把ID3算法更好地应用到现实生活实例中提供了一定的参考价值.  相似文献   

6.
应用ID3挖掘方法,将基于数据库的数据挖掘技术应用于企业的生产、销售实线中用决策树对产品进行定性分析,找到产品销售情况的决策信息;及用分类法对产品品种进行选择的具体过程。  相似文献   

7.
决策树算法是经典的分类挖掘算法之一,具有广泛的实际应用价值。经典的ID3决策树算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。为此,对经典ID3决策树生成算法的可并行性进行了深入分析和研究,利用云计算的MapReduce编程技术,提出并实现面向海量数据的ID3决策树并行分类算法。实验结果表明该算法是有效可行的。  相似文献   

8.
《软件工程师》2020,(3):35-37
ID3算法作为最经典的决策树分类方法,因其直观、简单、容易实现等优点,在电子商务领域得到了广泛应用。文章首先分析了ID3算法的基本原理与流程,然后以某商务网站为例,以其客户交易数据为研究对象,深入探讨了该算法在客户分类中的具体应用。通过该算法的使用,可对商务网站的客户进行准确分类,从而为其开展个性化服务及精准营销提供重要的理论依据。  相似文献   

9.
基于粗糙集与属性值聚类的决策树改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
采用粗糙集理论和属性值聚类相结合的方法,从决策树最优化的三个原则对其进行优化。首先,采用粗糙集理论的约简功能求出相对核,并利用信息熵作为启发信息求出相对约简,以此来保证生成决策树的路径最短和减少决策树的节点数。其次,在选择特征属性时,在信息熵增益最大的前提下,根据属性值间的相异性距离来对属性值聚类使其能够接近单峰分布。通过对UCI数据实验分析,结果表明很大程度上减少了决策树的节点数和决策树的深度。  相似文献   

10.
一个基于SLIQ的分类算法的实现   总被引:1,自引:0,他引:1  
谭勇  荣秋生 《计算机工程》2003,29(18):98-100
在介绍数据挖掘、分类算法的有关概念的基础上,描述了一个基于SLIQ(Supervised Learning in Quest)的分类算法的实现。算法控制结构采用队列来控制广度优先搜索,对属性表进行内部排序生成有序的属性表序列,再对所有属性表进行遍历,找出所有叶子节点的最佳分裂方案,对应该分裂的类表进行更改,最后生成的决策树通过前序遍历的方式存入输出表。  相似文献   

11.
根据医学图像数据的特性,提出一种基于粗糙集和决策树相结合的数据挖掘新方法。该方法利用粗糙集中基于属性重要性的离散化方法对医学图像特征进行离散化,采用粗糙集对其属性进行约简,得到低维训练数据,再用SLIQ决策树算法产生决策规则。实验表明:将粗糙理论与SLIQ相结合的数据挖掘方法既保留了原始数据的内部特点,同时剔除了与分类无关或关系不大的冗余特征,从而提高了分类的准确率和效率。  相似文献   

12.
基于变精度粗糙集的决策树改进方法   总被引:1,自引:0,他引:1       下载免费PDF全文
基于变精度粗糙集理论提出了具有置信度规则决策树的新的构造方法,该方法采用β-边界域的大小作为选择分类属性的标准,并对叶节点的置信度进行了重新的定义。经实验证明,该方法能有效提高分类效率且更加容易理解。  相似文献   

13.
This paper presents a novel classification approach based on rough set theory and supporter vector machine. Sometimes, there are many attributes for classification samples and it is difficult to carry out classification. In this paper, the attributes of data set are reduction by rough set theory firstly, and then the classification is carried out using support vector machine. Finally, the classification results are obtained through the proposed model. Moreover, the proposed classification model has higher prediction accuracy by comparing with the traditional algorithm Naive Bayes algorithm and reduces the cost of calculation.  相似文献   

14.
粗糙集与决策树在电子邮件分类与过滤中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
垃圾邮件的识别与过滤是目前研究的热点问题之一。而粗糙集是一种新的处理模糊和不确定性知识的数据分析工具,已被成功地应用到许多有关分类的领域。将粗糙集与决策树结合,提出一个基于RS-DT的邮件分类方案与模型,并进行了实验及结果分析。通过与朴素贝叶斯模型及SVM的比较,表明提出的基于RS-DT的模型可以降低把正常邮件错分为垃圾邮件的比率,提高过滤系统的自学习能力。  相似文献   

15.
针对目前物流行业在资源优化配置以及组织调度等环节中出现的匹配精度低、调用效率差等现实问题,将物流资源分类标准作为切入点,以行业内现有资源分类体系为基础,结合实际样本数据,提出基于粗糙集的物流资源分类方法。首先以粗糙集理论为指导,对物流资源属性进行约简,然后从数据挖掘的角度进行基于属性重要度的资源分类,最终分析得出资源分类规则,以此为物流资源整合提供理论依据。通过实例分析,证明该分类方法的有效性。  相似文献   

16.
舌诊是中医四诊中望诊的重要内容,已有的舌色苔色分析方法在识别颜色特征空间互相重叠和不精确样本时效果欠佳。利用粗糙集在处理不完备信息方面的优势,首次将粗糙集理论用于舌色苔色分析中。采用量化的方法以减少颜色属性值;提出了一种按独立属性个数递增顺序进行约简的方法以及一种对待测样本在上、下近似集分别打分的综合分类识别算法,实验结果证明了该文方法的有效性。  相似文献   

17.
基于粗集理论的支持向量机分类方法研究   总被引:2,自引:2,他引:2  
韩虎  任恩恩  李玉龙 《计算机工程与设计》2007,28(11):2640-2641,2645
介绍了粗集理论的基本概念和支持向量机分类的基本原理,提出将粗集理论和支持向量机方法相结合.通过应用粗集理论对数据的预处理,消除决策表中大量的冗余信息和冲突对象,但不丢失任何有用信息.通过这样对数据维数的约简,大大简化了支持向量分类模型的结构,同时也有效地提高了支持向量机的分类效率.通过对一组实验数据的仿真验证了该方法的可行性.  相似文献   

18.
从信息熵的角度对粗糙集理论进行研究,用熵理论的方法来讨论粗糙集中的一些基本概念,并从粗糙集的角度证明知识熵的一些性质,在知识熵与粗糙集理论之间建立映射关系,为寻找高效的决策规则建立了知识熵的基础。  相似文献   

19.
翟俊海    刘博  张素芳 《智能系统学报》2017,12(3):397-404
特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程,是数据挖掘的重要预处理步骤。通过剔除冗余属性,以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题,提出了一种将粗糙集相对分类信息熵和粒子群算法相结合的特征选择方法,依托粒子群算法,以相对分类信息熵作为适应度函数,并与其他基于进化算法的特征选择方法进行了实验比较,实验结果表明本文提出的方法具有一定的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号