首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于Rough Set的最简决策树确定算法的研究   总被引:6,自引:2,他引:6  
决策树是一种有效用于分类的数据采掘方法,有确定性和非确定性决策树。传统的方法是通过信息熵的计算去生成决策树,计算量大。目前有人用RS方法去计算信息熵,但存在局限性。该文将指出其局限性,并给出了一种有效的属性选择算法,确定了最简确定性和非确定性决策树的判别准则及其通用生成算法。  相似文献   

2.
属性频率划分和信息熵离散化的决策树算法   总被引:2,自引:0,他引:2       下载免费PDF全文
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。  相似文献   

3.
决策树是一种重要的数据分类方法,测试属性的选择直接影响到决策树中结点的个数和深度,本文提出了一种基于知识粗糙度的方法。通过比较我们发现:在决策树的构造上,粗集理论中知识粗糙度的方法计算量较小,构造的决策树比经典ID3算法简洁,并且具有较高的分类精度。  相似文献   

4.
决策树是一种重要的数据分类方法,测试属性的选择直接影响到决策树中结点的个数和深度,本文提出了一种基于知识粗糙度的方法.通过比较我们发现:在决策树的构造上,粗集理论中知识粗糙度的方法计算量较小,构造的决策树比经典ID3算法简洁,并且具有较高的分类精度.  相似文献   

5.
在基于C4.5算法的网络流量分类方法中,网络流量数据量的海量性及其特征的多样性使得决策树的构建速度、分类速度成为评价网络流量分类器的重要标准。在原C4.5算法的基础上提出一种改进的信息熵的计算方法,通过减少计算函数的复杂度,提高决策树的构建速度。实验表明,基于改进后算法的分类器在达到原有分类准确率的同时,极大地缩短了决策树的构成时间。  相似文献   

6.
决策树是一种采用分治策略的聚类分析方法,构建决策树的关键是选择合适的属性。传统的决策树通常从最大化信息熵的角度来构造,不能对属性的分类能力进行足够好的区分。对传统的决策树生成算法的不足,本文提出了一种基于马氏距离的决策树生成算法。算法使用马氏距离来区分不同特征属性子集的分类能力。试验结果表明,基于度量的决策树的性能优于传统的决策树。  相似文献   

7.
针对新型P2P业务采用净荷加密和伪装端口等方法来逃避检测的问题,提出了一种基于决策树的P2P流量识别方法.该方法将决策树方法应用于网络流量识别领域,以适应网络流量的识别要求.决策树方法通过利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.实验结果验证了C4.5决策树算法相比较Na(i)ve Bayes、Bayes Network算法,处理相对简单且计算量不大,具有较高的数据处理效率和分类精度,能够提高网络流量分类精度,更适用于P2P流量识别.  相似文献   

8.
数据挖掘中决策树分类算法的研究与改进   总被引:4,自引:0,他引:4  
决策树分类算法是数据挖掘中一个重要的内容,而ID3算法又是决策树分类算法中的一种重要方法且被广泛应用。然而在实际应用过程中,现存的决策树算法也存在着很多不足之处,如计算效率低下、多值偏向等。为了解决这些问题,提出了一种基于ID3算法的加权简化信息熵算法,它提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。  相似文献   

9.
一种以相关性确定条件属性的决策树   总被引:5,自引:1,他引:5  
韩家新  王家华 《微机发展》2003,13(5):38-39,42
决策树是数据挖掘中的一种重要的分类器。文章在介绍了一些典型的决策树分类算法的基础上,研究了一种相关性度量的决策树分类器。其主要思想是在建立决策树过程中采用属性相关性度量来确定划分条件属性的顺序,通过阈值设定和处理简化了决策树的剪枝和优化过程,避免了使用信息熵带来的不当划分,详细描述了算法的执行过程以及正确性证明和时间复杂性分析。  相似文献   

10.
区间值属性决策树学习算法*   总被引:8,自引:0,他引:8  
王熙照  洪家荣 《软件学报》1998,9(8):637-640
该文提出了一种区间值属性决策树的学习算法.区间值属性的值域不同于离散情况下的无序集和连续情况下的全序集,而是一种半序集.作为ID3算法在区间值意义下的推广,算法通过一种分割信息熵的极小化来选取扩展属性.通过非平稳点分析,减少了分割信息熵的计算次数,使算法的效率得到了提高.  相似文献   

11.
An efficient fuzzy classifier with feature selection based on fuzzyentropy   总被引:3,自引:0,他引:3  
This paper presents an efficient fuzzy classifier with the ability of feature selection based on a fuzzy entropy measure. Fuzzy entropy is employed to evaluate the information of pattern distribution in the pattern space. With this information, we can partition the pattern space into nonoverlapping decision regions for pattern classification. Since the decision regions do not overlap, both the complexity and computational load of the classifier are reduced and thus the training time and classification time are extremely short. Although the decision regions are partitioned into nonoverlapping subspaces, we can achieve good classification performance since the decision regions can be correctly determined via our proposed fuzzy entropy measure. In addition, we also investigate the use of fuzzy entropy to select relevant features. The feature selection procedure not only reduces the dimensionality of a problem but also discards noise-corrupted, redundant and unimportant features. Finally, we apply the proposed classifier to the Iris database and Wisconsin breast cancer database to evaluate the classification performance. Both of the results show that the proposed classifier can work well for the pattern classification application.  相似文献   

12.
潘伟  佘堃 《计算机应用》2017,37(3):796-800
针对多规则有序决策系统中的偏好决策问题,根据有序决策的偏好不一致特性,提出了一种基于偏好不一致熵的偏好决策方法。首先,定义了样本的偏好不一致熵(PIEO),用来度量特定样本相对于样本集的偏好不一致程度;然后,根据偏好决策中不同属性对决策的重要性不同的特点,提出了一种加权的样本偏好不一致熵,并结合属性偏好不一致熵在度量属性重要性方面的能力,给出了一种基于属性偏好不一致熵的权值的计算方法;最后,提出了一种基于样本偏好不一致熵的偏好决策算法。采用Pasture Production和Squalsh两个数据集进行仿真实验,基于全局偏好不一致熵分类后,各属性的偏好不一致熵普遍比基于向上和向下偏好不一致熵分类后的熵值小,而且更接近原始决策的偏好不一致熵,这说明基于全局偏好不一致熵的分类比其他两种情况的分类效果好。分类偏离度最小低至0.1282,这说明分类的结果比较接近原始决策。  相似文献   

13.
刘栋  宋国杰 《计算机应用》2011,31(5):1374-1377
为解决多维时间序列的分类并获取易于理解的分类规则,引入了时序熵的概念及构造时序熵的方法,基于属性选择和属性值划分两方面扩展了决策树模型。并给出了两种构造多维时间序列分类的决策树模型算法。最后,采用移动客户流失的真实数据,对过程决策树进行测试,展示了方法的可行性。  相似文献   

14.
基于排列组合熵的脑电意识任务识别方法的研究   总被引:2,自引:0,他引:2  
研究基于脑电信号排列组合熵的运动意识任务自动分类方法.求出时变脑电信号所对应的排列组合熵时间序列.它能很好的反映出事件相关去同步(ERD)和事件相关同步(ERS)现象,因此能有效地提取人脑想象左右手运动任务时的特征,最终利用K-近邻法模式分类方法对想象左右手运动任务进行分类决策.对国际脑机接口竞赛相关数据进行测试,最高准确率达到88.57%,最大互信息达到0.42.基于排列组合熵的脑电信号特征,可以作为脑电意识任务的有效分类依据.  相似文献   

15.
针对粗糙集数据分析中的不确定性度量问题。本文首先构造一种新型的考虑条件属性缺失度的目标概念条件熵和决策知识条件熵。在此基础上,提出基于条件熵的属性权重确定技术和最小条件熵非完备属性取值补充方法,用以解决属性权重完全未知的非完备多属性决策问题。应用实例分析表明:该方法能有效结合粗粒度的初步分级信息,客观地确定决策因素取值,具有很强的解释意义,得到的决策结果更为合理有效。  相似文献   

16.
基于信息熵的决策属性分类挖掘算法及应用   总被引:10,自引:0,他引:10  
在利用判定树进行分类挖掘时,需事先知道属性的分类。对不具体的或未知的属性分类,利用“高类聚、低耦合”原理对属性进行最优分类。在属性分类的基础上,利用基于信息熵的属性期望信息及对应的信息增益理论选择最佳分类决策属性,并按最佳分类决策属性引出分枝形成判定树。该文对属性的最优分类理论及算法进行了描述,并讨论了选择最佳决策属性构造判定树的算法,结合具体应用实例进行了验证并构造了判定树。  相似文献   

17.
熊宁欣  王应明 《计算机应用》2018,38(10):2801-2806
针对证据推理方法框架下属性权重难以获取的问题,提出一种基于改进模糊熵和证据推理的多属性决策方法。首先,定义证据推理信度决策矩阵框架下的三角函数模糊熵公式,并证明了其满足熵的四个公理化定义。其次,所提方法能够同时处理属性权重完全未知和属性权重信息部分已知两种情况:当属性权重完全未知时,基于信度框架下的改进模糊熵和熵权法的基本思想计算属性权重;当属性权重信息部分已知时,定义加权模糊熵,建立期望模糊熵最小的线性规划模型求解最优属性权重。最后,利用证据推理算法融合方案属性值,结合期望效用理论得到方案排序结果。通过实例计算,并与传统模糊熵计算方法进行比较分析,验证了所提方法能够更加充分地反映原始决策信息,更具客观性和一般性。  相似文献   

18.
综合考虑多重信任关系,将分类思想应用于可信网络多维决策属性下的服务授权问题,提出一种基于动态信息增益的多维属性信任决策模型。采用信息熵描述交易样本及各决策属性对服务授权级别的不确定性程度,采用信息增益描述决策属性的信息量。基于信息增益设置各决策属性权值。使用滑动窗口机制对各属性信息增益和权值动态调节。算法分析表明,所提出的总体信任度计算模型既符合人类信任决策对各种因素依赖程度的差异性,又能够随网络节点行为的动态变化自适应地进行调节。  相似文献   

19.
基于信息观点的约简算法比较   总被引:1,自引:0,他引:1  
在相关文献的基础上,给出了三种不同条件嫡的性质,进而研究了基于三种条件墒的不同搜索策略的约简的算法之间的关系,包括对一致和不一致决策表约简的执行时间、约简质量和分类性能的比较。理论分析和实验结果表明三种条件嫡不同性质导致了三种条件嫡的约简算法存在各自的优缺点。上述工作为用户根据实际需要选择合适的约简算法提供了有益的参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号