首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 153 毫秒
1.
为了让规则抽取算法能更好地适用于连续属性领域的问题,文章提出了一种有导师的连续属性离散化算法SHD,并将该算法扩展到多连续属性处理领域,在此基础上,文章对该算法的数据预处理过程进行了探讨,提出了一种基于类间离散离矩阵分析属性空间重构造算法,并将其应用到属性预处理过程中,算法测试证明,对于连续属性领域的问题,使用SHD属性离散化算法将明显改进后继规则抽取算法的效果。  相似文献   

2.
连续属性离散化算法SHD及其改进   总被引:2,自引:0,他引:2  
为了让规则抽取算法能更好地适用于连续属性领域的问题,文章提出了一种有导师的连续属性离散化算法SHD,并将该算法扩展到多连续属性处理领域。在此基础上,文章对该算法的数据预处理过程进行了探讨,提出了一种基于类间离散度矩阵分析属性空间重构造算法,并将其应用到属性预处理过程中。算法测试证明,对于连续属性领域的问题,使用SHD属性离散化算法将明显改进后继规则抽取算法的效果。  相似文献   

3.
基于粗糙集理论和信息熵的属性离散化方法*   总被引:1,自引:0,他引:1  
在分析当前研究中常用的属性离散化方法的基础上,提出了一种计算初始断点集合的算法;定义了断点的信息熵,并以此作为对断点重要性的度量,提出了一种基于粗糙集理论和信息熵的属性离散化算法。通过与其他离散化算法的对比实验,验证了本算法的有效性,而且在样本数和条件属性数目不断增大时仍有很高的效率。  相似文献   

4.
目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾,针对粗糙集给出了基于逐级均值聚类的信息熵的离散化算法。首先使用改进的逐级均值聚类算法分别对单个属性的候选断点按其信息熵值进行聚类分析,生成新的规模更小的候选断点集,然后用基于信息熵的离散化算法完成断点的选取并对连续值属性进行离散化。实验结果表明,该方法在识别率相当的情况下比传统的离散化方法的时间代价更低。  相似文献   

5.
数据属性离散化是作战仿真数据预处理的重要组成部分,也是作战仿真数据研究的重点和难点.论述了进行数据属性离散化的必要性,提出一种基于改进属性重要度和信息熵(Discretization by Improved Attribute Significance and Information Entropy,DIAFIE)的作战仿真数据属性离散化算法.算法定义了属性重要度并以此为聚类判断依据将数据值域划分为多个离散区间,然后根据信息熵优化合并相邻区间以保证离散化结果的精度.实验证明上述算法能有效处理作战仿真数据属性离散化问题,具有产生断点少、分类精度高的优点.  相似文献   

6.
粗糙集连续属性离散化模型研究与应用要点分析   总被引:10,自引:0,他引:10  
基于粗糙集理论,研究连续属性离散化问题的本质特点,提出粗糙集指标衡量和优化算法结构相统一的离散化思想,设计通用的离散化方法模型。分析主流的SOM网络、GA、层次聚类、信息熵等主流聚类方法的特点,并基于这种结构模型,给出了相应离散化方法的应用要点。  相似文献   

7.
.连续属性离散化算法比较研究*   总被引:2,自引:0,他引:2  
探讨了贪心及其改进算法、基于属性重要性、基于信息熵和基于聚类四类连续属性离散化算法,并通过实验验证这四类算法的离散化效果.实验结果表明,数据集离散化的效果不仅取决于使用算法,而且与数据集连续属性的分布和决策数据值的分类也有密切关系.  相似文献   

8.
在分析和研究C5算法中连续属性处理的必要性及C5算法中离散化方法的不足后,采用基于粗糙集理论-信息熵-可辨识矩阵的离散化的方法(RSIEDM)进行离散化。该方法利用粗糙集、信息熵和可辨识矩阵能更合理、更准确地对连续属性进行离散化,使创建的决策树具有更好的准确率。在优化雷电灾害统计和评估雷电灾害导致的损失应用中,该算法取得了较好的效果。  相似文献   

9.
基于信息熵的粗糙集连续属性离散化算法   总被引:60,自引:0,他引:60  
谢宏  程浩忠  牛东晓 《计算机学报》2005,28(9):1570-1574
该文提出了一种新的粗糙集连续属性离散化算法.首先对每一个候选断点定义了信息熵,以此作为对断点重要性的量度,在此基础上给出了断点选择的粗糙集连续属性离散化算法.最后采用多组数据对此算法的性能进行了检验,并与其它算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有很高的计算效率.  相似文献   

10.
胡运禄  于津 《福建电脑》2013,29(3):118-121
连续型属性的离散化是数据挖掘研究中一个重要的组成部分,连续属性离散化方法的性能对数据挖掘结果会产生直接的影响。本文将基于目标函数的模糊聚类算法-FCM引入到连续属性离散化中,在对FCM算法中的模糊聚类数目a和初始聚类中心位置进行优化的基础上,提出了改进的NFCM算法,根据需要离散化的数据分布特点来进行离散化,减少了模糊聚类算法的迭代次数,提高了连续属性离散化的效率。  相似文献   

11.
一种综合信息熵和遗传算法的知识约简方法   总被引:1,自引:0,他引:1  
针对粗糙集理论核心内容之一的知识约简问题,本文结合信息论有关知识,给出了粗糙集理论中一些概念和运算的信息表示,并利用遗传算法作为约简工具,提出了一种知识相对约简的方法.为使所得约简相对最优,将条件信息熵的重要性定义融入了适值函数中.同时,在适值函数的选取上引入了惩罚函数和罚系数,从而保证所求的约简在包含最少而又非零个属性的基础上保持原有的分类能力.通过实例分析可看出,该算法对求解约简问题是快速有效的.  相似文献   

12.
简单贝叶斯算法在邮件过滤领域使用得比较普遍.该算法的优点是简单、对特征较为恒定的垃圾邮件较为有效,但其适应性较差.谨提出一种以贝叶斯公式为基础的自适应垃圾邮件过滤方法,它采用基于词熵的特征提取方法,在过滤过程中不断地进行自学习,具有较强的自适应能力.  相似文献   

13.
《Applied Soft Computing》2007,7(3):1135-1143
Relations and relation matrices are important concepts in set theory and intelligent computation. Some general uncertainty measures for fuzzy relations are proposed by generalizing Shannon's information entropy. Then, the proposed measures are used to calculate the diversity quantity of multiple classifier systems and the granularity of granulated problem spaces, respectively. As a diversity measure, it is shown that the fusion system whose classifiers are of little similarity produces a great uncertainty quantity, which means that much complementary information is achieved with a diverse multiple classifier system. In granular computing, a “coarse–fine” order is introduced for a family of problem spaces with the proposed granularity measures. The problem space that is finely granulated will get a great uncertainty quantity compared with the coarse problem space. Based on the observation, we employ the proposed measure to evaluate the significance of numerical attributes for classification. Each numerical attribute generates a fuzzy similarity relation over the sample space. We compute the condition entropy of a numerical attribute or a set of numerical attribute relative to the decision, where the greater the condition entropy is, the less important the attribute subset is. A forward greedy search algorithm for numerical feature selection is constructed with the proposed measure. Experimental results show that the proposed method presents an efficient and effective solution for numerical feature analysis.  相似文献   

14.
Rough set theory is a useful mathematic tool for dealing with vague and uncertain information. Shannon's entropy and its variants have been applied to measure uncertainty in rough set theory from the viewpoint of information theory. However, few studies have been carried out on information-theoretical measure of attribute importance in incomplete decision system (IDS) considering the relation between decision attribute and condition attributes. In this paper, we introduce the concept of conditional entropy together with entropy and joint entropy in IDSs. By using the new conditional entropy, we propose a measure for attribute importance. Based on the measure, a heuristic attribute reduction algorithm is presented. Some test experiments on real-lift data-sets show the effectiveness of the algorithm. The attribute importance measure and the attribute reduction algorithm can be used in data mining or machine learning for handling incomplete data.  相似文献   

15.
姚晟  徐风  吴照玉  陈菊  汪杰  王维 《控制与决策》2019,34(2):353-361
属性约简是粗糙集理论一项重要的应用,目前已广泛运用于机器学习和数据挖掘等领域,邻域粗糙集是粗糙集理论中处理连续型数据的一种重要方法.针对目前邻域粗糙集模型中属性约简存在的缺陷,构造一种基于邻域粗糙集的邻域粗糙熵模型,并基于此给出邻域粗糙联合熵、邻域粗糙条件熵和邻域粗糙互信息熵等概念.邻域粗糙互信息熵是评估属性集相关性的一种重要的方法,具有非单调性变化的特性,对此,提出一种基于邻域粗糙互信息熵的非单调性属性约简算法.实验分析表明,所提出算法不仅比目前已有的单调性属性约简算法具有更优越的属性约简结果,而且具有更高的约简效率.  相似文献   

16.
基于粗糙集的启发式属性约简算法   总被引:1,自引:0,他引:1  
对现有启发式属性约简算法进行分析,通过实例说明一般启发式算法求得的相对约简有冗余属性存在的问题.针对这一不足,利用粗糙集理论中的条件熵作为启发信息,来缩小搜索空间,并在算法中加入消除冗余属性的二次约简过程,得到一种改进的启发式属性约简算法.提供了实例分析,验证了该改进算法具有较好的约简效果.  相似文献   

17.
区间值属性决策树学习算法*   总被引:8,自引:0,他引:8  
王熙照  洪家荣 《软件学报》1998,9(8):637-640
该文提出了一种区间值属性决策树的学习算法.区间值属性的值域不同于离散情况下的无序集和连续情况下的全序集,而是一种半序集.作为ID3算法在区间值意义下的推广,算法通过一种分割信息熵的极小化来选取扩展属性.通过非平稳点分析,减少了分割信息熵的计算次数,使算法的效率得到了提高.  相似文献   

18.
互信息的序决策信息系统属性约简研究   总被引:1,自引:0,他引:1  
优势关系粗糙集理论是粗糙集理论有意义的推广,决策信息系统知识约简是粗糙集理论的核心内容之一.通过在协调序决策信息系统中引入条件熵、互信息概念,给出了基于条件熵、互信息的协调序决策信息系统属性约简算法,并通过学生评价决策信息系统验证了该算法的有效性,使协调序决策信息系统的属性约简得到了扩展.在不协调序决策信息系统中引入限定条件熵、限定互信息概念,并给出基于限定互信息的不协调序决策信息系统属性约简算法,为不协调序决策信息系统的属性约简的应用提供了可行的解决方法.  相似文献   

19.
近年来,人们越来越关注粗糙集中的属性约简算法,尤其是启发式的约简算法。为了度量属性重要度,人们把各种不同的信息熵模型应用到粗糙集中,同时在信息熵这一理论的基础上得出了许多约简算法,用来解决粗糙集中属性约简的问题。然而,现有的基于信息熵的方法还存在一系列问题。针对这些问题,本文首先将知识粒度与相对决策熵这2个概念结合在一起,从而引入一种新的信息熵模型--粒度决策熵;然后,利用粒度决策熵来度量属性的重要性,并由此得出新的约简算法--ARGDE约简算法;最后,用不同的UCI数据集来做实验,通过与已有的约简算法比较,该算法能够得到更好的实验结果。  相似文献   

20.
通过分析不完备信息系统中基于相容矩阵的属性约简算法,定义一个在单个条件属性下的新二进制相容矩阵,给出新矩阵间的吸收运算规则,利用该规则得到不完备信息系统条件属性集的二进制相容矩阵.通过判断新二进制相容矩阵间运算后得到的矩阵是否与条件属性集下的矩阵等价,找出不完备信息系统的属性约简.证明该属性约简与不完备信息系统中基于正...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号