首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
决策系统中连续属性的离散化,即实型属性空问向整型属性空间的映射,它是对决策表中属性约简的第一步.针对多值决策属性的决策信息系统,提出一种新的属性离散化算法.首先根据决策属性的不同,将条件属性集划分为不同的序列,对每两个序列求取候选断点,最后,综合所有的候选断点即为所求的候选断点集合;然后在基于条件属性重要度和贪心算法的基础上提出一种确定结果断点子集的新启发式算法.实例验证了本文所提出的算法能够取得较理想的连续属性离散化结果.  相似文献   

2.
基于粗集理论的数据离散化方法   总被引:21,自引:0,他引:21  
对后继阶段的机器学习或数据挖掘过程而言,决策系统中连续属性值的离散化具有非常重要的意义。本文系统地研究了基于粗集理论的数据离散化方法:提出一种计算候选断点集合的算法;定义概念“选择概率”来合理、有效地度量和区分候选断点的相对重要性;最后基于这一概念提出一种确定结果断点子集的启发式算法,理论分析及仿真结果表明,算法的综舍性能优于文献报道的同类算法.  相似文献   

3.
决策表中连续属性离散化,即将一个连续属性分为若干属性区间并为每个区间确定一个离散型数值。该文提出一种新的决策表连续属性离散化算法。首先使用决策强度来度量条件属性的重要性,并据此对条件属性按照属性重要性从小到大排序,然后按排序后的顺序,考察每个条件属性的所有断点,将冗余的断点去掉,从而将条件属性离散化。该算法易于理解,计算简单,算法的时间复杂性为O(3kn2)。  相似文献   

4.
针对粗糙集理论只能处理离散数据的局限,提出了基于决策的剥离式连续属性离散化方法,一改传统的候选断点集合的获取方法,直接通过分析连续属性在各决策类的取值范围和计算属性重要度,完成对连续属性的初步离散.此外,本文提出候选断点集的推移原则,可逐步减小候选断点集的范围.由于每次都是针对尚不能明确分类的样本进行细化,因此随着候选断点集的减少和明确分类样本的增加,系统能够迅速收敛,并且离散化后的决策表总是相容的,这与目前很多离散方法不考虑决策相容性相比,能够最大限度地保留系统的有用信息.本文提出的离散化方法是领域独立的,不需要领域知识,可应用于不同领域的连续属性的离散化.  相似文献   

5.
连续属性的离散化是粗糙集理论的主要问题之一.针对粗糙集理论只能处理离散数据的局限性,提出基于属性决策表和竞争型网络的连续属性离散化方法.首先使用条件属性与决策属性之间的决策关系来度量条件属性的重要性,并据此对条件属性按照重要性由小到大排序,然后利用竞争型网络分类功能找到连续属性的断点,从而实现了对连续属性的离散化.算法分析和实验证明算法是切实可行的.  相似文献   

6.
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。  相似文献   

7.
焦冬艳  于津  张华 《现代计算机》2011,(Z1):20-22,28
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。  相似文献   

8.
基于粗糙集理论和信息熵的属性离散化方法*   总被引:1,自引:0,他引:1  
在分析当前研究中常用的属性离散化方法的基础上,提出了一种计算初始断点集合的算法;定义了断点的信息熵,并以此作为对断点重要性的度量,提出了一种基于粗糙集理论和信息熵的属性离散化算法。通过与其他离散化算法的对比实验,验证了本算法的有效性,而且在样本数和条件属性数目不断增大时仍有很高的效率。  相似文献   

9.
一种改进的启发式离散化算法及应用   总被引:1,自引:0,他引:1  
Nguyen S.H提出的布尔逻辑和粗糙集理论相结合的离散化算法是粗糙集理论中的离散化算法在思想上的重大突破。通过定义分界点来区分Nguyen S.H离散化算法中定义的断点对决策系统的分辨关系是否有贡献,并仅取分界点集作为初始断点集,使得初始断点数目较大幅度地降低,提出了一种改进的启发式离散化算法并应用于一个实际的决策系统的连续属性离散化。应用实例表明改进算法较大程度地减小了算法空间复杂性和时间复杂性,具有正确性和实用性。  相似文献   

10.
基于二进制粒子群优化的决策系统属性离散化   总被引:1,自引:0,他引:1  
为解决连续属性无法直接用于粗糙集理论的问题,依据粗糙集连续属性离散化的根本要求,提出了一种基于二进制粒子群优化算法(Binary Particle Swarm Optimization,BinaryPSO)的属性离散化方法。该方法将二进制粒子视为断点子集,最小化断点集中的断点个数作为优化目标,粗糙集属性分类精度作为约束条件。其中,适应函数的定义保证了在尽量减少决策系统信息损失的前提下,得到简化的决策系统。仿真结果表明,该方法得到的离散结果包含较少的断点个数,并且保持了较高的分类能力。  相似文献   

11.
基于区分矩阵的数据离散化算法   总被引:1,自引:0,他引:1  
由于传统的粗糙理论只能对数据库中离散数据进行处理,而绝大多数现实的数据库既包含了离散数据,又包含了连续数据。针对这一问题,提出了一种基于候选断点区分矩阵的数据离散化算法。该方法以断点核为起点,以候选断点在区分矩阵中出现的频率作为启发信息,逐次选择最重要的断点加入到结果断点子集中,并由最终的断点集得离散化后的信息系统。最后通过实例分析表明,该算法具有较好的离散化效果。  相似文献   

12.
针对新能源智能车监控数据中包含过多的连续属性,提出了一种基于分辨矩阵和信息增益率的有监督离散化算法,从而降低连续属性的取值精度,使得新能源智能车后续的分类模型建立更具泛化能力.该算法在保证分类效果的前提下,获得尽可能少的结果断点,主要从3个方面对传统的离散化算法进行优化,一是根据决策表的条件属性与决策属性构建候选断点分辨矩阵,通过分辨矩阵判断相邻属性取值之间是否有可能的断点;二是用信息增益率来优化结果断点的选取;三是通过设定停止阈值解决了传统算法因停止条件过于严格导致算法选取过多的结果断点、离散化效果一般的问题.实验结果表明,改进的算法能够有效减少断点数量,大幅提高计算效率,并获得与经典算法相近的离散结果.  相似文献   

13.
连续属性离散化作为水产品安全信息系统中进行智能化数据处理的一个重要研究内容,已然成为水产品安全信息化研究领域的一个热点和难点。文中利用基于粗糙集理论相对熵的连续属性离散化方法来解决这个问题。此方法选用候选区间的类信息熵作为离散门限值边界,并且通过考察每个属性值的分类能力,合并离散区间,去掉冗余断点,确定关键离散属性值,最终在水产品安全信息系统中实现连续属性离散化。实例分析表明算法是有效可行的。  相似文献   

14.
一种基于粗糙2模糊集集成模型的决策分析方法   总被引:14,自引:0,他引:14       下载免费PDF全文
针对信息系统为连续属性的情况,提出一种将粗糙集与模糊集相结合来获取决策规则的方法,这种基于粗糙—模糊集集成模型求取决策规则的方法通过一个模糊隶属函数将连续属性值表示成模糊值,从而避免了连续属性的离散化问题,同时给出了连续属性值转换成模糊值的表示形式,提出了模糊相似关系和模糊相似类的概念,给出了粗糙—模糊近似空间的下、上近似及其性质以及模糊相似关系下属性约简的方法,最后以自修复飞行控制系统的效能评估为例,给出了自修复效能评估的决策规则。  相似文献   

15.
The discretization of values plays a critical role in data mining and knowledge discovery. The representation of information through intervals is more concise and easier to understand at certain levels of knowledge than the representation by mean continuous values. In this paper, we propose a method for discretizing continuous attributes by means of fuzzy sets, which constitute a fuzzy partition of the domains of these attributes. This method carries out a fuzzy discretization of continuous attributes in two stages. A fuzzy decision tree is used in the first stage to propose an initial set of crisp intervals, while a genetic algorithm is used in the second stage to define the membership functions and the cardinality of the partitions. After defining the fuzzy partitions, we evaluate and compare them with previously existing ones in the literature.  相似文献   

16.
具有高可理解性的二分决策树生成算法研究   总被引:3,自引:0,他引:3  
蒋艳凰  杨学军  赵强利 《软件学报》2003,14(12):1996-2005
二分离散化是决策树生成中处理连续属性最常用的方法,对于连续属性较多的问题,生成的决策树庞大,知识表示难以理解.针对两类分类问题,提出一种基于属性变换的多区间离散化方法--RCAT,该方法首先将连续属性转化为某类别的概率属性,此概率属性的二分法结果对应于原连续属性的多区间划分,然后对这些区间的边缘进行优化,获得原连续属性的信息熵增益,最后采用悲观剪枝与无损合并剪枝技术对RCAT决策树进行简化.对多个领域的数据集进行实验,结果表明:对比二分离散化,RCAT算法的执行效率高,生成的决策树在保持分类精度的同时,树的规模小,可理解性强.  相似文献   

17.
基于粗糙集的两种离散化算法的研究   总被引:9,自引:0,他引:9  
随着知识发现和数据挖掘的迅速发展,出现了很多的方法,这些方法很多都依赖于离散的数据。但是,大部分现实中应用的数据都带有连续变量的属性。为了使得数据挖掘的技术能够用在这些数据上面,必须进行离散化。文章探讨了基于粗糙集的离散化方法。论文做实验来比较局部和全局离散化算法,实验结果表明,这两种算法对于数据集有敏感性。  相似文献   

18.
为了解决数据挖掘和机器学习领域中连续属性离散化问题,提出一种改进的自适应离散粒子群优化算法。将连续属性的断点集合作为离散粒子群,通过粒子间的相互作用最小化断点子集,同时引入模拟退火算法作为局部搜索策略,提高了粒子群的多样性和寻找全局最优解的能力。利用粗糙集理论中决策属性对条件属性的依赖度来衡量决策表的一致性,从而达到连续属性离散化的目的,最后采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验,实验结果表明此算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号