首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 31 毫秒
1.
决策系统中连续属性离散化,即将一个连续属性分为若干属性区间并为每个区间确定一个离散型数值,对后继阶段的机器学习具有重要的意义。首先研究了满足决策系统最优划分的一种计算候选断点集合的算法,然后在基于条件属性重要度和贪心算法的基础上提出了一种确定结果断点子集的新启发式算法。所提出的属性离散算法考虑并体现了粗糙集理论的基本特点和优点,并能取得较理想的连续属性离散化结果。  相似文献   

2.
针对粗糙集理论只能处理离散数据的局限,提出了基于决策的剥离式连续属性离散化方法,一改传统的候选断点集合的获取方法,直接通过分析连续属性在各决策类的取值范围和计算属性重要度,完成对连续属性的初步离散.此外,本文提出候选断点集的推移原则,可逐步减小候选断点集的范围.由于每次都是针对尚不能明确分类的样本进行细化,因此随着候选断点集的减少和明确分类样本的增加,系统能够迅速收敛,并且离散化后的决策表总是相容的,这与目前很多离散方法不考虑决策相容性相比,能够最大限度地保留系统的有用信息.本文提出的离散化方法是领域独立的,不需要领域知识,可应用于不同领域的连续属性的离散化.  相似文献   

3.
基于粗集理论的数据离散化方法   总被引:21,自引:0,他引:21  
对后继阶段的机器学习或数据挖掘过程而言,决策系统中连续属性值的离散化具有非常重要的意义。本文系统地研究了基于粗集理论的数据离散化方法:提出一种计算候选断点集合的算法;定义概念“选择概率”来合理、有效地度量和区分候选断点的相对重要性;最后基于这一概念提出一种确定结果断点子集的启发式算法,理论分析及仿真结果表明,算法的综舍性能优于文献报道的同类算法.  相似文献   

4.
连续属性的离散化是粗糙集理论的主要问题之一.针对粗糙集理论只能处理离散数据的局限性,提出基于属性决策表和竞争型网络的连续属性离散化方法.首先使用条件属性与决策属性之间的决策关系来度量条件属性的重要性,并据此对条件属性按照重要性由小到大排序,然后利用竞争型网络分类功能找到连续属性的断点,从而实现了对连续属性的离散化.算法分析和实验证明算法是切实可行的.  相似文献   

5.
决策表中连续属性离散化,即将一个连续属性分为若干属性区间并为每个区间确定一个离散型数值。该文提出一种新的决策表连续属性离散化算法。首先使用决策强度来度量条件属性的重要性,并据此对条件属性按照属性重要性从小到大排序,然后按排序后的顺序,考察每个条件属性的所有断点,将冗余的断点去掉,从而将条件属性离散化。该算法易于理解,计算简单,算法的时间复杂性为O(3kn2)。  相似文献   

6.
针对新能源智能车监控数据中包含过多的连续属性,提出了一种基于分辨矩阵和信息增益率的有监督离散化算法,从而降低连续属性的取值精度,使得新能源智能车后续的分类模型建立更具泛化能力.该算法在保证分类效果的前提下,获得尽可能少的结果断点,主要从3个方面对传统的离散化算法进行优化,一是根据决策表的条件属性与决策属性构建候选断点分辨矩阵,通过分辨矩阵判断相邻属性取值之间是否有可能的断点;二是用信息增益率来优化结果断点的选取;三是通过设定停止阈值解决了传统算法因停止条件过于严格导致算法选取过多的结果断点、离散化效果一般的问题.实验结果表明,改进的算法能够有效减少断点数量,大幅提高计算效率,并获得与经典算法相近的离散结果.  相似文献   

7.
针对不完备信息系统提出了一种新的粗糙集离散化算法。通过分析候选断点与决策类之间的影响关系,定义了候选断点对决策类的区分能力,并以此作为断点重要性的度量,实现不完备信息系统中连续属性的离散化。仿真实验验证了该算法的有效性。  相似文献   

8.
基于区分矩阵的数据离散化算法   总被引:1,自引:0,他引:1  
由于传统的粗糙理论只能对数据库中离散数据进行处理,而绝大多数现实的数据库既包含了离散数据,又包含了连续数据。针对这一问题,提出了一种基于候选断点区分矩阵的数据离散化算法。该方法以断点核为起点,以候选断点在区分矩阵中出现的频率作为启发信息,逐次选择最重要的断点加入到结果断点子集中,并由最终的断点集得离散化后的信息系统。最后通过实例分析表明,该算法具有较好的离散化效果。  相似文献   

9.
基于粗糙集理论和信息熵的属性离散化方法*   总被引:1,自引:0,他引:1  
在分析当前研究中常用的属性离散化方法的基础上,提出了一种计算初始断点集合的算法;定义了断点的信息熵,并以此作为对断点重要性的度量,提出了一种基于粗糙集理论和信息熵的属性离散化算法。通过与其他离散化算法的对比实验,验证了本算法的有效性,而且在样本数和条件属性数目不断增大时仍有很高的效率。  相似文献   

10.
基于二进制粒子群优化的决策系统属性离散化   总被引:1,自引:0,他引:1  
为解决连续属性无法直接用于粗糙集理论的问题,依据粗糙集连续属性离散化的根本要求,提出了一种基于二进制粒子群优化算法(Binary Particle Swarm Optimization,BinaryPSO)的属性离散化方法。该方法将二进制粒子视为断点子集,最小化断点集中的断点个数作为优化目标,粗糙集属性分类精度作为约束条件。其中,适应函数的定义保证了在尽量减少决策系统信息损失的前提下,得到简化的决策系统。仿真结果表明,该方法得到的离散结果包含较少的断点个数,并且保持了较高的分类能力。  相似文献   

11.
Partitioning Nominal Attributes in Decision Trees   总被引:1,自引:1,他引:0  
To find the optimal branching of a nominal attribute at a node in an L-ary decision tree, one is often forced to search over all possible L-ary partitions for the one that yields the minimum impurity measure. For binary trees (L = 2) when there are just two classes a short-cut search is possible that is linear in n, the number of distinct values of the attribute. For the general case in which the number of classes, k, may be greater than two, Burshtein et al. have shown that the optimal partition satisfies a condition that involves the existence of 2 L hyperplanes in the class probability space. We derive a property of the optimal partition for concave impurity measures (including in particular the Gini and entropy impurity measures) in terms of the existence ofL vectors in the dual of the class probability space, which implies the earlier condition.Unfortunately, these insights still do not offer a practical search method when n and k are large, even for binary trees. We therefore present a new heuristic search algorithm to find a good partition. It is based on ordering the attribute's values according to their principal component scores in the class probability space, and is linear in n. We demonstrate the effectiveness of the new method through Monte Carlo simulation experiments and compare its performance against other heuristic methods.  相似文献   

12.
如何安全、有效地选择信任度满足要求的服务提供者是目前信任研究领域的热点问题。文中提出了一种多属性决策的层次化信任模型,将决策属性分为定量属性和定性属性,有利于属性的分类度量、属性的系统化分析和信任等级的设定,同时给出了对具有不同信任等级的属性进行融合的方法。用置信区间来表示定性属性,可以很好地表达主观不确定性和风险意识。利用推荐者的推荐信息可以快速建立实体间的信任关系,针对网络中存在的恶意实体的推荐,列举了检验推荐信息可信度的方法并分析了各自的优缺点.介绍了几种典型的信任模型并提出了建立信任模型的关键。  相似文献   

13.
目前存在的一些区间值属性决策树算法都是在无序情况下设计的,未考虑条件属性和决策属性之间的序关系.针对这些算法处理有序分类问题的不足,提出区间值属性的单调决策树算法,用于处理区间值属性的单调分类问题.该算法利用可能度确定区间值属性的序关系,使用排序互信息度量区间值属性的单调一致程度,通过排序互信息的最大化选取扩展属性.此外,将非平衡割点应用到区间值属性决策树构建过程中,减少排序互信息的计算次数,提高计算效率.实验表明文中算法提高了效率和测试精度.  相似文献   

14.
While many constructive induction algorithms focus on generating new binary attributes, this paper explores novel methods of constructing nominal and numeric attributes. We propose a new constructive operator, X-of-N. An X-of-N representation is a set containing one or more attribute-value pairs. For a given instance, the value of an X-of-N representation corresponds to the number of its attribute-value pairs that are true of the instance. A single X-of-N representation can directly and simply represent any concept that can be represented by a single conjunctive, a single disjunctive, or a single M-of-N representation commonly used for constructive induction, and the reverse is not true. In this paper, we describe a constructive decision tree learning algorithm, called XofN. When building decision trees, this algorithm creates one X-of-N representation, either as a nominal attribute or as a numeric attribute, at each decision node. The construction of X-of-N representations is carried out by greedily searching the space defined by all the attribute-value pairs of a domain. Experimental results reveal that constructing X-of-N attributes can significantly improve the performance of decision tree learning in both artificial and natural domains in terms of higher prediction accuracy and lower theory complexity. The results also show the performance advantages of constructing X-of-N attributes over constructing conjunctive, disjunctive, or M-of-N representations for decision tree learning.  相似文献   

15.
李坤  姜浩 《微机发展》2010,(3):36-39,43
如何安全、有效地选择信任度满足要求的服务提供者是目前信任研究领域的热点问题。文中提出了一种多属性决策的层次化信任模型,将决策属性分为定量属性和定性属性,有利于属性的分类度量、属性的系统化分析和信任等级的设定,同时给出了对具有不同信任等级的属性进行融合的方法。用置信区间来表示定性属性,可以很好地表达主观不确定性和风险意识。利用推荐者的推荐信息可以快速建立实体间的信任关系,针对网络中存在的恶意实体的推荐,列举了检验推荐信息可信度的方法并分析了各自的优缺点.介绍了几种典型的信任模型并提出了建立信任模型的关键。  相似文献   

16.
针对目前大多数决策树挖掘中处理连续型属性方法时不考虑语义信息的问题,指出了研究数字型连续属性的语义化问题的必要性和可行性,进而提出了决策树中数字型连续属性的语义化方法,最后结合实例对该方法进行了验证。  相似文献   

17.
带结论域的关联规则的挖掘   总被引:3,自引:0,他引:3  
为了提高关联规则挖掘的效率和提高关联规则的准确率,提出了以rough set为基础的关联规则挖掘,该文系统介绍了两种挖掘算法的主要过程,并提出了带结论域的并联规则挖掘解决方法。  相似文献   

18.
在介绍了现有数值型属性分裂方法的基础上,引出了纯区间的概念,提出了一种基于纯区间归约的数值型属性分裂方法。该方法将属性值域用等宽直方图的方法划分为多个区间,对纯区间和非纯区间分别处理。理论分析和实验结果表明该方法在保证了分裂精度的同时,减小了搜索空间。  相似文献   

19.
对简化的决策表进行转换,得到改进的简化决策表.基于正区域的属性约简,证明了在原决策表上约简与在改进的简化决策表上约简,结果相同.由于改进的简化决策表是一致的,从而保证在实际应用中,对改进的简化决策表可以用现有的任意一种完备的属性约简算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号