首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
一种基于云模型的决策表连续属性离散化方法   总被引:4,自引:0,他引:4  
传统Rough集理论只能处理离散属性,所以在对决策表进行处理之前,必须对决策表中的连续属性进行离散化.本文提出了一种基于云模型的、领域独立的决策表连续属性离散化方法,尤其适合大数据量的情形.该方法首先根据数据的实际分布,利用云变换将连续属性的定义域划分为多个基于云的定性概念,然后利用决策表不确定性程度的反馈信息合并相邻的定性概念.这种离散化方法是一种软划分,更加符合实际的数据分布和人的思维方式另外通过合并相邻的定性概念,能够有效提高信息系统中信息的粒度,从而提高所挖掘规则的统计意义和预测强度.  相似文献   

2.
一种连续值属性约简方法ReCA   总被引:1,自引:1,他引:0  
属性约简是Rough集理论的主要应用和研究内容之一.现有的各种属性约简方法大多适用于离散值属性.对于连续值属性的数据处理,通常做法是先对其进行离散化.这种先期对数据进行的处理会丢失一些信息,易于使约简产生错误.针对连续值信息系统,提出了一种新的属性约简方法ReCA,该方法将连续值属性离散化与属性约简过程融为一体,以基于信息熵的不确定性度量作为适应度函数。通过进化计算同时得到约简属性集合和离散化的断点集合.实验表明,该方法不仅可以有效地进行属性约简,而且与Rough集及C4.5两种方法相比,得到的属性数目少、测试精度较高.  相似文献   

3.
目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾,针对粗糙集给出了基于逐级均值聚类的信息熵的离散化算法。首先使用改进的逐级均值聚类算法分别对单个属性的候选断点按其信息熵值进行聚类分析,生成新的规模更小的候选断点集,然后用基于信息熵的离散化算法完成断点的选取并对连续值属性进行离散化。实验结果表明,该方法在识别率相当的情况下比传统的离散化方法的时间代价更低。  相似文献   

4.
针对粗糙集理论只能处理离散数据的局限,提出了基于决策的剥离式连续属性离散化方法,一改传统的候选断点集合的获取方法,直接通过分析连续属性在各决策类的取值范围和计算属性重要度,完成对连续属性的初步离散.此外,本文提出候选断点集的推移原则,可逐步减小候选断点集的范围.由于每次都是针对尚不能明确分类的样本进行细化,因此随着候选断点集的减少和明确分类样本的增加,系统能够迅速收敛,并且离散化后的决策表总是相容的,这与目前很多离散方法不考虑决策相容性相比,能够最大限度地保留系统的有用信息.本文提出的离散化方法是领域独立的,不需要领域知识,可应用于不同领域的连续属性的离散化.  相似文献   

5.
针对现有判定树算法在处理空缺值和连续值以及知识表达上不精确性和复杂性问题,提出基于云变换和Rough扩展模型的判定树构造算法。该算法利用云变换来离散化连续属性,然后根据概念集,采用极大判定法对每个数值型属性的原始属性值进行软划分,从而得到离散属性值。最后利用特性关系下的加权平均粗糙度来选取当前结点的分裂属性来递归生成判定树。与C5.0算法相比,新算法可妥善处理空缺值、合理离散连续属性。试验结果表明,该算法具有良好的实用性。  相似文献   

6.
传统的粗集理论只能对数据库中的离散属性进行处理,所以对存在连续属性的数据库必须进行离散化处理.经过初次离散化后的信息系统往往包含的等价类数过多.文中提出了一种数据泛化方法,利用决策表相容性的反馈信息对经过初次离散化的信息系统进行处理.结果表明,该方法能够有效地提高规则的统计意义及解释能力,推导出来的规则对待识样本具有更好的适应性.  相似文献   

7.
连续属性的离散化是粗糙集理论的主要问题之一.针对粗糙集理论只能处理离散数据的局限性,提出基于属性决策表和竞争型网络的连续属性离散化方法.首先使用条件属性与决策属性之间的决策关系来度量条件属性的重要性,并据此对条件属性按照重要性由小到大排序,然后利用竞争型网络分类功能找到连续属性的断点,从而实现了对连续属性的离散化.算法分析和实验证明算法是切实可行的.  相似文献   

8.
.连续属性离散化算法比较研究*   总被引:2,自引:0,他引:2  
探讨了贪心及其改进算法、基于属性重要性、基于信息熵和基于聚类四类连续属性离散化算法,并通过实验验证这四类算法的离散化效果.实验结果表明,数据集离散化的效果不仅取决于使用算法,而且与数据集连续属性的分布和决策数据值的分类也有密切关系.  相似文献   

9.
Rough Set理论中连续属性的离散化方法   总被引:95,自引:0,他引:95  
苗夺谦 《自动化学报》2001,27(3):296-302
Rough Set(RS)理论是一种新的处理不精确、不完全与不相容知识的数学工具.传 统的RS理论只能对数据库中的离散属性进行处理,而绝大多数现实的数据库既包含了离散 属性,又包含了连续属性.文中针对传统RS理论的这一缺陷,利用决策表相容性的反馈信 息,提出了一种领域独立的基于动态层次聚类的连续属性离散化算法.该方法为RS理论处 理离散与连续属性提供了一种统一的框架,从而极大地拓广了RS理论的应用范围.通过一 些例子将本算法与现有方法进行了比较分析,得到了令人鼓舞的结果.  相似文献   

10.
一种改进的快速数据离散化算法   总被引:1,自引:0,他引:1  
提出一种新的基于粗糙集理论的快速数据离散化算法FRSBD(Fast Rough Set based Discretization Algorithm),文章定义了属性决策关系矩阵等概念.证明了一组基于属性决策关系矩阵的断点判定规则的有效性,并基于该新的断点判定规则,实现了决策表中连续属性值的快速离散化.理论分析说明了FRSBD的正确性和有效性,仿真结果表明该算法优于文献报道的同类算法.  相似文献   

11.
一种连续属性离散化的新方法   总被引:6,自引:0,他引:6  
提出了一种基于聚类方法、结合粗集理论的连续属性离散化方法。在粗集理论中有一个重要概念:属性重要度(Attribute significance),它常用来作为生成好的约简所采用的启发式评价函数。受此启发,在连续属性离散化方法中可把它用于属性选择,即从已离散化的属性集中选择出属性重要度最高的属性,再把它和待离散化的连续属性一起进行聚类学习,得到该连续属性的离散区间。文中介绍了该方法的算法描述,并通过实验与其他算法进行了比较。实验结果表明,由于这种方法在离散化过程中结合了粗集理论的思想,考虑了属性间的相互影响,从而产生了比较合理的划分点,提高了规则的分类精度。  相似文献   

12.
连续属性离散化作为水产品安全信息系统中进行智能化数据处理的一个重要研究内容,已然成为水产品安全信息化研究领域的一个热点和难点。文中利用基于粗糙集理论相对熵的连续属性离散化方法来解决这个问题。此方法选用候选区间的类信息熵作为离散门限值边界,并且通过考察每个属性值的分类能力,合并离散区间,去掉冗余断点,确定关键离散属性值,最终在水产品安全信息系统中实现连续属性离散化。实例分析表明算法是有效可行的。  相似文献   

13.
皋军  王建东 《计算机应用》2004,24(2):135-137
在数据挖掘研究过程中,对连续型属性一般要进行离散化。特别是在模糊数据挖掘中,还要对离散化的区间进行模糊处理。文中依托云模式,并结合粗糙集理论提出一种新的连续型属性离散化算法。  相似文献   

14.
基于二进制粒子群优化的决策系统属性离散化   总被引:1,自引:0,他引:1  
为解决连续属性无法直接用于粗糙集理论的问题,依据粗糙集连续属性离散化的根本要求,提出了一种基于二进制粒子群优化算法(Binary Particle Swarm Optimization,BinaryPSO)的属性离散化方法。该方法将二进制粒子视为断点子集,最小化断点集中的断点个数作为优化目标,粗糙集属性分类精度作为约束条件。其中,适应函数的定义保证了在尽量减少决策系统信息损失的前提下,得到简化的决策系统。仿真结果表明,该方法得到的离散结果包含较少的断点个数,并且保持了较高的分类能力。  相似文献   

15.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

16.
广义粗糙集理论及实值属性约简   总被引:1,自引:0,他引:1  
肖迪  张军峰 《计算机应用》2008,28(6):1420-1423
针对经典粗糙集理论仅能处理离散化数据的局限性,提出属性和属性子集的广义重要度的概念以及空间中的广义近邻关系,并提出了广义近邻关系下的广义粗糙集扩展模型。广义粗糙集理论利用广义近邻关系在全局中划分相容模块,构成集合的下、上近似集,避免了经典粗糙集理论必须量化数据的麻烦。另外,提出了广义粗糙集的实值属性约简的一种贪心算法,并分析了约简属性集合的质量。最后通过实例验证了所提方法的正确性和有效性。  相似文献   

17.
基于神经网络和粗糙集规则的提取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
在利用粗糙集对连续性数据进行分类规则挖掘时,需要对数据进行离散化处理,但是离散结果往往会破坏原有数据的隐含信息,提取的分类规则质量难以保证。该文设计了一种基于自组织人工神经网络与粗糙集理论的分类规则提取方法,利用神经网络自动分类的功能,对离散前后的数据进行分类,比较两次分类结果是否一致,当达到一致性结果后,再利用粗糙集理论对数据约简,进行规则提取,有效地解决了原始数据信息丢失的问题,通过实例证明了该方法的合理性。  相似文献   

18.
基于粗糙集理论和信息熵的属性离散化方法*   总被引:1,自引:0,他引:1  
在分析当前研究中常用的属性离散化方法的基础上,提出了一种计算初始断点集合的算法;定义了断点的信息熵,并以此作为对断点重要性的度量,提出了一种基于粗糙集理论和信息熵的属性离散化算法。通过与其他离散化算法的对比实验,验证了本算法的有效性,而且在样本数和条件属性数目不断增大时仍有很高的效率。  相似文献   

19.
粗集理论中连续属性的广义离散化   总被引:3,自引:0,他引:3  
提出一种处理区间属性值离散化问题的新方法,其特点是在离散化过程中强调类别可分离性,首先拓展已有的基于断点划分的离散化定义,给出基于类别可分离性的广义离散化定义;然后描述了广义离散化算法并进行时间复杂性分析;最后利用辐射源信号进行了仿真实验.结果表明,该方法能有效离散区问属性决策系统,简化分类器的设计和提高识别率,从而拓展了粗集理论的应用范围.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号