首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
连续属性离散化在数据分析的数据预处理中非常重要。本文提出一种基于类信息熵的有监督连续属性离散化方法。该方法运用了粗集理论中决策表的一致性水平的概念。算法分成两部分:首先根据决策表的一致性水平动态调整聚类类别数目,运用分级聚类形成初始聚类。然后,基于类信息熵合并相邻区域,减少区间数目。实践证明该方法是可行的。  相似文献   

2.
连续属性离散化是知识发现研究中重要的预处理过程,基于最近邻聚类和粗集的相关理论,提出一种新的有监督的多属性离散化方法。该算法分两个阶段来处理,首先利用最近邻聚类动态调整聚类的类别数,生成初始聚类。然后基于类信息的相似性定义合并相似区间,减少了聚类区间。通过实例分析,该算法是非常有效的。  相似文献   

3.
将粗糙集理论中属性重要度和依赖度的概念与分级聚类离散化算法相结合,提出了一种纳税人连续型属性动态的离散化算法。首先将纳税数据对象的每个连续型属性划分为2类,然后利用粗糙集理论计算每个条件属性对于决策属性的重要度,再通过重要度由大至小排序进行增类运算,最后将保持与原有数据对象集依赖度一致的分类结果输出。该算法能够动态地对数据对象进行类别划分,实现纳税人连续型属性的离散化。通过采用专家分析和关联分析的实验结果,验证了该算法具有较高的纳税人连续型属性离散化精度和性能。  相似文献   

4.
一种实值属性信息系统的粗集约简方法   总被引:2,自引:0,他引:2  
本文研究应用粗集理论对实值信息系统属性进行约简的方法,对实值属性信息系统进行约简的根本问题是如何对实值属性离散化,通过对离散化方法与属性约简的关系进行研究,提出实值属性离散化的一种自动确定属性类别的方法,并结合粗集理论给出了对实值属性信息系统约简的算法,用所提出的算法进行了实验,并给出了实验结果。  相似文献   

5.
李艳  范斌  郭劼 《计算机应用》2022,42(9):2701-2712
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。  相似文献   

6.
.连续属性离散化算法比较研究*   总被引:2,自引:0,他引:2  
探讨了贪心及其改进算法、基于属性重要性、基于信息熵和基于聚类四类连续属性离散化算法,并通过实验验证这四类算法的离散化效果.实验结果表明,数据集离散化的效果不仅取决于使用算法,而且与数据集连续属性的分布和决策数据值的分类也有密切关系.  相似文献   

7.
李晓飞 《计算机应用与软件》2009,26(10):262-264,272
连续属性离散化问题是机器学习的重要方面,是数据预处理问题之一.提供的基于动态层次聚类的离散化算法是层次聚类算法的一种改进.对该算法进行定性分析-对随机采集数据根据相似度进行聚类分析,得到论域的一种划分.通过实验表明,基于动态层次聚类的离散化算法对连续属性的划分更加合理,更加有效.  相似文献   

8.
目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾,针对粗糙集给出了基于逐级均值聚类的信息熵的离散化算法。首先使用改进的逐级均值聚类算法分别对单个属性的候选断点按其信息熵值进行聚类分析,生成新的规模更小的候选断点集,然后用基于信息熵的离散化算法完成断点的选取并对连续值属性进行离散化。实验结果表明,该方法在识别率相当的情况下比传统的离散化方法的时间代价更低。  相似文献   

9.
一种基于层次聚类的属性全局离散化算法   总被引:1,自引:0,他引:1  
本文摒弃了以往利用断点集来进行离散化的算法思想,提出了一种新的基于粗糙集和分裂的层次聚类的全局离散化算法.本算法在层次聚类的基础上考虑不同连续属性离散化结果间的互补性和相关性,在不改变原信息系统不可分辨关系的前提下通过增类减类进行全局离散化.实验表明该算法具备了删除不必要属性的能力,提高了离散化的精度,更便于属性约简.  相似文献   

10.
胡运禄  于津 《福建电脑》2013,29(3):118-121
连续型属性的离散化是数据挖掘研究中一个重要的组成部分,连续属性离散化方法的性能对数据挖掘结果会产生直接的影响。本文将基于目标函数的模糊聚类算法-FCM引入到连续属性离散化中,在对FCM算法中的模糊聚类数目a和初始聚类中心位置进行优化的基础上,提出了改进的NFCM算法,根据需要离散化的数据分布特点来进行离散化,减少了模糊聚类算法的迭代次数,提高了连续属性离散化的效率。  相似文献   

11.
粗糙集连续属性离散化的MDV方法   总被引:1,自引:0,他引:1  
分析粗糙集连续属性离散化问题的本质特点,提出满足粗糙集约简指标和优化算法相结合的离散化思想。引入启发式搜索策略,解决属性离散的NP-Hard问题,建立连续属性SOM自组织网络聚类的MDV(Maximum Discernibility Value)搜索方法,并给出属性约简的冗余度定义和计算方法。根据实际计算要求,对冗余度的定义进行改进。最后,通过UCI数据库实例验证了MDV方法的有效性。  相似文献   

12.
Rough Set理论中连续属性的离散化方法   总被引:95,自引:0,他引:95  
苗夺谦 《自动化学报》2001,27(3):296-302
Rough Set(RS)理论是一种新的处理不精确、不完全与不相容知识的数学工具.传 统的RS理论只能对数据库中的离散属性进行处理,而绝大多数现实的数据库既包含了离散 属性,又包含了连续属性.文中针对传统RS理论的这一缺陷,利用决策表相容性的反馈信 息,提出了一种领域独立的基于动态层次聚类的连续属性离散化算法.该方法为RS理论处 理离散与连续属性提供了一种统一的框架,从而极大地拓广了RS理论的应用范围.通过一 些例子将本算法与现有方法进行了比较分析,得到了令人鼓舞的结果.  相似文献   

13.
为解决经典粗糙集理论在处理连续、离散混合属性决策表离散化时规则数多、准确率低的问题,采用基于贪心算法和属性值区间概率相结合的离散化方法,该方法针对传统的对混合决策表仅考虑连续属性离散化的问题。首先运用改进的贪心算法对混合决策表中的连续属性进行初步离散化,然后计算连续属性各属性值区间概率,并对取值概率大的区间细化,最后再考虑对原来的离散属性进一步离散化,从而增强系统分辨能力;且离散化后的决策表总是相容的,与目前很多离散方法不考虑决策相容性相比,该方法能够最大限度地保留系统的有用信息。通过仿真分析验证了该方法的有效性。  相似文献   

14.
连续属性离散化作为水产品安全信息系统中进行智能化数据处理的一个重要研究内容,已然成为水产品安全信息化研究领域的一个热点和难点。文中利用基于粗糙集理论相对熵的连续属性离散化方法来解决这个问题。此方法选用候选区间的类信息熵作为离散门限值边界,并且通过考察每个属性值的分类能力,合并离散区间,去掉冗余断点,确定关键离散属性值,最终在水产品安全信息系统中实现连续属性离散化。实例分析表明算法是有效可行的。  相似文献   

15.
曹峰  唐超  张婧 《计算机科学》2017,44(9):222-226
离散化是一个重要的数据预处理过程,在规则提取、知识发现、分类等研究领域都有广泛的应用。提出一种结合二元蚁群和粗糙集的连续属性离散化算法。该算法在多维连续属性候选断点集空间上构建二元蚁群网络,通过粗糙集近似分类精度建立蚁群算法适宜度评价函数,寻找全局最优离散化断点集。通过UCI数据集验证算法的有效性,实验结果表明,该算法具有较好的离散化性能。  相似文献   

16.
粗糙集连续属性离散化模型研究与应用要点分析   总被引:10,自引:0,他引:10  
基于粗糙集理论,研究连续属性离散化问题的本质特点,提出粗糙集指标衡量和优化算法结构相统一的离散化思想,设计通用的离散化方法模型。分析主流的SOM网络、GA、层次聚类、信息熵等主流聚类方法的特点,并基于这种结构模型,给出了相应离散化方法的应用要点。  相似文献   

17.
王伟  高亮  吴涛 《微机发展》2008,18(3):53-55
由于粗糙集只能对离散属性进行处理,因而连续属性的离散化也就成了粗糙集的主要问题之一。提出了一种从模糊聚类出发的离散化方法,并给出了一个判别函数,由该函数从聚类结果中选择最优的一个解,因而是一种自寻优的求解过程,避免了人为划分类数的主观影响。最后进行了实验比较,证实了该方法的有效性和合理性。  相似文献   

18.
基于遗传算法和模糊粗糙集的知识约简   总被引:4,自引:0,他引:4  
朱江华  李海波  潘丰 《计算机仿真》2007,24(1):86-89,119
虽然粗糙集理论为处理离散属性提供了很好的工具,但它不能直接运用于具有连续变量的数据上面,而现实中的数据又包含着大量的连续变量.为了能够对连续属性集进行有效的知识约简,充分利用遗传算法的全局优化和并行计算的优点,结合模糊粗糙集的理论,对连续属性集进行知识约简,较粗糙集而言避开了连续属性的离散化过程,减少了信息损失,加快了约简速度,提高了决策支持度.首先利用一个仿真实例来验证该算法的有效性和快速性,然后把它运用于某一柴油机的故障数据集的约简,通过约简获得了影响输出故障模式的主要输入变量集,实现了数据的预处理,为进行柴油机的故障模式诊断提供了先决条件.  相似文献   

19.
基于二进制粒子群优化的决策系统属性离散化   总被引:1,自引:0,他引:1  
为解决连续属性无法直接用于粗糙集理论的问题,依据粗糙集连续属性离散化的根本要求,提出了一种基于二进制粒子群优化算法(Binary Particle Swarm Optimization,BinaryPSO)的属性离散化方法。该方法将二进制粒子视为断点子集,最小化断点集中的断点个数作为优化目标,粗糙集属性分类精度作为约束条件。其中,适应函数的定义保证了在尽量减少决策系统信息损失的前提下,得到简化的决策系统。仿真结果表明,该方法得到的离散结果包含较少的断点个数,并且保持了较高的分类能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号