首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
该文研究连续属性的离散化问题。首先,详细介绍了基于熵的离散化算法(EBD),并对其存在的问题进行了分析。随后,给出了用于度量区间密度的定义;接着,在自适应思想的启发下,对EBD算法进行了改进,提出了基于熵的变阀值离散化算法,区间密度的引入使得该算法能够随样本集在区间上密度的变化适当调整熵的阀值。实验结果表明,与EBD算法相比,改进算法不仅保持简单性、一致性和精确性,而且容易操作。  相似文献   

2.
基于信息熵的粗糙集连续属性离散化算法   总被引:60,自引:0,他引:60  
谢宏  程浩忠  牛东晓 《计算机学报》2005,28(9):1570-1574
该文提出了一种新的粗糙集连续属性离散化算法.首先对每一个候选断点定义了信息熵,以此作为对断点重要性的量度,在此基础上给出了断点选择的粗糙集连续属性离散化算法.最后采用多组数据对此算法的性能进行了检验,并与其它算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有很高的计算效率.  相似文献   

3.
在分析和研究C5算法中连续属性处理的必要性及C5算法中离散化方法的不足后,采用基于粗糙集理论-信息熵-可辨识矩阵的离散化的方法(RSIEDM)进行离散化。该方法利用粗糙集、信息熵和可辨识矩阵能更合理、更准确地对连续属性进行离散化,使创建的决策树具有更好的准确率。在优化雷电灾害统计和评估雷电灾害导致的损失应用中,该算法取得了较好的效果。  相似文献   

4.
属性频率划分和信息熵离散化的决策树算法   总被引:2,自引:0,他引:2       下载免费PDF全文
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。  相似文献   

5.
目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾,针对粗糙集给出了基于逐级均值聚类的信息熵的离散化算法。首先使用改进的逐级均值聚类算法分别对单个属性的候选断点按其信息熵值进行聚类分析,生成新的规模更小的候选断点集,然后用基于信息熵的离散化算法完成断点的选取并对连续值属性进行离散化。实验结果表明,该方法在识别率相当的情况下比传统的离散化方法的时间代价更低。  相似文献   

6.
基于粗糙集理论和信息熵的属性离散化方法*   总被引:1,自引:0,他引:1  
在分析当前研究中常用的属性离散化方法的基础上,提出了一种计算初始断点集合的算法;定义了断点的信息熵,并以此作为对断点重要性的度量,提出了一种基于粗糙集理论和信息熵的属性离散化算法。通过与其他离散化算法的对比实验,验证了本算法的有效性,而且在样本数和条件属性数目不断增大时仍有很高的效率。  相似文献   

7.
基于信息熵的粗糙集属性离散化方法及应用   总被引:2,自引:1,他引:1       下载免费PDF全文
首先分析了粗糙集理论处理问题的特殊性,在现有研究结果的基础之上给出了一种新的连续属性离散化方法,并将其应用于故障诊断中,通过实验结果表明依据该算法构建的决策规则具有较好的故障诊断分类效果。  相似文献   

8.
一种基于信息论的决策表连续属性离散化算法   总被引:2,自引:0,他引:2  
连续属性离散化方法对后续阶段的机器学习和数据挖掘过程有着重要的意义。提出一种新的针对决策表的离散化算法,在该算法中,首先将信息熵用作判断标准,从候选断点集中选择合适的断点,然后删除一些冗余的断点来优化离散结果,在删除过程中为了尽可能保证决策表分类能力不变,使用不一致率对该过程进行控制。最后选取多组实验数据,使用当前流行的分类算法——支持向量机(SVM)对离散化后的数据进行分类预测,并与其它离散算法进行对比,结果表明本算法是有效的。  相似文献   

9.
一种基于粗糙集的离散化算法   总被引:1,自引:0,他引:1  
粗糙集理论以其独特的数据约简能力在不确定信息处理的相关领域得到广泛关注和研究,而连续属性的离散化是粗糙集方法及其它归纳学习系统中的重要环节.将离散化视作一种信息概括、抽象和约简,利用粗糙集理论提出一种全局的离散化算法.算法通过定义一致性度量,实现全局离散,弥补了局部离散化MDLP方法引入不一致的缺陷.然后在保持一致性前提下,进一步对离散中分割点的冗余进行约简.实验采用ID3和粗糙集分类工具ROSETTA在多个大数据集上对提出的离散方法进行分类验证,实验结果表明该算法的有效性和优越性.  相似文献   

10.
连续属性离散化在数据分析的数据预处理中非常重要。本文提出一种基于类信息熵的有监督连续属性离散化方法。该方法运用了粗集理论中决策表的一致性水平的概念。算法分成两部分:首先根据决策表的一致性水平动态调整聚类类别数目,运用分级聚类形成初始聚类。然后,基于类信息熵合并相邻区域,减少区间数目。实践证明该方法是可行的。  相似文献   

11.
连续属性离散化是数据分析中重要的预处理过程,本文提出了一种基于云模型,融合相似云度量思想的连续属性整体离散化方法。它首先对例子集合在各个连续属性上的取值进行统一数量级别处理,选出分区基准属性,然后使用正态云模型对每个连续属性进行离散化.最后加以实验验证,指出该方法有一定的理论价值和实际意义.  相似文献   

12.
皋军  王建东 《计算机应用》2004,24(2):135-137
在数据挖掘研究过程中,对连续型属性一般要进行离散化。特别是在模糊数据挖掘中,还要对离散化的区间进行模糊处理。文中依托云模式,并结合粗糙集理论提出一种新的连续型属性离散化算法。  相似文献   

13.
在旋转机械故障诊断领域中,通常需要对连续特征量进行离散化预处理,以便后续诊断分析。为此,该文在分析了ChiMerge离散方法及其两点不足的基础上,提出了一种新的基于冲突水平的多特征离散方法。该方法可以自动实现多特征的离散化操作,并且收敛到预设的冲突水平上。算例分析证明了该方法的有效性。  相似文献   

14.
基于Cramer’s V的连续属性离散化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
郭启铭  樊玮 《计算机工程》2008,34(4):111-112
在类-属性相关离散化方法的基础上,提出一种基于Cramer’s V的连续属性离散化算法CVM,该方法利用统计学中的Cramer’s V来量化类-属性相关度,以保证离散后的类-属性相关度最大。与CADD和CAIM算法的实验比较以及对离散化后的数据进行C4.5分类测试,表明CVM算法性能良好,其离散化的数据明显地提高了分类器的预测精度。  相似文献   

15.
为了提高数字图像嵌入水印时的不可感知性与鲁棒性,提出一种利用图像信息熵与边缘熵理论并结合果蝇优化算法的水印嵌入方案。首先对载体图像进行分块,并计算每个分块的信息熵与边缘熵,将每个分块的2个熵值相加并排序。然后根据嵌入水印的容量选择熵值较高的分块,并将每一位水印信息嵌入到经过小波变换与奇异值分解的分块中。最后为了进一步平衡嵌入水印不可感知性与鲁棒性之间的矛盾,利用果蝇算法对嵌入水印的强度进行自适应优化。实验结果表明该方法具有更好的不可感知性,在面对多种类型、多种强度的模拟攻击时比同类算法表现出更强的鲁棒性。  相似文献   

16.
基于微粒群优化的连续属性离散化算法   总被引:3,自引:0,他引:3  
连续属性的离散化是粗糙集理论的主要问题之一,也是影响粗糙集理论实用性的瓶颈之一。由于没有最佳离散化形式的统一标准,大多离散化算法采用的启发式带有较强的主观性,也难以得到较满意的离散效果。该文提出了基于微粒群优化的连续属性离散化方法,将各属性的离散化划分点初始化为一群粒子,在保证决策表分类能力不变的情况下,通过粒子间的相互作用寻求理想的离散化划分点,使得决策表引入较少的冲突。实验结果验证了该方法的有效性。  相似文献   

17.
连续属性离散化是数据分析中重要的预处理过程,而基于粗糙集理论的数据分析要求离散化的结果能够最大程度地保持原信息系统的分辨关系。论文提出了一种新的离散化算法,此算法以决策信息系统中决策属性对条件属性集合的依赖度作为评价函数动态调整DBSCAN聚类算法的参数,直至离散化决策属性对条件属性集合的依赖度达到预先指定的阈值为止。算法分析和实验证明,算法是切实可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号