共查询到17条相似文献,搜索用时 62 毫秒
1.
该文研究连续属性的离散化问题。首先,详细介绍了基于熵的离散化算法(EBD),并对其存在的问题进行了分析。随后,给出了用于度量区间密度的定义;接着,在自适应思想的启发下,对EBD算法进行了改进,提出了基于熵的变阀值离散化算法,区间密度的引入使得该算法能够随样本集在区间上密度的变化适当调整熵的阀值。实验结果表明,与EBD算法相比,改进算法不仅保持简单性、一致性和精确性,而且容易操作。 相似文献
2.
3.
在分析和研究C5算法中连续属性处理的必要性及C5算法中离散化方法的不足后,采用基于粗糙集理论-信息熵-可辨识矩阵的离散化的方法(RSIEDM)进行离散化。该方法利用粗糙集、信息熵和可辨识矩阵能更合理、更准确地对连续属性进行离散化,使创建的决策树具有更好的准确率。在优化雷电灾害统计和评估雷电灾害导致的损失应用中,该算法取得了较好的效果。 相似文献
4.
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。 相似文献
5.
6.
7.
首先分析了粗糙集理论处理问题的特殊性,在现有研究结果的基础之上给出了一种新的连续属性离散化方法,并将其应用于故障诊断中,通过实验结果表明依据该算法构建的决策规则具有较好的故障诊断分类效果。 相似文献
8.
一种基于信息论的决策表连续属性离散化算法 总被引:2,自引:0,他引:2
连续属性离散化方法对后续阶段的机器学习和数据挖掘过程有着重要的意义。提出一种新的针对决策表的离散化算法,在该算法中,首先将信息熵用作判断标准,从候选断点集中选择合适的断点,然后删除一些冗余的断点来优化离散结果,在删除过程中为了尽可能保证决策表分类能力不变,使用不一致率对该过程进行控制。最后选取多组实验数据,使用当前流行的分类算法——支持向量机(SVM)对离散化后的数据进行分类预测,并与其它离散算法进行对比,结果表明本算法是有效的。 相似文献
9.
一种基于粗糙集的离散化算法 总被引:1,自引:0,他引:1
石红 《模式识别与人工智能》2006,19(3)
粗糙集理论以其独特的数据约简能力在不确定信息处理的相关领域得到广泛关注和研究,而连续属性的离散化是粗糙集方法及其它归纳学习系统中的重要环节.将离散化视作一种信息概括、抽象和约简,利用粗糙集理论提出一种全局的离散化算法.算法通过定义一致性度量,实现全局离散,弥补了局部离散化MDLP方法引入不一致的缺陷.然后在保持一致性前提下,进一步对离散中分割点的冗余进行约简.实验采用ID3和粗糙集分类工具ROSETTA在多个大数据集上对提出的离散方法进行分类验证,实验结果表明该算法的有效性和优越性. 相似文献
10.
连续属性离散化在数据分析的数据预处理中非常重要。本文提出一种基于类信息熵的有监督连续属性离散化方法。该方法运用了粗集理论中决策表的一致性水平的概念。算法分成两部分:首先根据决策表的一致性水平动态调整聚类类别数目,运用分级聚类形成初始聚类。然后,基于类信息熵合并相邻区域,减少区间数目。实践证明该方法是可行的。 相似文献
11.
12.
在数据挖掘研究过程中,对连续型属性一般要进行离散化。特别是在模糊数据挖掘中,还要对离散化的区间进行模糊处理。文中依托云模式,并结合粗糙集理论提出一种新的连续型属性离散化算法。 相似文献
13.
在旋转机械故障诊断领域中,通常需要对连续特征量进行离散化预处理,以便后续诊断分析。为此,该文在分析了ChiMerge离散方法及其两点不足的基础上,提出了一种新的基于冲突水平的多特征离散方法。该方法可以自动实现多特征的离散化操作,并且收敛到预设的冲突水平上。算例分析证明了该方法的有效性。 相似文献
14.
15.
为了提高数字图像嵌入水印时的不可感知性与鲁棒性,提出一种利用图像信息熵与边缘熵理论并结合果蝇优化算法的水印嵌入方案。首先对载体图像进行分块,并计算每个分块的信息熵与边缘熵,将每个分块的2个熵值相加并排序。然后根据嵌入水印的容量选择熵值较高的分块,并将每一位水印信息嵌入到经过小波变换与奇异值分解的分块中。最后为了进一步平衡嵌入水印不可感知性与鲁棒性之间的矛盾,利用果蝇算法对嵌入水印的强度进行自适应优化。实验结果表明该方法具有更好的不可感知性,在面对多种类型、多种强度的模拟攻击时比同类算法表现出更强的鲁棒性。 相似文献
16.
17.
连续属性离散化是数据分析中重要的预处理过程,而基于粗糙集理论的数据分析要求离散化的结果能够最大程度地保持原信息系统的分辨关系。论文提出了一种新的离散化算法,此算法以决策信息系统中决策属性对条件属性集合的依赖度作为评价函数动态调整DBSCAN聚类算法的参数,直至离散化决策属性对条件属性集合的依赖度达到预先指定的阈值为止。算法分析和实验证明,算法是切实可行的。 相似文献