共查询到20条相似文献,搜索用时 15 毫秒
1.
使用信息论的方法进行连续属性的离散化,引入Hellinger偏差HD(Hellinger Divergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均,分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。 相似文献
2.
3.
4.
连续型属性的离散化是数据挖掘研究中一个重要的组成部分,连续属性离散化方法的性能对数据挖掘结果会产生直接的影响。本文将基于目标函数的模糊聚类算法-FCM引入到连续属性离散化中,在对FCM算法中的模糊聚类数目a和初始聚类中心位置进行优化的基础上,提出了改进的NFCM算法,根据需要离散化的数据分布特点来进行离散化,减少了模糊聚类算法的迭代次数,提高了连续属性离散化的效率。 相似文献
5.
一种新的基于连续属性离散化的属性约简方法* 总被引:1,自引:0,他引:1
通过将连续属性离散化和属性约简结合起来,首先对连续型的属性列进行离散化,得到新的决策表;然后再对新的决策表作属性约简,解决了属性约简过程中由于不考虑连续属性而无法求出准确约简属性的问题。最后通过具体案例表明了该方法具有较好的实用性、有效性,可以很好地应用在含有大量连续属性的数据挖掘项目中。 相似文献
6.
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。 相似文献
7.
8.
9.
提出了一种基于区间数据分布特征的决策表连续属性离散化的方法。方法在断点的选择上考虑了属性值的出现频率,在区间内的一致性和区间之间的差异性基础上,利用条件信息量作为反馈信息合并区间。通过实验分析表明了算法的有效性,能保持决策表较高的分类能力,提高约简效率。 相似文献
10.
为了解决数据挖掘和机器学习领域中连续属性离散化问题,提出一种改进的自适应离散粒子群优化算法。将连续属性的断点集合作为离散粒子群,通过粒子间的相互作用最小化断点子集,同时引入模拟退火算法作为局部搜索策略,提高了粒子群的多样性和寻找全局最优解的能力。利用粗糙集理论中决策属性对条件属性的依赖度来衡量决策表的一致性,从而达到连续属性离散化的目的,最后采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验,实验结果表明此算法是有效的。 相似文献
11.
12.
为了利用信息系统对象在数据空间中分布,通过对对象的模糊聚类,计算每一类在坐标轴上的统计值。利用正态概率分布特性,引入重叠度和空隙度选取合适的概率,确定最优的区间端点,实现连续属性离散化。 相似文献
13.
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用。连续属性离散化方法是否合理决定着对信息的表达和提取的准确性。Chi2算法在对连续属性进行离散化处理时,无冲突的数据能够得到较好的结果,但是,对不协调和不完全的数据实验结果不是很理想。利用了Bayseian模型允许一定程度错误分类存在的性质,对Chi2算法进行了改进。改进后的Chi2算法不仅更适合不协调和不完全的数据,还使得区间的合并更加合理。实验结果证明了算法的有效性。 相似文献
14.
连续属性的离散化是文本分类任务中数据预处理阶段的一项重要技术。针对机器学习领域中的诸多优秀算法只能处理离散属性的特点,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法(multi-interval discretization based on term presence and information gain,MTPIG)。并将MTPIG算法应用到了分类算法AdaBoost.MH中,给出实验结果及分析。实验结果表明,使用MTPIG算法处理文本分类中的数据,其过程简单高效,预测精度高,可理解 相似文献
15.
Rough Set中基于聚类的连续属性离散化方法 总被引:3,自引:0,他引:3
分析了一些RoughSet中连续属性离散化的方法,指出了其中的某些不足,并给出了一个基于聚类的连续属性离散化的方法,对当前的论域中的例子根据相似性进行聚类,对每个聚类在各属性轴上的投影的边界设离 散断点。该方法考虑了各属性之间的相关性,能得到比较合理的离散结果。 相似文献
16.
基于决策树学习中的测试生成及连续属性的离散化 总被引:10,自引:1,他引:10
陈恩红 《计算机研究与发展》1998,35(5):403-407
文中介绍并分析了基于决策树学习中的测试评价标准、测试生成机制及连续型属性的离散化等方法和实现技术.通过分析表明,在离散化过程中,采用信息熵最小化启发式能带来较好的效果.与二分离散化方法相比,采用多分离散化方法能从相同的实例集中构造出更好的决策树. 相似文献
17.
基于相对熵的决策表连续属性离散化算法 总被引:3,自引:0,他引:3
该文提出了一种新的决策表连续属性离散化算法.首先使用相对熵来度量条件属性的重要性;;并据此对条件属性按照属性重要性从小到大排序;;然后按排序后的顺序;;考察每个条件属性的所有断点;;将冗余的断点去掉;;从而将条件属性离散化.该算法易于理解;;计算简单;;算法的时间复杂性为O(3kn2)。 相似文献
18.
决策表中连续属性离散化,即将一个连续属性分为若干属性区间并为每个区间确定一个离散型数值。该文提出一种新的决策表连续属性离散化算法。首先使用决策强度来度量条件属性的重要性,并据此对条件属性按照属性重要性从小到大排序,然后按排序后的顺序,考察每个条件属性的所有断点,将冗余的断点去掉,从而将条件属性离散化。该算法易于理解,计算简单,算法的时间复杂性为O(3kn2)。 相似文献
19.
一种连续属性离散化的新方法 总被引:6,自引:0,他引:6
提出了一种基于聚类方法、结合粗集理论的连续属性离散化方法。在粗集理论中有一个重要概念:属性重要度(Attribute significance),它常用来作为生成好的约简所采用的启发式评价函数。受此启发,在连续属性离散化方法中可把它用于属性选择,即从已离散化的属性集中选择出属性重要度最高的属性,再把它和待离散化的连续属性一起进行聚类学习,得到该连续属性的离散区间。文中介绍了该方法的算法描述,并通过实验与其他算法进行了比较。实验结果表明,由于这种方法在离散化过程中结合了粗集理论的思想,考虑了属性间的相互影响,从而产生了比较合理的划分点,提高了规则的分类精度。 相似文献
20.
基于语言场理论的连续属性离散化方法及实现 总被引:2,自引:1,他引:2
1.引言在机器学习和KDD(Knowledge Discovery in Database)研究中,大多数算法都是以离散值为处理对象的。因此,常常需要对连续值属性进行离散化。目前,人们已经提出了很多离散化算法,如等长度区间法、等频率区间法、基于信息熵(C4.5)的二元分割方法和各种聚类分析方法,等等。不同的离散化算法,没有一个绝对的性能评价标准。在众多的离散化方法中,每种方法都有它的适用场合。 相似文献