共查询到20条相似文献,搜索用时 93 毫秒
1.
Rough Set中基于聚类的连续属性离散化方法 总被引:3,自引:0,他引:3
分析了一些RoughSet中连续属性离散化的方法,指出了其中的某些不足,并给出了一个基于聚类的连续属性离散化的方法,对当前的论域中的例子根据相似性进行聚类,对每个聚类在各属性轴上的投影的边界设离 散断点。该方法考虑了各属性之间的相关性,能得到比较合理的离散结果。 相似文献
2.
连续型属性的离散化是数据挖掘研究中一个重要的组成部分,连续属性离散化方法的性能对数据挖掘结果会产生直接的影响。本文将基于目标函数的模糊聚类算法-FCM引入到连续属性离散化中,在对FCM算法中的模糊聚类数目a和初始聚类中心位置进行优化的基础上,提出了改进的NFCM算法,根据需要离散化的数据分布特点来进行离散化,减少了模糊聚类算法的迭代次数,提高了连续属性离散化的效率。 相似文献
3.
4.
5.
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。 相似文献
6.
7.
基于聚类的连续值属性最佳离散化算法 总被引:4,自引:0,他引:4
在机器学习和KDD研究中,大多数算法都以离散值为处理对象的,然而,在现实世界数据库中,存在着大量的连续值属性,因此,常常需要对地值属性进行离散化,本文提出一种基于聚类的 续值属最佳离散化算法。 相似文献
8.
连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化。文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取方法,避免了训练集随机抽取的不均匀性。实验结果证明了所提算法的有效性。 相似文献
9.
10.
提出了一种基于区间数据分布特征的决策表连续属性离散化的方法。方法在断点的选择上考虑了属性值的出现频率,在区间内的一致性和区间之间的差异性基础上,利用条件信息量作为反馈信息合并区间。通过实验分析表明了算法的有效性,能保持决策表较高的分类能力,提高约简效率。 相似文献
11.
Marc Boulle 《Machine Learning》2004,55(1):53-69
In supervised machine learning, some algorithms are restricted to discrete data and have to discretize continuous attributes. Many discretization methods, based on statistical criteria, information content, or other specialized criteria, have been studied in the past. In this paper, we propose the discretization method Khiops,1 based on the chi-square statistic. In contrast with related methods ChiMerge and ChiSplit, this method optimizes the chi-square criterion in a global manner on the whole discretization domain and does not require any stopping criterion. A theoretical study followed by experiments demonstrates the robustness and the good predictive performance of the method. 相似文献
12.
13.
14.
15.
决策表中连续属性离散化,即将一个连续属性分为若干属性区间并为每个区间确定一个离散型数值。该文提出一种新的决策表连续属性离散化算法。首先使用决策强度来度量条件属性的重要性,并据此对条件属性按照属性重要性从小到大排序,然后按排序后的顺序,考察每个条件属性的所有断点,将冗余的断点去掉,从而将条件属性离散化。该算法易于理解,计算简单,算法的时间复杂性为O(3kn2)。 相似文献
16.
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用.连续属性离散化方法是否合理决定着对信息的表达和提取的准确性.Chi2算法基于统计学理论方法,对连续属性离散化研究产生着重要影响.在对Chi2及相关算法中统计量χ2应用意义讨论的基础上,提出了一种新的(Integral Chi2)算法,该算法基于概率统计理论把统计量χ2与分位点χ2α间对应的积分(概率)作为区间合并的依据,能够更合理更准确地对连续属性进行离散化.实验结果证明了算法的有效性. 相似文献
17.
多变量连续属性离散化方法 总被引:1,自引:0,他引:1
目前很多离散化方法仅考虑单个变量,不能得到最优的离散化方案。文中提出一种多属性关系的数据离散化方法。凭借概率的模型选择和最小描述长度原理,获得多变量离散化衡量标准,基于该标准提出一种有效的启发式算法来寻找最好的离散化方案。对UCI数据集进行分类预测,实验结果表明该方法提高Nave贝叶斯分类器的学习精度。 相似文献
18.
19.
连续属性离散化是数据分析中重要的预处理过程,而基于粗糙集理论的数据分析要求离散化的结果能够最大程度地保持原信息系统的分辨关系。论文提出了一种新的离散化算法,此算法以决策信息系统中决策属性对条件属性集合的依赖度作为评价函数动态调整DBSCAN聚类算法的参数,直至离散化决策属性对条件属性集合的依赖度达到预先指定的阈值为止。算法分析和实验证明,算法是切实可行的。 相似文献
20.
Rough Set理论中连续属性的离散化方法 总被引:95,自引:0,他引:95
Rough Set(RS)理论是一种新的处理不精确、不完全与不相容知识的数学工具.传统的RS理论只能对数据库中的离散属性进行处理,而绝大多数现实的数据库既包含了离散属性,又包含了连续属性.文中针对传统RS理论的这一缺陷,利用决策表相容性的反馈信息,提出了一种领域独立的基于动态层次聚类的连续属性离散化算法.该方法为RS理论处理离散与连续属性提供了一种统一的框架,从而极大地拓广了RS理论的应用范围.通过一些例子将本算法与现有方法进行了比较分析,得到了令人鼓舞的结果. 相似文献