首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 89 毫秒
1.
一种连续属性离散化的新方法   总被引:6,自引:0,他引:6  
提出了一种基于聚类方法、结合粗集理论的连续属性离散化方法。在粗集理论中有一个重要概念:属性重要度(Attribute significance),它常用来作为生成好的约简所采用的启发式评价函数。受此启发,在连续属性离散化方法中可把它用于属性选择,即从已离散化的属性集中选择出属性重要度最高的属性,再把它和待离散化的连续属性一起进行聚类学习,得到该连续属性的离散区间。文中介绍了该方法的算法描述,并通过实验与其他算法进行了比较。实验结果表明,由于这种方法在离散化过程中结合了粗集理论的思想,考虑了属性间的相互影响,从而产生了比较合理的划分点,提高了规则的分类精度。  相似文献   

2.
粗糙集连续属性离散化的MDV方法   总被引:1,自引:0,他引:1  
分析粗糙集连续属性离散化问题的本质特点,提出满足粗糙集约简指标和优化算法相结合的离散化思想。引入启发式搜索策略,解决属性离散的NP-Hard问题,建立连续属性SOM自组织网络聚类的MDV(Maximum Discernibility Value)搜索方法,并给出属性约简的冗余度定义和计算方法。根据实际计算要求,对冗余度的定义进行改进。最后,通过UCI数据库实例验证了MDV方法的有效性。  相似文献   

3.
连续属性离散化在数据分析的数据预处理中非常重要。本文提出一种基于类信息熵的有监督连续属性离散化方法。该方法运用了粗集理论中决策表的一致性水平的概念。算法分成两部分:首先根据决策表的一致性水平动态调整聚类类别数目,运用分级聚类形成初始聚类。然后,基于类信息熵合并相邻区域,减少区间数目。实践证明该方法是可行的。  相似文献   

4.
一种新的基于连续属性离散化的属性约简方法*   总被引:1,自引:0,他引:1  
通过将连续属性离散化和属性约简结合起来,首先对连续型的属性列进行离散化,得到新的决策表;然后再对新的决策表作属性约简,解决了属性约简过程中由于不考虑连续属性而无法求出准确约简属性的问题。最后通过具体案例表明了该方法具有较好的实用性、有效性,可以很好地应用在含有大量连续属性的数据挖掘项目中。  相似文献   

5.
胡运禄  于津 《福建电脑》2013,29(3):118-121
连续型属性的离散化是数据挖掘研究中一个重要的组成部分,连续属性离散化方法的性能对数据挖掘结果会产生直接的影响。本文将基于目标函数的模糊聚类算法-FCM引入到连续属性离散化中,在对FCM算法中的模糊聚类数目a和初始聚类中心位置进行优化的基础上,提出了改进的NFCM算法,根据需要离散化的数据分布特点来进行离散化,减少了模糊聚类算法的迭代次数,提高了连续属性离散化的效率。  相似文献   

6.
一种基于熵的连续属性离散化算法   总被引:6,自引:0,他引:6  
贺跃  郑建军  朱蕾 《计算机应用》2005,25(3):637-638
连续属性离散化的关键在于合理确定离散化划分点的个数和位置。为了提高无监督离散化的效率,给出一种基于熵的连续属性离散化方法。该方法利用连续属性的信息量 (熵 )的特性,通过对连续属性变量的自身划分,最小化信息熵的减少和区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以便得到优化的离散值。实验表明该算法是行之有效的。  相似文献   

7.
为了利用信息系统对象在数据空间中分布,通过对对象的模糊聚类,计算每一类在坐标轴上的统计值。利用正态概率分布特性,引入重叠度和空隙度选取合适的概率,确定最优的区间端点,实现连续属性离散化。  相似文献   

8.
决策表连续属性离散化的一种方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于区间数据分布特征的决策表连续属性离散化的方法。方法在断点的选择上考虑了属性值的出现频率,在区间内的一致性和区间之间的差异性基础上,利用条件信息量作为反馈信息合并区间。通过实验分析表明了算法的有效性,能保持决策表较高的分类能力,提高约简效率。  相似文献   

9.
连续属性离散化是数据分析中重要的预处理过程,而基于粗糙集理论的数据分析要求离散化的结果能够最大程度地保持原信息系统的分辨关系。论文提出了一种新的离散化算法,此算法以决策信息系统中决策属性对条件属性集合的依赖度作为评价函数动态调整DBSCAN聚类算法的参数,直至离散化决策属性对条件属性集合的依赖度达到预先指定的阈值为止。算法分析和实验证明,算法是切实可行的。  相似文献   

10.
刘星毅 《计算机应用》2009,29(3):839-842
代价敏感决策树通常讨论测试代价和误分类代价,在其分类过程中,最关键的是节点分裂属性的选择。分析了代价敏感决策树分类问题目前常见的选择分裂属性方法的优、缺点,提出了综合信息量和测试代价并且最大程度降低误分类代价的分裂属性选择方法,UCI数据集实验结果显示该方法在各个方面好于已有的方法。  相似文献   

11.
针对分类研究中采用单一类型数据造成的结果失真, 提出了综合考虑产品属性和销售时间序列的两阶段优化聚类算法。分别采用基于属性的相似性排序及时间序列的分层优化聚类实现产品单独聚类, 然后基于初始聚类结果及参数化的动态相对权重提出考虑噪声数据处理的分层聚类方法实现产品综合优化分类。企业实例应用研究表明综合聚类模型及两阶段算法在聚类精度及时间复杂度上具有明显的优势, 相对权重的动态参数化设置有效解决了不同产品间个性化特征的差异表示。通用数据集的仿真进一步验证了算法在解决混合属性产品聚类问题时的优越性及广泛适用性。  相似文献   

12.
一种基于粗糙集理论的连续属性离散化新算法*   总被引:3,自引:0,他引:3  
粗糙集理论中要求离散化保持原有决策系统的不可分辨关系,但以往的一些算法在离散过程中会使近似精度控制在可以接受的范围,即允许一定的错分。针对此不足,在保证决策属性绝对不改变的情况下,提出一种新的区间拆分方法,更合理有效地对连续属性进行离散化。实验通过C4.5和支持向量机分别对离散化后的数据进行识别与分类预测,实验结果证明了算法的有效性。  相似文献   

13.
可处理混合属性的任意形状聚类   总被引:1,自引:1,他引:0       下载免费PDF全文
聚类是数据挖掘中一个非常活跃的研究分支,任意形状的聚类则是一个有待研究的开放问题。提出一种包含分类属性取值频率信息的类间差异性度量和一种对象与类的相似度定义,在此基础上提出一种能处理任意形状的聚类算法,可处理混合属性数据集。在人造数据集和真实数据集上检验了提出的算法,并与相关算法进行了对比,实验结果表明,提出的算法是有效可行的。  相似文献   

14.
基于改进遗传算法的连续属性离散化方法   总被引:1,自引:0,他引:1  
粗糙集中的离散化要求在保持原有决策系统的不可分辩关系情况下,用尽量少的断点进行离散化,而求取连续属性值的最优断点集合是一个NP难题.把连续属性值离散化问题作为一种约束优化问题,采用一种改进的遗传算法来获得最优解,并针对离散化问题设计了相应的编码方式和交叉方法.实验结果表明,采用改进的遗传算法求解连续属性值最优断点集合是可行的.  相似文献   

15.
提出一种连续属性值域划分的离散化新方法,该方法定义一个新的离散化函数,依据类与属性之间的相互依赖关系选择最优的离散区间列表;此外,采用变精度粗糙集理论合理地控制数据离散化产生的信息丢失,减少分类错误。仿真结果和统计分析表明,提出的方法有较好的C5.0决策树分类能力。  相似文献   

16.
Inductive logic programming (ILP) induces concepts from a set of positive examples, a set of negative examples, and background knowledge. ILP has been applied on tasks such as natural language processing, finite element mesh design, network mining, robotics, and drug discovery. These data sets usually contain numerical and multivalued categorical attributes; however, only a few relational learning systems are capable of handling them in an efficient way. In this paper, we present an evolutionary approach, called Grouping and Discretization for Enriching the Background Knowledge (GDEBaK), to deal with numerical and multivalued categorical attributes in ILP. This method uses evolutionary operators to create and test numerical splits and subsets of categorical values in accordance with a fitness function. The best subintervals and subsets are added to the background knowledge before constructing candidate hypotheses. We implemented GDEBaK embedded in Aleph and compared it to lazy discretization in Aleph and discretization in Top‐down Induction of Logical Decision Trees (TILDE) systems. The results obtained showed that our method improves accuracy and reduces the number of rules in most cases. Finally, we discuss these results and possible lines for future work.  相似文献   

17.
.连续属性离散化算法比较研究*   总被引:2,自引:0,他引:2  
探讨了贪心及其改进算法、基于属性重要性、基于信息熵和基于聚类四类连续属性离散化算法,并通过实验验证这四类算法的离散化效果.实验结果表明,数据集离散化的效果不仅取决于使用算法,而且与数据集连续属性的分布和决策数据值的分类也有密切关系.  相似文献   

18.
基于项目属性的用户聚类协同过滤推荐算法   总被引:1,自引:0,他引:1  
协同过滤推荐算法是个性化推荐服务系统的关键技术,由于项目空间上用户评分数据的极端稀疏性,传统推荐系统中的用户相似度量算法开销较大并且无法保证项目推荐精度.通过对共同感兴趣的项目属性的相似用户进行聚类,构建了不同项目评价的用户相似性,设计了一种优化的协同过滤推荐算法.实验结果表明,该算法能够有效避免由于数据稀疏性带来的弊端,提高了系统的推荐质量.  相似文献   

19.
为获得更贴近于混合属性数据点集空间的相异性度量,从而探测出数据点集的更有意义的聚类分布,提出了一种推进式优化特征权重的K-中心点聚类算法。对该聚类算法进行了必要的讨论,给出其时间复杂度分析及算法收敛性分析。为实现该聚类算法的特征权重优化步骤,给出了二种不同的特征权重优化方法和几个自适应优化距离权重系数、目标函数系数的方法。这些优化方法在一定的理论层次上解决了相异性度量的自适应优化问题。通过几个UCI标准数据集验证了该聚类算法有时能取得更好的聚类质量,从而说明该加权聚类算法具有一定的有效性。给出了几点研究展望,为下一步的研究指明了方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号