共查询到19条相似文献,搜索用时 125 毫秒
1.
2.
3.
将粗糙集理论中属性重要度和依赖度的概念与分级聚类离散化算法相结合,提出了一种纳税人连续型属性动态的离散化算法。首先将纳税数据对象的每个连续型属性划分为2类,然后利用粗糙集理论计算每个条件属性对于决策属性的重要度,再通过重要度由大至小排序进行增类运算,最后将保持与原有数据对象集依赖度一致的分类结果输出。该算法能够动态地对数据对象进行类别划分,实现纳税人连续型属性的离散化。通过采用专家分析和关联分析的实验结果,验证了该算法具有较高的纳税人连续型属性离散化精度和性能。 相似文献
4.
很多数据挖掘方法只能处理离散值的属性,因此,连续属性必须进行离散化。提出一种统计相关系数的数据离散化方法,基于统计相关理论有效地捕获了类-属性间的相互依赖,选取最佳断点。此外,将变精度粗糙集(VPRS)模型纳入离散化中,有效地控制数据的信息丢失。将所提方法在乳腺癌症诊断以及其他领域数据上进行了应用,实验结果表明,该方法显著地提高了See5决策树的分类学习精度。 相似文献
5.
连续属性离散化在数据挖掘、机器学习和人工智能等领域起着重要的作用.鉴于此,提出一种基于类-属性关联度的启发式离散化技术.该技术定义了一个新的离散化标准,根据数据本身的特性选择最佳断点,克服了目前最先进自顶向下离散化方法存在的缺陷.基于粗糙集理论中变精度粗糙集模型,提出一种新的不一致衡量标准,能够有效地控制离散化所产生的信息丢失,允许数据存在适当的分类错误度.实验结果和统计性分析表明,所提出的技术显著地提高了J4.8决策树和SVM分类器的学习精度. 相似文献
6.
根据柴油机故障数据的特点,采用粗糙集理论对其进行特征提取研究。由于实际测量的参数大多为连续数据,而粗糙集只能处理离散数据,提出了一种适用于粗糙集的SOM网络离散化方法;给出一种基于简化差别矩阵的快速属性约简算法;以6135D型柴油机故障诊断数据为例进行特征提取,成功地将原始8个属性约简为3个,为后续研究工作打下了基础。 相似文献
7.
连续属性的离散化是粗糙集理论的主要问题之一.针对粗糙集理论只能处理离散数据的局限性,提出基于属性决策表和竞争型网络的连续属性离散化方法.首先使用条件属性与决策属性之间的决策关系来度量条件属性的重要性,并据此对条件属性按照重要性由小到大排序,然后利用竞争型网络分类功能找到连续属性的断点,从而实现了对连续属性的离散化.算法分析和实验证明算法是切实可行的. 相似文献
8.
决策系统中连续属性离散化,即将一个连续属性分为若干属性区间并为每个区间确定一个离散型数值,对后继阶段的机器学习具有重要的意义。首先研究了满足决策系统最优划分的一种计算候选断点集合的算法,然后在基于条件属性重要度和贪心算法的基础上提出了一种确定结果断点子集的新启发式算法。所提出的属性离散算法考虑并体现了粗糙集理论的基本特点和优点,并能取得较理想的连续属性离散化结果。 相似文献
9.
在分析和研究C5算法中连续属性处理的必要性及C5算法中离散化方法的不足后,采用基于粗糙集理论-信息熵-可辨识矩阵的离散化的方法(RSIEDM)进行离散化。该方法利用粗糙集、信息熵和可辨识矩阵能更合理、更准确地对连续属性进行离散化,使创建的决策树具有更好的准确率。在优化雷电灾害统计和评估雷电灾害导致的损失应用中,该算法取得了较好的效果。 相似文献
10.
11.
针对大规模项目资源库中项目资源信息无序而导致无法准确快速找出项目资源库中所需资源的问题,提出了基于MapReduce的并行化模糊聚类划分算法。该算法首先抽象原始项目资源特征属性并标准化;其次,根据标准化后的特征属性建立项目相似矩阵,运用矩阵分块思想分割矩阵;然后,利用MapReduce技术处理分块矩阵并合并结果;最后,运用阈值评判划分成若干个有序的项目组。与K-means算法和遗传算法的对比实验结果证明:该算法具有较高的准确率和查全率,并且在大规模数据计算时能够得到较高的加速比,可以有效准确地划分项目资源。 相似文献
12.
关联规则在肿瘤诊断中的应用 总被引:6,自引:0,他引:6
挖掘肿瘤诊断数据库中的关联规则,能为肿瘤诊断提供有用的信息。肿瘤诊断数据库中的属性常为数量型属性,因此如何将数量型属性离散化是挖掘关联规则的难点。竞争聚集算法综合了分层聚类与划分聚类的优点,它能够有效地体现数据的实际分布情况并得到优化的聚类个数,因此能将数量型属性离散化成若干个优化的区间。 相似文献
13.
14.
15.
陈庆燕 《计算机工程与应用》2010,46(35):33-35
作为一种重要的概念格构造算法,Bordat算法简洁、直观且易于并行化,但该算法本身的效率并不高。在深入研究格结构特性的基础上,给出了它的改进算法。首先对形式背景的属性集进行等价类划分,以减少参与计算的属性个数,并消除了在产生子节点集的过程中,对属性之间的多余比较,从而大大提高算法的效率,并通过实例和实验说明该算法的正确性和有效性。 相似文献
16.
现有的很多属性约简算法都是由构造决策表的差别矩阵出发,将矩阵中非空元素的合取范式转化为极小析取范式。为提高对大规模数据的决策表进行约简的效率,文中指出基于U/{a}划分的最小约简算法存在的缺陷,给出以划分粒度为启发式信息,利用单个条件属性把论域划分成多个等价类,将计算整个全域上的属性约简问题转化为计算在相应划分的子区域上属性约简问题,提出了一种基于决策表分解的最小属性约简算法。理论分析和实例表明该约简算法是有效的。 相似文献
17.
处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度.在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算法的方法,能更合理更准确地对连续属性进行离散化,在此基础上创建的决策树具有更好的准确率.实验结果表明,基于改进方法的C5.0算法创建的决策树分类模型具有较高的分类准确率. 相似文献
18.
针对传统协同过滤(CF)推荐算法存在评分矩阵稀疏、扩展性弱和推荐准确率低的缺陷,提出一种改进模糊划分聚类的协同过滤推荐算法(GIFP-CCF+)。在传统基于修正余弦相似度计算方法上,引入时间差因子、热门物品权重因子以及冷门物品权重因子以改善相似度计算结果;同时引入改进模糊划分的GIFP-FCM算法,将属性特征相似的项目聚成一类,构造索引矩阵,同索引间根据项目间的相似度寻找项目最近邻居构成推荐,从而提高协同过滤算法(CF)的精度。通过与Kmeans-CF、FCM-CF和GIFP-CCF算法进行仿真对比实验,证明了GIFP-CCF+算法在推荐结果和推荐精度上具有一定的优越性。 相似文献
19.
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。 相似文献