首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
印勇  孙如英 《计算机工程》2008,34(10):86-88
引入模糊C均值聚类算法进行连续属性模糊化,通过聚类有效性分析来确定最佳分类数目,克服了属性模糊化方法需要人为确定划分类数的缺点。用属性模糊化得到的属性隶属度矩阵约简模糊粗糙属性,由此提出一种基于模糊粗糙集的属性约简算法。实例验证了该方法的可行性和有效性。  相似文献   

2.
基于微粒群优化的连续属性离散化算法   总被引:3,自引:0,他引:3  
连续属性的离散化是粗糙集理论的主要问题之一,也是影响粗糙集理论实用性的瓶颈之一。由于没有最佳离散化形式的统一标准,大多离散化算法采用的启发式带有较强的主观性,也难以得到较满意的离散效果。该文提出了基于微粒群优化的连续属性离散化方法,将各属性的离散化划分点初始化为一群粒子,在保证决策表分类能力不变的情况下,通过粒子间的相互作用寻求理想的离散化划分点,使得决策表引入较少的冲突。实验结果验证了该方法的有效性。  相似文献   

3.
将粗糙集理论中属性重要度和依赖度的概念与分级聚类离散化算法相结合,提出了一种纳税人连续型属性动态的离散化算法。首先将纳税数据对象的每个连续型属性划分为2类,然后利用粗糙集理论计算每个条件属性对于决策属性的重要度,再通过重要度由大至小排序进行增类运算,最后将保持与原有数据对象集依赖度一致的分类结果输出。该算法能够动态地对数据对象进行类别划分,实现纳税人连续型属性的离散化。通过采用专家分析和关联分析的实验结果,验证了该算法具有较高的纳税人连续型属性离散化精度和性能。  相似文献   

4.
解亚萍 《计算机应用》2011,31(5):1409-1412
很多数据挖掘方法只能处理离散值的属性,因此,连续属性必须进行离散化。提出一种统计相关系数的数据离散化方法,基于统计相关理论有效地捕获了类-属性间的相互依赖,选取最佳断点。此外,将变精度粗糙集(VPRS)模型纳入离散化中,有效地控制数据的信息丢失。将所提方法在乳腺癌症诊断以及其他领域数据上进行了应用,实验结果表明,该方法显著地提高了See5决策树的分类学习精度。  相似文献   

5.
周世昊  倪衍森 《控制与决策》2011,26(10):1504-1510
连续属性离散化在数据挖掘、机器学习和人工智能等领域起着重要的作用.鉴于此,提出一种基于类-属性关联度的启发式离散化技术.该技术定义了一个新的离散化标准,根据数据本身的特性选择最佳断点,克服了目前最先进自顶向下离散化方法存在的缺陷.基于粗糙集理论中变精度粗糙集模型,提出一种新的不一致衡量标准,能够有效地控制离散化所产生的信息丢失,允许数据存在适当的分类错误度.实验结果和统计性分析表明,所提出的技术显著地提高了J4.8决策树和SVM分类器的学习精度.  相似文献   

6.
应用粗糙集提取柴油机故障数据特征   总被引:1,自引:0,他引:1       下载免费PDF全文
根据柴油机故障数据的特点,采用粗糙集理论对其进行特征提取研究。由于实际测量的参数大多为连续数据,而粗糙集只能处理离散数据,提出了一种适用于粗糙集的SOM网络离散化方法;给出一种基于简化差别矩阵的快速属性约简算法;以6135D型柴油机故障诊断数据为例进行特征提取,成功地将原始8个属性约简为3个,为后续研究工作打下了基础。  相似文献   

7.
连续属性的离散化是粗糙集理论的主要问题之一.针对粗糙集理论只能处理离散数据的局限性,提出基于属性决策表和竞争型网络的连续属性离散化方法.首先使用条件属性与决策属性之间的决策关系来度量条件属性的重要性,并据此对条件属性按照重要性由小到大排序,然后利用竞争型网络分类功能找到连续属性的断点,从而实现了对连续属性的离散化.算法分析和实验证明算法是切实可行的.  相似文献   

8.
决策系统中连续属性离散化,即将一个连续属性分为若干属性区间并为每个区间确定一个离散型数值,对后继阶段的机器学习具有重要的意义。首先研究了满足决策系统最优划分的一种计算候选断点集合的算法,然后在基于条件属性重要度和贪心算法的基础上提出了一种确定结果断点子集的新启发式算法。所提出的属性离散算法考虑并体现了粗糙集理论的基本特点和优点,并能取得较理想的连续属性离散化结果。  相似文献   

9.
在分析和研究C5算法中连续属性处理的必要性及C5算法中离散化方法的不足后,采用基于粗糙集理论-信息熵-可辨识矩阵的离散化的方法(RSIEDM)进行离散化。该方法利用粗糙集、信息熵和可辨识矩阵能更合理、更准确地对连续属性进行离散化,使创建的决策树具有更好的准确率。在优化雷电灾害统计和评估雷电灾害导致的损失应用中,该算法取得了较好的效果。  相似文献   

10.
洪菁  陈强  刘惠彬 《微机发展》2006,16(10):32-34
对传统的粗糙集理论进行了扩展,提出了一种改进的粗糙集归纳学习方法。一方面,针对连续属性离散化,利用模糊集理论对连续属性进行模糊化,再根据模糊贴近度构造模糊相似矩阵,并用k-w方法粗略评估各连续属性的重要度,建立基于模糊相似关系的划分,最终生成相容的决策表。另一方面,针对解决最优属性的选择问题,提出一种加权求和的属性重要度定义。基于以上模型开发了一个原型系统,并以一个工程实例验证了此方法的有效性。  相似文献   

11.
针对大规模项目资源库中项目资源信息无序而导致无法准确快速找出项目资源库中所需资源的问题,提出了基于MapReduce的并行化模糊聚类划分算法。该算法首先抽象原始项目资源特征属性并标准化;其次,根据标准化后的特征属性建立项目相似矩阵,运用矩阵分块思想分割矩阵;然后,利用MapReduce技术处理分块矩阵并合并结果;最后,运用阈值评判划分成若干个有序的项目组。与K-means算法和遗传算法的对比实验结果证明:该算法具有较高的准确率和查全率,并且在大规模数据计算时能够得到较高的加速比,可以有效准确地划分项目资源。  相似文献   

12.
关联规则在肿瘤诊断中的应用   总被引:6,自引:0,他引:6  
挖掘肿瘤诊断数据库中的关联规则,能为肿瘤诊断提供有用的信息。肿瘤诊断数据库中的属性常为数量型属性,因此如何将数量型属性离散化是挖掘关联规则的难点。竞争聚集算法综合了分层聚类与划分聚类的优点,它能够有效地体现数据的实际分布情况并得到优化的聚类个数,因此能将数量型属性离散化成若干个优化的区间。  相似文献   

13.
粗集理论中连续属性的广义离散化   总被引:3,自引:0,他引:3  
提出一种处理区间属性值离散化问题的新方法,其特点是在离散化过程中强调类别可分离性,首先拓展已有的基于断点划分的离散化定义,给出基于类别可分离性的广义离散化定义;然后描述了广义离散化算法并进行时间复杂性分析;最后利用辐射源信号进行了仿真实验.结果表明,该方法能有效离散区问属性决策系统,简化分类器的设计和提高识别率,从而拓展了粗集理论的应用范围.  相似文献   

14.
基于划分的信息系统属性约简   总被引:7,自引:0,他引:7  
张海云  梁吉业  钱宇华 《计算机应用》2006,26(12):2961-2963
从信息系统中属性间划分能力不同的角度出发,提出了属性左划分和属性右划分的观点,研究了它们的特点与性质,给出了在属性划分意义下核属性判定方法,设计了一种基于划分的属性约简算法ARABP,并进行了理论分析和实验仿真,结果表明该约简算法在效率上较现有的启发式算法有显著的提高。  相似文献   

15.
Bordat概念格构造算法的改进   总被引:2,自引:1,他引:1       下载免费PDF全文
作为一种重要的概念格构造算法,Bordat算法简洁、直观且易于并行化,但该算法本身的效率并不高。在深入研究格结构特性的基础上,给出了它的改进算法。首先对形式背景的属性集进行等价类划分,以减少参与计算的属性个数,并消除了在产生子节点集的过程中,对属性之间的多余比较,从而大大提高算法的效率,并通过实例和实验说明该算法的正确性和有效性。  相似文献   

16.
现有的很多属性约简算法都是由构造决策表的差别矩阵出发,将矩阵中非空元素的合取范式转化为极小析取范式。为提高对大规模数据的决策表进行约简的效率,文中指出基于U/{a}划分的最小约简算法存在的缺陷,给出以划分粒度为启发式信息,利用单个条件属性把论域划分成多个等价类,将计算整个全域上的属性约简问题转化为计算在相应划分的子区域上属性约简问题,提出了一种基于决策表分解的最小属性约简算法。理论分析和实例表明该约简算法是有效的。  相似文献   

17.
处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度.在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算法的方法,能更合理更准确地对连续属性进行离散化,在此基础上创建的决策树具有更好的准确率.实验结果表明,基于改进方法的C5.0算法创建的决策树分类模型具有较高的分类准确率.  相似文献   

18.
针对传统协同过滤(CF)推荐算法存在评分矩阵稀疏、扩展性弱和推荐准确率低的缺陷,提出一种改进模糊划分聚类的协同过滤推荐算法(GIFP-CCF+)。在传统基于修正余弦相似度计算方法上,引入时间差因子、热门物品权重因子以及冷门物品权重因子以改善相似度计算结果;同时引入改进模糊划分的GIFP-FCM算法,将属性特征相似的项目聚成一类,构造索引矩阵,同索引间根据项目间的相似度寻找项目最近邻居构成推荐,从而提高协同过滤算法(CF)的精度。通过与Kmeans-CF、FCM-CF和GIFP-CCF算法进行仿真对比实验,证明了GIFP-CCF+算法在推荐结果和推荐精度上具有一定的优越性。  相似文献   

19.
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号