首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
姚晟  汪杰  徐风  陈菊 《计算机应用》2018,38(1):97-103
针对现有的属性约简算法不适合处理数值型属性和符号型属性共同存在的不完备数据,提出了一种拓展不完备邻域粗糙集模型。首先,通过考虑属性值的概率分布来定义缺失属性值之间的距离,可以度量具有混合属性的不完备数据;其次,定义了邻域混合熵来评价属性约简的质量,分析证明了相关的性质定理,并构造了一种基于邻域混合熵的不完备邻域粗糙集属性约简算法;最后从UCI数据集中选取了7组数据进行实验,并分别与基于依赖度的属性约简(ARD)、基于邻域条件熵的属性约简(ARCE)、基于邻域组合测度的属性约简(ARNCM)算法进行了比较。理论分析和实验结果表明,所提算法约简属性比ARD、ARCE、ARNCM分别减少了约1,7,0个,所提算法的分类精度比ARD、ARCE、ARNCM分别提高了约2.5,2.1,0.8个百分点。所提算法不仅能够获得较少的约简属性,同时具有较高的分类精度。  相似文献   

2.
邻域粗糙集模型在处理完备的数值型数据中得到广泛应用,但针对不完备的数值型和符号型混合数据进行属性约简的讨论相对较少。为此,首先结合邻域粗糙集给出了可变精度模型下不完备邻域决策系统的上、下近似算子及属性约简;然后通过邻域粒化的方法构建了广义邻域下可变精度的粗糙集模型,并提出了一种属性重要度的评价方法;在此基础上,设计出了面向不完备邻域决策系统的属性约简算法,该算法可直接处理不完备的数值型和符号型混合数据;最后,通过实例分析验证了本文提出的算法能够求解出变精度下不完备邻域决策系统的属性约简结果。  相似文献   

3.
传统的粗糙集理论对决策属性值为直觉模糊数的直觉模糊目标信息系统不能直接属性约简.文中在直觉模糊目标信息系统中引入优势关系,基于优势关系定义条件属性集的上近似决策协调集,给出上近似约简的判定定理,建立该信息系统条件属性集的上近似约简模型,并给出上近似约简的算法步骤.在决策属性值为直觉模糊数的一些目标信息系统中,利用条件属性集的上近似约简,可得到更为简洁的决策规则.最后给出一个实例验证算法的有效性.  相似文献   

4.
一种基于粗糙集理论的规则提取方法   总被引:2,自引:1,他引:2  
规则提取是实现智能信息系统的重要环节,也是一个难点。针对信息系统中的规则提取问题,提出了一种基于粗糙集的研究方法,并对规则提取涉及到的属性约简、属性值约简等问题进行了研究。根据粗糙集中的不可分辨关系建立了可辫识向量,以利用可辨识向量的加法法则运算求得核属性以及属性重要性,然后以核属性为基础、属性重要性为启发信息,求得信息表的一个属性约简。在此基础上,利用条件属性与决策属性之间的对应关系,对信息表中的每条规则通过删除冗余属性值来完成信息表的属性值约简,最终实现规则提取。数值实例和试验表明本算法是有效、可行的。  相似文献   

5.
袁钟  冯山 《计算机应用》2018,38(7):1905-1909
针对离群点检测中传统距离法不能有效处理符号型属性和经典粗糙集方法不能有效处理数值型属性的问题,利用邻域粗糙集的粒化特征提出了改进的邻域值差异度量(NVDM)方法进行离群点检测。首先,将属性取值归一化并以混合欧氏重叠度量(HEOM)和具有自适应特征的邻域半径构建邻域信息系统(NIS);其次,以NVDM构造对象的邻域离群因子(NOF);最后,设计并实现了基于邻域值差异度量的离群点检测(NVDMOD)算法,该算法在计算单属性邻域覆盖(SANC)的方式上充分利用有序二分和近邻搜索思想改进了传统的无序逐一计算模式。在UCI标准数据集上与现有离群点检测算法——邻域离群点检测(NED)算法、基于距离的离群点检测(DIS)算法和K最近邻(KNN)算法进行了实验对比、分析。实验结果表明,NVDMOD算法具有更好的适应性和有效性,为混合型属性数据集的离群点检测提供了一条更有效的新途径。  相似文献   

6.
阐述邻域粗糙集和邻域信息熵的基本定义及性质,为避免数值属性信息系统属性约简过程中,属性离散化造成特征信息的丢失,提出一种新的基于邻域信息熵度量数值属性约简算法。扩展邻域信息系统核属性集生成约简属性集,邻域信息熵度量不仅关注约简属性集正域变化,而且考察负域样本空间约简属性邻域等价类在决策属性划分的分布,具备更好的邻域关系度量细粒度。实验表明,对比邻域粗糙集近似度量、邻域有效信息率度量、邻域软间隔度量的属性约简方法,该算法能有效进行邻域信息系统属性约简的同时,也保持了约简属性集更好的分类精度。  相似文献   

7.
针对混合值不完备决策信息系统,提出一种将邻域联系度粗糙集与贝叶斯理论相结合的分类方法。定义了一种新的属性辨识矩阵——同异反辨识矩阵,给出了基于同异反辨识矩阵的t分配约简算法,以及对约简后的决策信息系统建立基于邻域联系度粗糙集的最小错误率贝叶斯决策准则,用于对含有混合属性值以及不完备数据的对象进行分类。实验表明所提出的方法是客观有效的。  相似文献   

8.
作为Pawlak粗糙集的扩展,邻域粗糙集能有效地处理数值型的数据。但是,因为沿用了Pawlak粗糙集在构造上下近似集时的包含关系,邻域粗糙集对噪声数据的容错性很差。针对这个问题,本文通过引入贝叶斯最小风险决策规则,提出了一种基于容错改进的邻域粗糙集属性算法。通过和现有的算法进行比较,实验结果表明,在数据预处理阶段用该算法能得到更好的属性约简。  相似文献   

9.
苑红星  卓雪雪  竺德  刘辉 《控制与决策》2022,37(6):1621-1631
决策粗糙集模型是当前粗糙集理论最为重要的研究分支之一.然而,由于现实环境下数据类型的复杂多样以及数据的动态更新,使得传统的决策粗糙集模型面临着一定的局限和不足,针对这一问题,提出一种混合型信息系统的邻域决策粗糙集模型,并设计出一种矩阵方法的邻域决策粗糙集增量式更新算法.首先,将传统的离散型决策粗糙集模型在混合型信息系统...  相似文献   

10.
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。  相似文献   

11.
增量式属性约简是一种针对动态数据集的新型属性约简方法。然而目前的增量式属性约简很少有对不完备混合型的信息系统进行研究。针对这类问题提出一种属性增加时的增量式属性约简算法。在不完备混合型信息系统下引入邻域容差关系。基于邻域容差关系的粒化单调性,提出信息系统属性增加时邻域容差条件熵的增量式更新方法,并提出了不完备混合型信息系统下的邻域容差条件熵增量式属性约简算法。实验分析表明了该算法的有效性。  相似文献   

12.
赵小龙  杨燕 《控制与决策》2019,34(10):2061-2072
增量式属性约简是针对动态型数据的一种重要的数据挖掘方法,目前已提出的增量式属性约简算法大多基于离散型数据构建,很少有对数值型数据进行相关的研究.鉴于此,提出一种数值型信息系统中对象不断增加的增量式属性约简算法.首先,在数值型信息系统中建立一种分层的邻域粒化计算方法,并基于该方法提出邻域粒化的增量式计算;然后,在邻域粒化增量式计算的基础上给出邻域粒化条件熵的增量式更新方法,并基于该更新机制提出对应的增量式属性约简算法;最后,通过实验分析表明所提出算法对于数值型数据的增量式属性约简具有更高的有效性和优越性.  相似文献   

13.
现实世界中常常包含着海量的、不完整的、模糊及不精确的数据或对象,使得模糊信息粒化成为近年来研究趋势。利用论域上的模糊等价关系定义了模糊粒度世界的模糊知识粒度,给出了新的属性约简条件和核属性计算方法,以便更好地挖掘出潜在的、有利用价值的信息。针对粗糙集在对连续属性约简的过程中容易造成信息缺失和不能对模糊属性处理的现象,提出了一种基于模糊知识粒度对混合决策系统约简的启发式算法,省去了连续属性离散化过程,减少了计算量,为离散值域和混合值域约简提供了统一的方法。最后通过实例验证了其有效性。  相似文献   

14.
Mining optimized gain rules for numeric attributes   总被引:7,自引:0,他引:7  
Association rules are useful for determining correlations between attributes of a relation and have applications in the marketing, financial, and retail sectors. Furthermore, optimized association rules are an effective way to focus on the most interesting characteristics involving certain attributes. Optimized association rules are permitted to contain uninstantiated attributes and the problem is to determine instantiations such that either the support, confidence, or gain of the rule is maximized. In this paper, we generalize the optimized gain association rule problem by permitting rules to contain disjunctions over uninstantiated numeric attributes. Our generalized association rules enable us to extract more useful information about seasonal and local patterns involving the uninstantiated attribute. For rules containing a single numeric attribute, we present an algorithm with linear complexity for computing optimized gain rules. Furthermore, we propose a bucketing technique that can result in a significant reduction in input size by coalescing contiguous values without sacrificing optimality. We also present an approximation algorithm based on dynamic programming for two numeric attributes. Using recent results on binary space partitioning trees, we show that the approximations are within a constant factor of the optimal optimized gain rules. Our experimental results with synthetic data sets for a single numeric attribute demonstrate that our algorithm scales up linearly with the attribute's domain size as well as the number of disjunctions. In addition, we show that applying our optimized rule framework to a population survey real-life data set enables us to discover interesting underlying correlations among the attributes.  相似文献   

15.
When symbolic AI approaches are applied to handle continuous valued attributes, there is a requirement to transform the continuous attribute values to symbolic data. In this paper, a novel distribution-index-based discretizer is proposed for such a transformation. Based on definitions of dichotomic entropy and a compound distributional index, a simple criterion is applied to discretize continuous attributes adaptively. The dichotomic entropy indicates the homogeneity degree of the decision value distribution, and is applied to determine the best splitting point. The compound distributional index combines both the homogeneity degrees of attribute value distributions and the decision value distribution, and is applied to determine which interval should be split further; thus, a potentially improved solution of the discretization problem can be found efficiently. Based on multiple reducts in rough set theory, a multiknowledge approach can attain high decision accuracy for information systems with a large number of attributes and missing values. In this paper, our discretizer is combined with the multiknowledge approach to further improve decision accuracy for information systems with continuous attributes. Experimental results on benchmark data sets show that the new discretizer can improve not only the multiknowledge approach, but also the naive Bayes classifier and the C5.0 tree  相似文献   

16.
为了解决当不完备混合决策系统中数据动态增加时,静态属性约简方法的计算复杂度高的问题,提出变精度下不完备混合数据的增量式属性约简方法。首先,在变精度模型下给出了利用条件熵度量属性的重要性程度;然后,详细分析和设计了当数据动态增加时条件熵的增量式更新变化情况和属性约简的更新机制;在此基础上,利用启发式贪心策略构造了增量式的属性约简算法,实现了不完备的数值型和符号型混合数据下属性约简的动态更新。通过UCI数据集中五个真实的混合型数据集的实验比较和分析,在约简效果方面,利用增量式属性约简算法处理Echocardiogram、Hepatitis、Autos、Credit和Dermatology数据集的增量规模为90%+10%时,数据集的原属性个数分别由12、19、25、17和34个约简至6、7、10、11和13个,分别占原属性集的50.0%、36.8%、40.0%、64.7%和38.2%;在执行时间方面,增量式算法在五个数据集的平均耗时分别为2.99 s、3.13 s、9.70 s、274.19 s和50.87 s,静态算法的平均耗时分别为284.92 s、302.76 s、1062.23 s、3510.79 s和667.85 s,且增量式算法的耗时与数据集的实例规模、属性个数和属性值类型的分布相关。实验结果表明,增量式属性约简算法在计算耗时方面要显著优于静态算法,且能有效剔除数据中的冗余属性。  相似文献   

17.
属性约简是一种重要的数据挖掘方法。为了对混合型信息系统达到更好的属性约简性能,提出一种邻域组合度量的启发式属性约简算法。邻域依赖度是构造混合信息系统属性约简的常用方法,根据粒计算的视角,在混合信息系统中提出邻域知识粒度用于评估属性的粒化能力。将邻域依赖度与邻域知识粒度进行结合,提出混合信息系统下的邻域组合度量,并将该度量方法作为启发式函数,提出一种属性约简算法。实验分析表明,该算法比混合信息系统的其他相关属性约简算法具有更高的约简性能。  相似文献   

18.
《Information Systems》2001,26(6):425-444
Mining association rules on large data sets have received considerable attention in recent years. Association rules are useful for determining correlations between attributes of a relation and have applications in marketing, financial and retail sectors. Furthermore, optimized association rules are an effective way to focus on the most interesting characteristics involving certain attributes. Optimized association rules are permitted to contain uninstantiated attributes and the problem is to determine instantiations such that either the support, confidence or gain of the rule is maximized. In this paper, we generalize the optimized support association rule problem by permitting rules to contain disjunctions over uninstantiated numeric attributes. Our generalized association rules enable us to extract more useful information about seasonal and local patterns involving the uninstantiated attribute. For rules containing a single numeric attribute, we present a dynamic programming algorithm for computing optimized association rules. Furthermore, we propose bucketing technique for reducing the input size, and a divide and conquer strategy that improves the performance significantly without sacrificing optimality. We also present approximation algorithms based on dynamic programming for two numeric attributes. Our experimental results for a single numeric attribute indicate that our bucketing and divide and conquer enhancements are very effective in reducing the execution times and memory requirements of our dynamic programming algorithm. Furthermore, they show that our algorithms scale up almost linearly with the attribute's domain size as well as the number of disjunctions.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号