首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
改进的基于简化二进制分辨矩阵的属性约简方法   总被引:1,自引:0,他引:1  
在基于二进制分辨矩阵的属性约简方法中,删除法即从属性全集中依次删除冗余属性,直至剩余的属性集是一个最小约简.针对传统的基于二进制分辨矩阵的删除法效率较低且得不到最小约简的问题,提出一种改进的二进制分辨矩阵属性约简方法.首先对决策表进行简化,然后给出一种改进的简化二进制分辨矩阵方法;其次通过一个新的属性约简度量方法一次性删除多个属性,并从理论上分析了该方法的可行性;最后通过实验证明了得到的约简结果是最小约简.  相似文献   

2.
MapReduce框架下并行知识约简算法模型研究   总被引:5,自引:0,他引:5  
面向大规模数据进行知识约简是近年来粗糙集理论研究热点。经典的知识约简算法是一次性将小数据集装入单机主存中进行约简,无法处理海量数据。深入剖析了知识约简算法中的可并行性;设计并实现了数据和任务同时并行的Map和Reduce函数,用于计算不同候选属性集导出的等价类和属性重要性;构建了一种MapReduce框架下并行知识约简算法模型,用于计算基于正区域、基于差别矩阵或基于信息熵的知识约简算法的一个约简。在Hadoop平台上进行了相关实验,实验结果表明,该并行知识约简算法模型可以高效地处理海量数据集。  相似文献   

3.
云计算环境下差别矩阵知识约简算法研究   总被引:2,自引:0,他引:2  
知识约简是粗糙集理论的重要研究内容之一。经典的差别矩阵知识约简算法只能处理小数据集,而已有的任务并行的知识约简算法是假设所有数据一次性装入内存中,这显然不适合处理海量数据。为此,剖析了差别矩阵元素的特性,根据属性(集)的不可辨识性和云计算技术MapRcducc设计了适合数据并行的差别矩阵,并首次提出了面向大规模数据的差别矩阵知识约简算法。实验结果表明该知识约简算法是有效可行的,且具有较好的可扩展性。  相似文献   

4.
Fuzzy rough set is a generalization of crisp rough set to deal with data sets with real value attributes. A primary use of fuzzy rough set theory is to perform attribute reduction for decision systems with numerical conditional attribute values and crisp (symbolic) decision attributes. In this paper we define inconsistent fuzzy decision system and their reductions, and develop discernibility matrix-based algorithms to find reducts. Finally, two heuristic algorithms are developed and comparison study is provided with the existing algorithms of attribute reduction with fuzzy rough sets. The proposed method in this paper can deal with decision systems with numerical conditional attribute values and fuzzy decision attributes rather than crisp ones. Experimental results imply that our algorithm of attribute reduction with general fuzzy rough sets is feasible and valid.  相似文献   

5.
The covering generalized rough sets are an improvement of traditional rough set model to deal with more complex practical problems which the traditional one cannot handle. It is well known that any generalization of traditional rough set theory should first have practical applied background and two important theoretical issues must be addressed. The first one is to present reasonable definitions of set approximations, and the second one is to develop reasonable algorithms for attributes reduct. The existing covering generalized rough sets, however, mainly pay attention to constructing approximation operators. The ideas of constructing lower approximations are similar but the ideas of constructing upper approximations are different and they all seem to be unreasonable. Furthermore, less effort has been put on the discussion of the applied background and the attributes reduct of covering generalized rough sets. In this paper we concentrate our discussion on the above two issues. We first discuss the applied background of covering generalized rough sets by proposing three kinds of datasets which the traditional rough sets cannot handle and improve the definition of upper approximation for covering generalized rough sets to make it more reasonable than the existing ones. Then we study the attributes reduct with covering generalized rough sets and present an algorithm by using discernibility matrix to compute all the attributes reducts with covering generalized rough sets. With these discussions we can set up a basic foundation of the covering generalized rough set theory and broaden its applications.  相似文献   

6.
Attribute reduction and reducts are important notions in rough set theory that can preserve discriminatory properties to the highest possible extent similar to the entire set of attributes. In this paper, the relationships among 13 types of alternative objective functions for attribute reduction are systematically analyzed in complete decision tables. For inconsistent and consistent decision tables, it is demonstrated that there are only six and two intrinsically different objective functions for attribute reduction, respectively. Some algorithms have been put forward for minimal attribute reduction according to different objective functions. Through a counterexample, it is shown that heuristic methods cannot always guarantee to produce a minimal reduct. Based on the general definition of discernibility function, a complete algorithm for finding a minimal reduct is proposed. Since it only depends on reasoning mechanisms, it can be applied under any objective function for attribute reduction as long as the corresponding discernibility matrix has been well established.  相似文献   

7.
一种高效的增量式属性约简算法   总被引:2,自引:0,他引:2  
针对粗糙集中求属性核和属性约简存在的问题,首先给出了改进的差别矩阵定义,进而提出一种基于改进差别矩阵的核增量式更新算法,用于解决对象动态增加情况下核的更新问题;同时,为了降低现有增量式属性约简算法的时间、空间复杂度,提出一种不存储差别矩阵的高效属性约简算法,用于处理对象动态增加情况下属性约简的更新问题.理论分析及实验结果均表明了所提出算法的有效性和可行性.  相似文献   

8.
冯丹    黄洋  石云鹏  王长忠 《智能系统学报》2017,12(3):371-376
属性约简是粗糙集理论在数据处理方面的重要应用,已有的针对连续型数据的属性约简算法主要集中在基于正域的贪心算法,该方法只考虑了一致样本和其他样本的可辨识性,而忽略了边界样本点间可区分性。为了克服基于正域算法的缺点,提出了连续型数据的辨识矩阵属性约简模型,该模型不但考虑了正域样本的一致性,同时考虑了边界样本的可分性。基于该模型,分析了属性约简结构,定义了辨识矩阵来刻画特征子集的分类能力,构造了实值型数据的属性约简启发式算法,并利用UCI标准数据集进行了验证。理论分析和实验结果表明,提出的算法能够有效地处理连续型数据,提高了数据的分类精度。  相似文献   

9.
白鹤翔  王健  李德玉  陈千 《计算机应用》2015,35(8):2355-2359
针对"大数据"中常见的大规模无监督数据集中特征选择速度难以满足实际应用要求的问题,在经典粗糙集绝对约简增量式算法的基础上提出了一种快速的属性选择算法。首先,将大规模数据集看作一个随机到来的对象序列,并初始化候选约简为空集;然后每次都从大规模数据集中无放回地随机抽取一个对象,并且每次都判断使用当前候选约简能否区分这一对象和当前对象集中所有应当区分的对象,并将该对象放入到当前对象集中,如果不能区分则向候选约简中添加合适的属性;最后,如果连续I次都没有发现无法区分的对象,那么将候选约简作为大规模数据集的约简。在5个非监督大规模数据集上的实验表明,所求得的约简能够区分95%以上的对象对,并且求取该约简所需的时间不到基于区分矩阵的算法和增量式约简算法的1%;在文本主题挖掘的实验中,使用约简后的数据集挖掘出的文本主题同原始数据集挖掘出的主题基本一致。两组实验结果表明该方法能够有效快速对大规模数据集进行属性选择。  相似文献   

10.
The fuzzy rough set (FRS) model has been introduced to handle databases with real values. However, FRS was sensitive to misclassification and perturbation (here misclassification means error or missing values in classification, and perturbation means small changes of numerical data). The variable precision rough sets (VPRSs) model was introduced to handle databases with misclassification. However, it could not effectively handle the real-valued datasets. Now, it is valuable from theoretical and practical aspects to combine FRS and VPRS so that a powerful tool, which not only can handle numerical data but also is less sensitive to misclassification and perturbation, can be developed. In this paper, we set up a model named fuzzy VPRSs (FVPRSs) by combining FRS and VPRS with the goal of making FRS a special case. First, we study the knowledge representation ways of FRS and VPRS, and then, propose the set approximation operators of FVPRS. Second, we employ the discernibility matrix approach to investigate the structure of attribute reductions in FVPRS and develop an algorithm to find all reductions. Third, in order to overcome the NP-complete problem of finding all reductions, we develop some fast heuristic algorithms to obtain one near-optimal attribute reduction. Finally, we compare FVPRS with RS, FRS, and several flexible RS-based approaches with respect to misclassification and perturbation. The experimental comparisons show the feasibility and effectiveness of FVPRS.  相似文献   

11.
针对现有属性约简算法存在的问题,利用信息论和粗糙集理论,提出一种基于相对可辨识矩阵的决策表属性约简算法.该算法以核属性为基础,通过建立相对可辨识矩阵,利用条件信息熵作为启发式信息,减少属性约简过程中的搜索空间,逐个添加条件信息熵最大的属性,直到找出最小约简为止,并分析了该算法的时间复杂度.实例分析结果表明,该算法能有效地对决策表属性进行约简.  相似文献   

12.
基于粗糙集和信息增益的属性约简改进方法   总被引:2,自引:0,他引:2  
针对属性过多对于有效的数据挖掘很不利以及约简中差别矩阵的产生会占用较大存储空间的问题,提出了一种基于粗糙集和信息增益的属性约简改进算法.该算法首先采用信息增益技术对决策表属性进行相关分析,删除部分冗余属性,减小属性约简的复杂度,然后直接从决策表中提取出分明函数,求出属性约简.由于避免了分明矩阵的生成,因此该算法不仅节约了时间和空间,而且提高了效率.  相似文献   

13.
基于广义差别矩阵的核和属性约简算法   总被引:13,自引:1,他引:12  
属性约简是粗糙集理论的重要研究内容.为此引入广义差别矩阵,提出基于广义差别矩阵的核和属性约简算法.该框架可有效避免连续属性值离散化,且有利于与其他机器学习方法相结合.理论分析表明,所提出的算法是有效而可行的.  相似文献   

14.
Attribute subset selection based on rough sets is a crucial preprocessing step in data mining and pattern recognition to reduce the modeling complexity. To cope with the new era of big data, new approaches need to be explored to address this problem effectively. In this paper, we review recent work related to attribute subset selection in decision-theoretic rough set models. We also introduce a scalable implementation of a parallel genetic algorithm in Hadoop MapReduce to approximate the minimum reduct which has the same discernibility power as the original attribute set in the decision table. Then, we focus on intrusion detection in computer networks and apply the proposed approach on four datasets with varying characteristics. The results show that the proposed model can be a powerful tool to boost the performance of identifying attributes in the minimum reduct in large-scale decision systems.  相似文献   

15.
龙浩  徐超 《计算机科学》2015,42(6):251-255
针对目前基于差别矩阵的属性约简算法需要耗费大量的时间和空间,粗糙集中求属性核和属性约简更新效率低以及有关属性约简的增量式更新算法目前还比较少等问题,提出了一种基于改进差别矩阵的属性约简增量式更新算法.该算法在更新差别矩阵时,仅须插入某一行及某一列,或删除某一行并修改相应的列,因而可有效地提高核和属性约简的更新效率.然后在分析新增对象x与原决策系统对象的关系的基础上,给出了属性约简增量更新算法.理论与实验分析表明,提出的算法提高了属性约简的更新效率,明显降低了时间和空间复杂度.  相似文献   

16.
运用可辨识矩阵表示信息系统中所有对象的区分信息,为研究属性约简提供了新方向。然而,传统的可辨识矩阵在构造结束后才利用核属性消除冗余元素项,忽略了核属性在矩阵构建过程中的作用。针对这一问题,文中做了以下研究:1)优化可辨识矩阵的构造方式,在计算任意两个对象的区分信息之前,先判断核属性上的取值是否相等,如果不相等,则直接将对应元素项记为Φ,忽略对其他条件属性的判断;2)提出属性加权重要度的概念,综合考虑每个条件属性占可辨识矩阵中非空元素项的比率(称为宏观重要度)与每个属性对区分对象的贡献程度(称为微观重要度),并通过例子说明了该度量方法的合理性;3)针对优化后的矩阵仍然存在大量冗余元素和空集这一缺陷,结合差别信息树的概念提出基于优化可辨识矩阵和属性加权重要度的差别信息树。按照属性加权重要度对优化可辨识矩阵中所有非空元素项进行排序,使得重要度高的属性被更多的节点共享;且在构建过程中将不包含核属性的元素项映射到树中的一条路径上,而包含核属性的元素项则被直接忽略。最后,提出基于优化可辨识矩阵和改进差别信息树的约简算法HSDI-tree。在UCI的5个数据集上分别比较了HSDI-tree算法与CDI-tree,DI-tree和IDI-tree算法的约简结果和节点个数,实验结果表明HSDI-tree算法能有效找到最小属性约简且空间压缩能力更好。  相似文献   

17.
基于量子遗传算法的粗糙集属性约简新方法   总被引:3,自引:0,他引:3  
分析了粗糙集属性约简的研究现状,针对遗传算法求取属性约简中存在的迭代次数多、收敛较慢的问题,提出了基于量子遗传算法的粗糙集属性约简的新方法。该方法中利用一种新的区分矩阵与量子遗传算法结合,能够实现相容/不相容决策表的属性约简;同时,文中提出了一种适应度函数的参数设定的新方法,使之能够直接对约简进行有效判定。实验数据表明:该算法在收敛性和速度等方面优于基于遗传算法的属性约简算法。  相似文献   

18.
属性约简是粗糙集理论研究的核心内容之一,足知识获取的关键步骤.针对大规模数据集,基于决策表差别矩阵属性约简不具备可操作性缺点;以及基于差别矩阵属性频度的约简算法没有考虑到差别矩阵元素中属性个数多少的缺陷.基于差别矩阵元素的基数越小,其属性越重要的思想,按照基数由小到大的顺序,利用矩阵中具有相同基数的矩阵元素的簇集中属性出现的频度,确定属性的重要度,提出一种快速搜索属性约简算法,能快速搜索到属性的最优或次优约简.实验结果表明算法是可行、有效的.  相似文献   

19.
李艳  范斌  郭劼 《计算机应用》2022,42(9):2701-2712
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。  相似文献   

20.
基于改进的二进制分辨矩阵属性约简算法   总被引:1,自引:0,他引:1       下载免费PDF全文
属性约简是粗糙集理论的重要研究内容之一,目前已有许多属性约简算法。但这些算法中主要针对一致决策表,当决策表是不相容的情况下,常用的计算全部属性约简的差别矩阵算法会产生错误的结果。为了解决这个问题,引入了一个改进的二进制分辨矩阵,提出了一种基于改进的二进制分辨矩阵的属性约简算法。并利用上述算法结合实例进行属性约简,证明了算法的正确性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号