首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 523 毫秒
1.
Feature selection (attribute reduction) from large-scale incomplete data is a challenging problem in areas such as pattern recognition, machine learning and data mining. In rough set theory, feature selection from incomplete data aims to retain the discriminatory power of original features. To address this issue, many feature selection algorithms have been proposed, however, these algorithms are often computationally time-consuming. To overcome this shortcoming, we introduce in this paper a theoretic framework based on rough set theory, which is called positive approximation and can be used to accelerate a heuristic process for feature selection from incomplete data. As an application of the proposed accelerator, a general feature selection algorithm is designed. By integrating the accelerator into a heuristic algorithm, we obtain several modified representative heuristic feature selection algorithms in rough set theory. Experiments show that these modified algorithms outperform their original counterparts. It is worth noting that the performance of the modified algorithms becomes more visible when dealing with larger data sets.  相似文献   

2.
基于近似决策熵的属性约简   总被引:3,自引:0,他引:3  
粗糙集理论已被证明是一种有效的属性约简方法. 目前有许多启发式属性约简算法已被提出, 其中基于信息熵的属性约简算法受到了广泛的关注. 为此, 针对现有的基于信息熵的属性约简算法问题, 定义一种新的信息熵模型—–近似决策熵, 并提出一种基于近似决策熵的属性约简(ADEAR) 算法. 通过在多个UCI 数据集上的实验表明, 与现有算法相比, ADEAR算法能够获得较小的约简和较高的分类精度, 具有相对较低的计算开销.  相似文献   

3.
Attribute reduction is one of the most important issues in the research of rough set theory. Numerous significance measure based heuristic attribute reduction algorithms have been presented to achieve the optimal reduct. However, how to handle the situation that multiple attributes have equally largest significances is still largely unknown. In this regard, an enhancement for heuristic attribute reduction (EHAR) in rough set is proposed. In some rounds of the process of adding attributes, those that have the same largest significance are not randomly selected, but build attribute combinations and compare their significances. Then the most significant combination rather than a randomly selected single attribute is added into the reduct. With the application of EHAR, two representative heuristic attribute reduction algorithms are improved. Several experiments are used to illustrate the proposed EHAR. The experimental results show that the enhanced algorithms with EHAR have a superior performance in achieving the optimal reduct.  相似文献   

4.
基于样本选择的启发式属性约简方法研究   总被引:1,自引:0,他引:1  
属性约简是粗糙集理论的核心研究内容之一。借鉴于贪心策略的启发式算法是求解约简的一种有效技术手段。传统的启发式算法使用了决策系统中的所有样本,但实际上每个样本对约简的贡献程度是不同的,这在一定程度上增加了启发式算法的时间消耗。为解决这一问题,提出了一种基于样本选择的启发式算法,该算法主要分为3步:首先从样本集中挑选出重要的样本;然后利用选取出的样本构建新的决策系统;最后利用启发式算法求解约简。实验结果表明,新算法能够有效地减少约简的求解时间。  相似文献   

5.
粗糙集理论是一种有效的信息处理工具,属性约简是粗糙集理论研究的一个核心内容。为了能够较为有效地获得不相容决策表较优的属性约简,在对文献[7]中属性约简算法分析的基础上,根据不相容决策表约简不改变决策表正域的原则,仅考虑相对差异比较表中与正域相关的实例对,同时结合属性重要性作为特征选取的启发式信息,提出了一种改进的启发式属性约简算法。该算法在不增加算法时间复杂度的前提下能够处理不相容决策表。最后,通过实例完整演示了该方法,表明该算法是有效的。  相似文献   

6.
粗糙集理论是一种有效的信息处理工具,属性约简是粗糙集理论研究的一个核心内容.为了能够较为有效地获得不相容决策表较优的属性约简,在对文献[7]中属性约简算法分析的基础上,根据不相容决策表约简不改变决策表正域的原则,仅考虑相对差异比较表中与正域相关的实例对,同时结合属性重要性作为特征选取的启发式信息,提出了一种改进的启发式属性约简算法.该算法在不增加算法时间复杂度的前提下能够处理不相容决策表.最后,通过实例完整演示了该方法,表明该算法是有效的.  相似文献   

7.
Fuzzy rough set is a generalization of crisp rough set to deal with data sets with real value attributes. A primary use of fuzzy rough set theory is to perform attribute reduction for decision systems with numerical conditional attribute values and crisp (symbolic) decision attributes. In this paper we define inconsistent fuzzy decision system and their reductions, and develop discernibility matrix-based algorithms to find reducts. Finally, two heuristic algorithms are developed and comparison study is provided with the existing algorithms of attribute reduction with fuzzy rough sets. The proposed method in this paper can deal with decision systems with numerical conditional attribute values and fuzzy decision attributes rather than crisp ones. Experimental results imply that our algorithm of attribute reduction with general fuzzy rough sets is feasible and valid.  相似文献   

8.
粗糙集理论(RST)中,求解最小属性约简MAR (minimal attribute reduction)是一种NP-难(non-deterministic polynomialhard)组合优化问题.蚁群优化算法ACO(antcolonyoptimization)是进化算法中的一种启发式全局优化算法,粗糙集理论与ACO相结合,是求解属性约简的一种有效、可行的方式.针对蚁群优化算法易于陷入局部最优解、收敛速度慢等问题,首先以一种改进的信息增益率作为启发信息,提出了冗余检测机制,对每个被选属性和每代最优约简集合进行冗余检测,并提出了概率提前计算机制,可避免每只蚂蚁在搜索过程中相同路径上的信息反复计算;针对大数据集的属性约简问题,考虑到蚁群优化算法具有并行能力以及粗糙集中“等价类”计算的可并行性,提出一种将ACO与云计算相结合用于求解大数据集的属性约简算法,在此基础上,进一步提出一种多目标并行求解方案.该方案可以同时计算出其余属性相对于当前属性或约简集合的重要度.实验结果表明,该算法在处理大数据的情况下能够得到最小属性约简,计算属性重要度的时间复杂度由O(n2)降至O(|n|).  相似文献   

9.
近年来,人们越来越关注粗糙集中的属性约简算法,尤其是启发式的约简算法。为了度量属性重要度,人们把各种不同的信息熵模型应用到粗糙集中,同时在信息熵这一理论的基础上得出了许多约简算法,用来解决粗糙集中属性约简的问题。然而,现有的基于信息熵的方法还存在一系列问题。针对这些问题,本文首先将知识粒度与相对决策熵这2个概念结合在一起,从而引入一种新的信息熵模型--粒度决策熵;然后,利用粒度决策熵来度量属性的重要性,并由此得出新的约简算法--ARGDE约简算法;最后,用不同的UCI数据集来做实验,通过与已有的约简算法比较,该算法能够得到更好的实验结果。  相似文献   

10.
随着网络和通信技术的快速的发展,社会进入了大数据时代。如何能够快速地从海量大数据中找到属性约简是目前研究的一个热点。由于传统属性约简的方法在计算大数据属性约简时,需要消耗巨大的计算时间,不能有效地处理日益积累的大数据属性约简的问题。为了提高传统属性约简算法的效率,针对较大决策信息系统属性约简更新问题,利用多粒度粗糙集理论,提出了基于多粒度粗糙集模型的矩阵属性约简算法,通过2组UCI数据集对所提出的多粒度矩阵属性约简算法的性能进行测试,结果验证了该多粒度矩阵属性约简算法是合理且有效的。  相似文献   

11.
姚晟  徐风  吴照玉  陈菊  汪杰  王维 《控制与决策》2019,34(2):353-361
属性约简是粗糙集理论一项重要的应用,目前已广泛运用于机器学习和数据挖掘等领域,邻域粗糙集是粗糙集理论中处理连续型数据的一种重要方法.针对目前邻域粗糙集模型中属性约简存在的缺陷,构造一种基于邻域粗糙集的邻域粗糙熵模型,并基于此给出邻域粗糙联合熵、邻域粗糙条件熵和邻域粗糙互信息熵等概念.邻域粗糙互信息熵是评估属性集相关性的一种重要的方法,具有非单调性变化的特性,对此,提出一种基于邻域粗糙互信息熵的非单调性属性约简算法.实验分析表明,所提出算法不仅比目前已有的单调性属性约简算法具有更优越的属性约简结果,而且具有更高的约简效率.  相似文献   

12.
一种新的用于连续值属性离散化的约简算法   总被引:4,自引:0,他引:4  
针对在Nguyen和Skowron的离散化算法中进行启发式约简时会出现某些属性不能进行离散化问题,以及在无核数据集中启发式约简算法计算量比较大等问题,在粗糙集理论和属性频率函数的基础上给出一个新概念-候选核,并提出一种新的用于连续值属性离散化的约简算法-基于候选核的启发式约简算法(简称BCC)。该算法可以寻找到能对所有属性进行离散化的约简,实验表明,所提出的BCC算法能提高大数据集的离散化效果。  相似文献   

13.
作为粗糙集理论的一个核心内容,属性约简致力于根据给定的约束条件删除数据中的冗余属性。基于贪心策略的启发式算法是求解约简的一种有效手段,这一手段通常使用数据中的全部样本来度量属性的重要度从而进一步得到约简子集。但实际上,不同样本对于属性重要度计算的贡献是不同的,有些样本对重要度贡献不高甚至几乎没有贡献,且当数据中的样本数过大时,利用全部样本进行约简求解会使得时间消耗过大而难以接受。为了解决这一问题,提出了一种基于一致性样本的属性约简策略。具体算法大致由3个步骤组成,首先,将满足一致性原则的样本挑选出来;其次,将这些选中的样本组成新的决策系统;最后,利用启发式框架在新的决策系统中求解约简。实验结果表明:与基于聚类采样的属性约简算法相比,所提方法能够提供更高的分类精度。  相似文献   

14.
由于数据随时间和空间不断更新,很多基于粗糙集的增量方法被提出。然而,动态数据上基于模糊粗糙集的特征选取(也称属性约简)更新的研究较少,特别是连续型动态数据上的增量特征选取。为了解决这个问题,提出适用于连续型数据的基于模糊粗糙集的增量属性约简算法。首先提出模糊粗糙基本概念的增量机制,如模糊正域的增量机制。只有部分示例在已有属性约简上的辨识能力不足,即对于模糊正域来说,存在一个关键示例集。增量约简算法基于已有数据上的约简结果,仅需要更新关键示例集中的示例,而非全部的论域。因而该增量算法在动态数据上能快速获得约简的更新。通过数值对比实验可以看出,增量算法比非增量算法在运行时间上有明显的优势。特别是对于高维数据集,增量算法可以大大地节省计算时间。  相似文献   

15.
经典属性约简及其延伸算法是基于有决策属性的信息系统的属性约简算法,它们对无决策属性的信息系统的属性约简无能为力.为此,本文以粗集理论为基础,对无决策属性的信息系统从集合论的论域划分方面进行研究,提出了一种适用于无决策属性的信息系统的启发式属性约简算法.该算法在一定程度上能够解决无决策属性的信息系统属性约简问题,进一步扩展了粗集理论的应用范围.实例表明该算法是有效可行的.  相似文献   

16.
连续值属性决策表中的可变精度粗糙集模型及属性约简   总被引:2,自引:0,他引:2  
属性约简是粗糙集理论研究的一个核心问题.为了有效地处理决策表中连续值属性约简,提出了连续值属性决策表中的可变精度粗糙集模型以及基于此模型的连续值属性约简算法.仿真实验结果表明,该算法可以对连续值属性进行约简,而且比经典粗糙集相关方法在处理连续值属性约简方面更有效.  相似文献   

17.
一种基于Rough集理论的属性约简启发式算法   总被引:9,自引:1,他引:9  
属性约简是知识发现中的关键问题之一.为了能够有效地获取决策表中属性的最小相对约简,在Rough集理论的基础上构造了一个新的算子,将信息论角度定义的属性的重要性作为启发式信息,来描述在决策表中条件属性所提供的知识对决策属性的影响;并采用宽度优先搜索策略,提出了一种新的属性约简启发式算法.以原始条件属性集为起点并结合算子,通过向属性核的递减式逼近,得到属性的最小相对约简.实例分析表明,该算法能有效地对决策表属性进行约简.  相似文献   

18.
属性约简是粗糙集理论的核心问题,为了获得更多更稳定的最小属性约简,根据决策粗糙集模型将最小属性约简问题转化为决策风险最小化问题,并给出了新的适应度函数计算方法;在此基础上利用回溯搜索算法较强的全局搜索性能,提出了基于回溯搜索算法的决策粗糙集属性约简算法;对UCI数据集的实验结果以及与其他约简算法的比较表明,该算法能够得到更多的最小属性约简,而且能够在多次运行中保持约简结果个数的稳定性。  相似文献   

19.
属性约简是粗糙集的一个核心研究课题,但经典属性约简及其延伸算法是基于有决策属性的决策表的属性约简算法,它们对无决策属性的非常规决策表的属性约简无能为力。以粗糙集理论为基础,对无决策属性的非常规决策表从分形维数方面进行研究,提出了一种适用于无决策属性的决策表的启发式属性约简算法。该算法在一定程度上能够解决非常规决策表的属性约简问题,进一步扩展了粗糙集理论的应用范围。实例表明该算法是有效可行的。  相似文献   

20.
本文针对不完备食品信息系统提出了一种基于粗糙集理论的评价属性相对约简方法。本文利用粗糙集等价关系 的扩展,即容差关系为基础提出容差关系相似矩阵的概念。然后通过引入广义决策函数的限制来解决不完备信息系统约 简的不一致性问题,通过容差关系相似矩阵求不完备信息系统的核属性,再利用属性在容差关系相似矩阵中出现的频率 给出了属性重要度的计算公式,利用属性重要度为约简的启发式规则,并运用折半启发式算法减少扩展次数,提高约简 速度。实验表明该方法是简单有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号