首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 718 毫秒
1.
作为度量粒化程度的方式,在粒计算研究领域中,粒度受到了众多学者的广泛关注,其中一种重要且广为接受的模式是参数化粒度.利用这种参数化的粒度表现形式,在面向属性约简的求解问题时,往往需要计算每一个参数所对应的粒度下约简,直至找出所有参数下的约简结果.显然,这种方式会带来巨大的时间消耗.为解决这一问题,提出了一种连续参数意义下的多粒度属性约简策略:首先利用连续参数的区间及粗糙集中不确定性度量的单调性,构造了连续参数下属性约简的约束条件;其次设计了连续参数意义下约简求解的前向贪心搜索算法;最后选取了8组UCI数据集进行实验对比分析,结果表明,相较于多个离散参数下的单粒度属性约简,连续参数意义下的属性约简可以在使得约简中属性的分类性能不发生显著变化的情况下,极大地提升约简求解的时间性能.这一研究为从连续视角进行多粒度建模及相关属性选择工作提供了新的解决方案.  相似文献   

2.
一种连续值属性约简方法ReCA   总被引:1,自引:1,他引:0  
属性约简是Rough集理论的主要应用和研究内容之一.现有的各种属性约简方法大多适用于离散值属性.对于连续值属性的数据处理,通常做法是先对其进行离散化.这种先期对数据进行的处理会丢失一些信息,易于使约简产生错误.针对连续值信息系统,提出了一种新的属性约简方法ReCA,该方法将连续值属性离散化与属性约简过程融为一体,以基于信息熵的不确定性度量作为适应度函数。通过进化计算同时得到约简属性集合和离散化的断点集合.实验表明,该方法不仅可以有效地进行属性约简,而且与Rough集及C4.5两种方法相比,得到的属性数目少、测试精度较高.  相似文献   

3.
针对数据集为模糊值时冗余信息难于消除的问题,提出了基于模糊相似关系的广义模糊粗糙集与QuickReduct算法相结合的方法。利用广义模糊粗糙集数据相似程度对属性值为实数值的数据集合进行约简,不需要预先对原始数据集合进行离散化,约简结果能更完整地反映原信息系统的分类能力。同时算法中利用了启发式信息,使模糊依赖性增加较快的属性作为最小约简。计算实例验证了该方法的有效性。  相似文献   

4.
一种新的基于连续属性离散化的属性约简方法*   总被引:1,自引:0,他引:1  
通过将连续属性离散化和属性约简结合起来,首先对连续型的属性列进行离散化,得到新的决策表;然后再对新的决策表作属性约简,解决了属性约简过程中由于不考虑连续属性而无法求出准确约简属性的问题。最后通过具体案例表明了该方法具有较好的实用性、有效性,可以很好地应用在含有大量连续属性的数据挖掘项目中。  相似文献   

5.
把模糊商空间中的两个等价的叙述修正并扩展为三个,利用商空间X(λ)的距离函数重新定义了模糊λ商空间,更加直接地继承了模糊商空间理论。把模糊粗糙近似空间的信息量拓展到模糊λ商空间,给出了模糊λ商空间下的混合决策系统约简条件,使模糊粗糙集的属性约简在模糊λ商空间下同样能实现,解决传统粗糙集对连续属性直接离散化容易造成信息缺失和不能对模糊属性处理的问题。  相似文献   

6.
基于遗传算法和模糊粗糙集的知识约简   总被引:4,自引:0,他引:4  
朱江华  李海波  潘丰 《计算机仿真》2007,24(1):86-89,119
虽然粗糙集理论为处理离散属性提供了很好的工具,但它不能直接运用于具有连续变量的数据上面,而现实中的数据又包含着大量的连续变量.为了能够对连续属性集进行有效的知识约简,充分利用遗传算法的全局优化和并行计算的优点,结合模糊粗糙集的理论,对连续属性集进行知识约简,较粗糙集而言避开了连续属性的离散化过程,减少了信息损失,加快了约简速度,提高了决策支持度.首先利用一个仿真实例来验证该算法的有效性和快速性,然后把它运用于某一柴油机的故障数据集的约简,通过约简获得了影响输出故障模式的主要输入变量集,实现了数据的预处理,为进行柴油机的故障模式诊断提供了先决条件.  相似文献   

7.
属性约简是一种重要的数据挖掘方法。为了对混合型信息系统达到更好的属性约简性能,提出一种邻域组合度量的启发式属性约简算法。邻域依赖度是构造混合信息系统属性约简的常用方法,根据粒计算的视角,在混合信息系统中提出邻域知识粒度用于评估属性的粒化能力。将邻域依赖度与邻域知识粒度进行结合,提出混合信息系统下的邻域组合度量,并将该度量方法作为启发式函数,提出一种属性约简算法。实验分析表明,该算法比混合信息系统的其他相关属性约简算法具有更高的约简性能。  相似文献   

8.
基于知识约简的网络入侵特征提取   总被引:2,自引:0,他引:2       下载免费PDF全文
为改善入侵检测系统的性能,提出一种基于知识约简的特征提取方法,根据粗糙集理论给出入侵检测系统的形式化描述,使用知识约简提取属性特征,通过信息损耗和信息增益分别控制连续数值属性特征的离散化和属性特征的约简过程。实验结果证明,该方法可有效消除初始数据中的冗余信息和数据噪声。  相似文献   

9.
基于混合概率模型的无监督离散化算法   总被引:10,自引:0,他引:10  
李刚 《计算机学报》2002,25(2):158-164
现实应用中常常涉及许多连续的数值属性,而且前许多机器学习算法则要求所处理的属性取离散值,根据在对数值属性的离散化过程中,是否考虑相关类别属性的值,离散化算法可分为有监督算法和无监督算法两类。基于混合概率模型,该文提出了一种理论严格的无监督离散化算法,它能够在无先验知识,无类别是属性的前提下,将数值属性的值域划分为若干子区间,再通过贝叶斯信息准则自动地寻求最佳的子区间数目和区间划分方法。  相似文献   

10.
属性约简是机器学习等领域中常用的数据预处理方法。在基于粗糙集理论的属性约简算法中,大多是根据单一的方法来度量属性重要度。为了从多角度对属性达到更为优越的评估效果,首先在已有的模糊邻域粗糙集模型中定义属性依赖度度量,然后根据粒计算理论中知识粒度的概念,在模糊邻域粗糙集模型下提出了模糊邻域粒度度量。由于属性依赖度和知识粒度代表了不同视角的属性评估方法,因此将这两种方法结合起来用于信息系统的属性重要度评估,最后给出一种启发式属性约简算法。实验结果表明,所提出的算法具有较好的属性约简性能。  相似文献   

11.
增量式属性约简是一种针对动态数据集的新型属性约简方法。然而目前的增量式属性约简很少有对不完备混合型的信息系统进行研究。针对这类问题提出一种属性增加时的增量式属性约简算法。在不完备混合型信息系统下引入邻域容差关系。基于邻域容差关系的粒化单调性,提出信息系统属性增加时邻域容差条件熵的增量式更新方法,并提出了不完备混合型信息系统下的邻域容差条件熵增量式属性约简算法。实验分析表明了该算法的有效性。  相似文献   

12.
现有的混合信息系统知识发现模型涵盖的数据类型大多为符号型、数值型条件属性及符号型决策属性,且大多数模型的关注点是属性约简或特征选择,针对规则提取的研究相对较少。针对涵盖更多数据类型的混合信息系统构建一个动态规则提取模型。首先修正了现有的属性值距离的计算公式,对错层型属性值的距离给出了一种定义形式,从而定义了一个新的混合距离。其次提出了针对数值型决策属性诱导决策类的3种方法。其后构造了广义邻域粗糙集模型,提出了动态粒度下的上下近似及规则提取算法,构建了基于邻域粒化的动态规则提取模型。该模型可用于具有以下特点的信息系统的规则提取: (1)条件属性集可包括单层符号型、错层符号型、数值型、区间型、集值型、未知型等; (2)决策属性集可包括符号型、数值型。利用UCI数据库中的数据集进行了对比实验,分类精度表明了规则提取算法的有效性。  相似文献   

13.
In a random fuzzy information system, by introducing a fuzzy t-similarity relation on the objects set for a subset of attributes set, the approximate representations of knowledge are established. By discussing fuzzy belief measures and fuzzy plausibility measures defined by the lower approximation and the upper approximation in a random fuzzy approximation space, some equivalent conditions of knowledge reduction in a random fuzzy information system are proved. Similarly as in an information system, the fuzzy-set-valued attribute discernibility matrixes in a random fuzzy information system are constructed. Knowledge reduction is defined from the view of fuzzy belief measures and fuzzy plausibility measures and a heuristic knowledge reduction algorithm is proposed, and the time complexity of this algorithm is O(|U|2|A|). A running example illustrates the potential application of algorithm, and the experimental results on the data sets with numerical attributes show that the proposed method is effective.  相似文献   

14.
信息系统的属性约简是粗糙集理论的重要内容之一。除正区域、差别矩阵、信息熵之外,运用模糊T的性质提出了一种基于t-范数的划分,基于知识的划分,给出了相似性的概念,提出了若干相似性的性质,并将该相似性的度量运用到属性约简中,给出了一个新的属性约简算法,从而对属性约简进行改进。通过一个数据模型的验证,新的算法同样可以有效地滤除冗余属性,保留关键属性,充分说明了该方法的可行性。  相似文献   

15.
基于粗糙集理论的属性约简算法是机器学习和数据挖掘领域的研究热点之一。粗糙集理论是一种新型的处理模糊和不确定信息的数学工具,在保证分类能力不变的前提下,通过知识的约简导出概念的分类规则。文中提出了一种基于属性桶的约简算法,其约简过程类似基于属性频度函数的约简算法。该算法首先构造一组与决策表决策属性个数相同的属性桶,不同的属性桶划分了不同长度的区分矩阵项,避免了约简前的排序过程。通过构造属性桶时对核属性进行特殊处理,在一定程度上简化了属性约简过程。  相似文献   

16.
李艳  范斌  郭劼 《计算机应用》2022,42(9):2701-2712
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。  相似文献   

17.
Qinghua  Zongxia  Daren 《Pattern recognition》2007,40(12):3509-3521
Feature subset selection has become an important challenge in areas of pattern recognition, machine learning and data mining. As different semantics are hidden in numerical and categorical features, there are two strategies for selecting hybrid attributes: discretizing numerical variables or numericalize categorical features. In this paper, we introduce a simple and efficient hybrid attribute reduction algorithm based on a generalized fuzzy-rough model. A theoretic framework of fuzzy-rough model based on fuzzy relations is presented, which underlies a foundation for algorithm construction. We derive several attribute significance measures based on the proposed fuzzy-rough model and construct a forward greedy algorithm for hybrid attribute reduction. The experiments show that the technique of variable precision fuzzy inclusion in computing decision positive region can get the optimal classification performance. Number of the selected features is the least but accuracy is the best.  相似文献   

18.
朱红  丁世飞 《计算机科学》2016,43(2):95-97, 128
提出了一种基于属性区分能力和AP聚类的属性粒化方法(Attribute Granulation based on attribute discernibility and AP algorithm,AGAP)。该方法首先依据属性依赖度计算属性的区分能力;然后将所有属性作为潜在的聚类中心,使用AP算法聚类,得到若干个属性簇类;最后采取选用代表属性的方法得到较粗的属性粒子,从而达到属性粗粒化的要求。对高维数据的特征降维,这种算法比传统的属性约简算法大大提高了运算效率,在属性粒化精度要求不是很严格的情况下,所提算法优势明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号