首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
Neighborhood rough set based heterogeneous feature subset selection   总被引:6,自引:0,他引:6  
Feature subset selection is viewed as an important preprocessing step for pattern recognition, machine learning and data mining. Most of researches are focused on dealing with homogeneous feature selection, namely, numerical or categorical features. In this paper, we introduce a neighborhood rough set model to deal with the problem of heterogeneous feature subset selection. As the classical rough set model can just be used to evaluate categorical features, we generalize this model with neighborhood relations and introduce a neighborhood rough set model. The proposed model will degrade to the classical one if we specify the size of neighborhood zero. The neighborhood model is used to reduce numerical and categorical features by assigning different thresholds for different kinds of attributes. In this model the sizes of the neighborhood lower and upper approximations of decisions reflect the discriminating capability of feature subsets. The size of lower approximation is computed as the dependency between decision and condition attributes. We use the neighborhood dependency to evaluate the significance of a subset of heterogeneous features and construct forward feature subset selection algorithms. The proposed algorithms are compared with some classical techniques. Experimental results show that the neighborhood model based method is more flexible to deal with heterogeneous data.  相似文献   

2.
现有的混合信息系统知识发现模型涵盖的数据类型大多为符号型、数值型条件属性及符号型决策属性,且大多数模型的关注点是属性约简或特征选择,针对规则提取的研究相对较少。针对涵盖更多数据类型的混合信息系统构建一个动态规则提取模型。首先修正了现有的属性值距离的计算公式,对错层型属性值的距离给出了一种定义形式,从而定义了一个新的混合距离。其次提出了针对数值型决策属性诱导决策类的3种方法。其后构造了广义邻域粗糙集模型,提出了动态粒度下的上下近似及规则提取算法,构建了基于邻域粒化的动态规则提取模型。该模型可用于具有以下特点的信息系统的规则提取: (1)条件属性集可包括单层符号型、错层符号型、数值型、区间型、集值型、未知型等; (2)决策属性集可包括符号型、数值型。利用UCI数据库中的数据集进行了对比实验,分类精度表明了规则提取算法的有效性。  相似文献   

3.
针对名义型属性和数值型属性并存的混合型数据,结合多粒度邻域粗糙集和直觉模糊集,分别定义模糊覆盖粗糙隶属度和非隶属度.基于不同的属性集序列和不同的邻域半径,构建多粒度邻域粗糙直觉模糊集模型,证明模型相关性质.然后提出乐观和悲观多粒度邻域粗糙直觉模糊集的近似集,并讨论模型性质.最后使用文中模型计算实例,说明其能较好地解决名义型属性和数值型属性的混合型数据的处理问题.  相似文献   

4.
胡学伟  蒋芸  李志磊  沈健  华锋亮 《计算机应用》2015,35(11):3116-3121
针对目前模糊等价关系所诱导的模糊粗糙集模型不能准确地反映模糊概念范畴中数值属性描述的决策问题,提出一种基于邻域关系的模糊粗糙集模型NR-FRS,给出了该粗糙集模型的相关定义,在讨论模型性质的基础上进行模糊化邻域近似空间上的推理,并分析特征子空间下的属性依赖性;最后在NR-FRS的基础上提出特征选择算法,构建使得模糊正域增益优于具体阈值的特征子集,进而剔除冗余特征,保留分类能力强的属性.采用UCI标准数据集进行分类实验,使用径向基核函数(RBF)支持向量机作为分类器.实验结果表明,同基于邻域粗糙集的快速前向特征选择方法以及核主成分分析方法(KPCA)相比,NR-FRS模型特征选择算法所得特征子集中特征数量依据参数变化更加平缓、稳定.同时平均分类准确率提升最好可以达到5.2%,且随特征选择参数呈现更加平稳的变化.  相似文献   

5.
基于邻域粒化和粗糙逼近的数值属性约简   总被引:31,自引:0,他引:31  
对于空间中的任一子集,通过基本邻域信息粒子进行逼近,由此提出了邻域信息系统和邻域决策表模型.分析了该模型的性质,并且基于此模型构造了数值型属性的选择算法.利用UCI标准数据集与现有算法进行了比较分析,实验结果表明,该模型可以选择较少的特征而保持或改善分类能力.  相似文献   

6.
The variable precision rough sets model (VPRS) along with many derivatives of rough set theory (RST) necessitates a number of stages towards the final classification of objects. These include, (i) the identification of subsets of condition attributes (β-reducts in VPRS) which have the same quality of classification as the whole set, (ii) the construction of sets of decision rules associated with the reducts and (iii) the classification of the individual objects by the decision rules. The expert system exposited here offers a decision maker (DM) the opportunity to fully view each of these stages, subsequently empowering an analyst to make choices during the analysis. Its particular innovation is the ability to visually present available β-reducts, from which the DM can make their selection, a consequence of their own reasons or expectations of the analysis undertaken. The practical analysis considered here is applied on a real world application, the credit ratings of large banks and investment companies in Europe and North America. The snapshots of the expert system presented illustrate the variation in results from the ‘asymmetric’ consequences of the choice of β-reducts considered.  相似文献   

7.
一种基于粗糙集的信息系统决策规则提取方法   总被引:5,自引:0,他引:5  
以粗糙集理论为基础,引入相似性的概念,并提出其衡量方法,改进了粗糙集理论中不可辨关系的确定条件,给出了基于新的相似关系的上下近似空间定义,并举例说明了基于粗糙集的相似性规则提取方法。  相似文献   

8.
Rough set reduction has been used as an important preprocessing tool for pattern recognition, machine learning and data mining. As the classical Pawlak rough sets can just be used to evaluate categorical features, a neighborhood rough set model is introduced to deal with numerical data sets. Three-way decision theory proposed by Yao comes from Pawlak rough sets and probability rough sets for trading off different types of classification error in order to obtain a minimum cost ternary classifier. In this paper, we discuss reduction questions based on three-way decisions and neighborhood rough sets. First, the three-way decision reducts of positive region preservation, boundary region preservation and negative region preservation are introduced into the neighborhood rough set model. Second, three condition entropy measures are constructed based on three-way decision regions by considering variants of neighborhood classes. The monotonic principles of entropy measures are proved, from which we can obtain the heuristic reduction algorithms in neighborhood systems. Finally, the experimental results show that the three-way decision reduction approaches are effective feature selection techniques for addressing numerical data sets.  相似文献   

9.
在多标记学习中,数据降维是一项重要且具有挑战性的任务,而特征选择又是一种高效的数据降维技术。在邻域粗糙集理论的基础上提出一种多标记专属特征选择方法,该方法从理论上确保了所得到的专属特征与相应标记具有较强的相关性,进而改善了约简效果。首先,该方法运用粗糙集理论的约简算法来减少冗余属性,在保持分类能力不变的情况下获得标记的专属特征;然后,在邻域精确度和邻域粗糙度概念的基础上,重新定义了基于邻域粗糙集的依赖度与重要度的计算方法,探讨了该模型的相关性质;最后,构建了一种基于邻域粗糙集的多标记专属特征选择模型,实现了多标记分类任务的特征选择算法。在多个公开的数据集上进行仿真实验,结果表明了该算法是有效的。  相似文献   

10.
Qinghua  Zongxia  Daren 《Pattern recognition》2007,40(12):3509-3521
Feature subset selection has become an important challenge in areas of pattern recognition, machine learning and data mining. As different semantics are hidden in numerical and categorical features, there are two strategies for selecting hybrid attributes: discretizing numerical variables or numericalize categorical features. In this paper, we introduce a simple and efficient hybrid attribute reduction algorithm based on a generalized fuzzy-rough model. A theoretic framework of fuzzy-rough model based on fuzzy relations is presented, which underlies a foundation for algorithm construction. We derive several attribute significance measures based on the proposed fuzzy-rough model and construct a forward greedy algorithm for hybrid attribute reduction. The experiments show that the technique of variable precision fuzzy inclusion in computing decision positive region can get the optimal classification performance. Number of the selected features is the least but accuracy is the best.  相似文献   

11.
基于粒计算的规则获取在一定程度上弥补规则获取算法的缺陷,然而大多数算法仅适用于处理名词型数据.为了从多粒度、多层次的角度处理数值型或混合型数据,基于邻域多粒度粗糙集模型,通过计算邻域多粒度条件粒与决策粒,分析条件粒在规则获取过程中的冗余关系,进而通过剪枝规则获取过程中的冗余条件粒.在此基础上,设计较高效的基于最大粒的悲观邻域多粒度粗糙集规则获取算法.通过理论分析与实例对比验证算法的有效性和优越性.  相似文献   

12.
曾婷    唐孝    谭阳    丁本香   《智能系统学报》2020,15(6):1068-1078
在三支决策模糊粗糙集模型中,一些学者基于相似度三支决策模糊粗糙集模型建立了目标函数来得到最优阈值对 $\left( {\alpha ,\;\beta } \right)$ 的计算方法,但在该过程的研究中,学者并没有在相似度三支决策模糊粗糙集模型中讨论关于决策代价的描述问题。基于模糊信息系统用新的函数来描述决策代价成为计算阈值对 $\left( {\alpha ,\;\beta } \right)$ 的一种方法,首先,在模糊信息系统中,通过建立一个描述决策代价的函数,将模糊信息系统中的模糊数与三支决策的决策代价联系在一起;然后对隶属频率进行拟合,得到了三支决策中决策代价的数值描述;最后,通过两个实例说明了该方法的可行性和适用性。  相似文献   

13.
由于可以从多粒度、多层次的角度对名词型和数值型属性并存的混合数据进行有效处理,邻域多粒度粗糙集模型受到了广泛关注.为了有效降低属性约简计算过程中的迭代次数,实现邻域多粒度粗糙集模型的快速属性约简算法,基于双重粒化准则,深入分析不同属性子集序列和邻域半径对正域的影响,结合正域在属性子集和邻域半径共同作用下的单调性,提出一种基于双重粒化准则的邻域多粒度粗集快速约简算法,并通过理论分析与实例对比验证了算法的有效性和优越性.  相似文献   

14.
邻域粗糙集模型在处理完备的数值型数据中得到广泛应用,但针对不完备的数值型和符号型混合数据进行属性约简的讨论相对较少。为此,首先结合邻域粗糙集给出了可变精度模型下不完备邻域决策系统的上、下近似算子及属性约简;然后通过邻域粒化的方法构建了广义邻域下可变精度的粗糙集模型,并提出了一种属性重要度的评价方法;在此基础上,设计出了面向不完备邻域决策系统的属性约简算法,该算法可直接处理不完备的数值型和符号型混合数据;最后,通过实例分析验证了本文提出的算法能够求解出变精度下不完备邻域决策系统的属性约简结果。  相似文献   

15.
由于网络混合属性集的冗余数据量多,影响数据检测的查全率,为此提出结合粗糙集理论的网络大数据混合属性特征检测方法。首先构建一个四元组,利用四元组的任意邻域信息测算其长度函数,以判断信息特征的相似性,结合粗糙集理论求解相似信息特征的邻域熵,以检测并分类重复数据属性。为优化数据分类效率,引入支持向量机分类思想,将大数据混合属性的分类问题变换为线性可分问题,实现网络大数据混合属性特征检测与分类。实验结果表明,所提方法能够有效根据数据特征筛选出无关数据信息,使用经过训练后的分类装置对约简后的特征集进行分类,与基于特征和分类器参数组合优化的网络属性特征检测方法比较,证明了所提方法的有效性,为网络大数据混合特征检测技术提供一种新的有效解决方式。  相似文献   

16.
针对冗余属性和不相关属性过多对肺部肿瘤诊断的影响以及Pawlak粗糙集只适合处理离散变量而导致原始信息大量丢失的问题,提出混合信息增益和邻域粗糙集的肺部肿瘤高维特征选择算法(Information gain-neighborhood rough set-support vector machine,IG-NRS-SVM)。该算法首先提取3 000例肺部肿瘤CT图像的104维特征构造决策信息表,借助信息增益结果选出高相关的特征子集,再通过邻域粗糙集剔除高冗余的属性,通过两次属性约简得到最优的特征子集,最后采用网格寻优算法优化的支持向量机构建分类识别模型进行肺部肿瘤良恶性的鉴别。从约简和分类识别两个角度验证方法的可行性与有效性,并与不约简算法、Pawlak粗糙集、信息增益和邻域粗糙集约简算法进行对比。结果表明混合算法精确度优于其他对比算法,精确度达到96.17%,并且有效降低了时间复杂度,对肺部肿瘤计算机辅助诊断具有一定的参考价值。  相似文献   

17.
通过对实域区间和决策值的重新划分,对已经存在的属性广义重要度度量准则进行了扩展,构建了对象空间上的广义邻域关系及广义邻域关系下的实域粗糙集模型,并在此基础上提出了实域决策系统中属性约简方法(ARRDDS).对不同数据集的实验测试结果表明,与其他相关方法相比,ARRDDS方法能够较好地处理决策表中实数域属性约简问题.  相似文献   

18.
Approximations of a concept in rough set theory induce rules and need to update for dynamic data mining and related tasks. Most existing incremental methods based on the classical rough set model can only be used to deal with the categorical data. This paper presents a new dynamic method for incrementally updating approximations of a concept under neighborhood rough sets to deal with numerical data. A comparison of the proposed incremental method with a nonincremental method of dynamic maintenance of rough set approximations is conducted by an extensive experimental evaluation on different data sets from UCI. Experimental results show that the proposed method effectively updates approximations of a concept in practice. © 2012 Wiley Periodicals, Inc.  相似文献   

19.
姚晟  汪杰  徐风  陈菊 《计算机应用》2018,38(1):97-103
针对现有的属性约简算法不适合处理数值型属性和符号型属性共同存在的不完备数据,提出了一种拓展不完备邻域粗糙集模型。首先,通过考虑属性值的概率分布来定义缺失属性值之间的距离,可以度量具有混合属性的不完备数据;其次,定义了邻域混合熵来评价属性约简的质量,分析证明了相关的性质定理,并构造了一种基于邻域混合熵的不完备邻域粗糙集属性约简算法;最后从UCI数据集中选取了7组数据进行实验,并分别与基于依赖度的属性约简(ARD)、基于邻域条件熵的属性约简(ARCE)、基于邻域组合测度的属性约简(ARNCM)算法进行了比较。理论分析和实验结果表明,所提算法约简属性比ARD、ARCE、ARNCM分别减少了约1,7,0个,所提算法的分类精度比ARD、ARCE、ARNCM分别提高了约2.5,2.1,0.8个百分点。所提算法不仅能够获得较少的约简属性,同时具有较高的分类精度。  相似文献   

20.
Pawlak经典粗糙集理论主要针对离散值,对复杂现实世界中的区间值却不能有效支持。在区间值信息系统中,基于灰格运算和Hausdorff距离提出了一种区间值的邻域关系。在该邻域关系基础之上,依次提出了基于邻域关系、最大相容类和邻域系统三种灰色粗集模型,提高了近似空间的精确度;同时讨论了三种灰色粗集模型之间的上、下近似空间,并用实例进行分析及验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号