首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
利用一种具有混合编码的二进制差分演化算法进行特征选择,并针对传统评价函数对样本邻域局部信息利用不足的问题,引入邻域粗糙集模型,省去了对数值型数据的离散化过程,同时分析了依赖度度量和邻域识别率度量可能存在的问题,综合两者提出加权邻域识别率,对特征子集适应度进行更好的评价.通过UCI数据进行实验,结果表明该方法能有效进行特征选择.  相似文献   

2.
数值型不完备信息系统的特征选择方法大多是以容差关系为基础,但是这种处理方式存在数据相似性刻画过于宽松的缺陷.文中提出邻域量化容差关系的粗糙集模型,在该模型的基础上定义邻域量化容差条件熵,分析相关性质,根据邻域量化容差条件熵的单调性构造相应的特征选择算法.实验表明,文中算法在特征选择结果、运行时间和分类精度方面具有优越性.  相似文献   

3.
在多标记学习中,数据降维是一项重要且具有挑战性的任务,而特征选择又是一种高效的数据降维技术。在邻域粗糙集理论的基础上提出一种多标记专属特征选择方法,该方法从理论上确保了所得到的专属特征与相应标记具有较强的相关性,进而改善了约简效果。首先,该方法运用粗糙集理论的约简算法来减少冗余属性,在保持分类能力不变的情况下获得标记的专属特征;然后,在邻域精确度和邻域粗糙度概念的基础上,重新定义了基于邻域粗糙集的依赖度与重要度的计算方法,探讨了该模型的相关性质;最后,构建了一种基于邻域粗糙集的多标记专属特征选择模型,实现了多标记分类任务的特征选择算法。在多个公开的数据集上进行仿真实验,结果表明了该算法是有效的。  相似文献   

4.
在分析邻域粗糙集模型弊端的基础上,提出了非对称变邻域粗糙集模型,并以全局属性重要度为启发条件,构造了基于非对称变邻域粗糙集模型的属性约简的启发式算法.利用6个UCI标准数据集与现有算法进行了比较分析,结果表明,该模型不仅可以选择较少的属性个数,而且还能保持较高的分类能力.  相似文献   

5.
胡学伟  蒋芸  李志磊  沈健  华锋亮 《计算机应用》2015,35(11):3116-3121
针对目前模糊等价关系所诱导的模糊粗糙集模型不能准确地反映模糊概念范畴中数值属性描述的决策问题,提出一种基于邻域关系的模糊粗糙集模型NR-FRS,给出了该粗糙集模型的相关定义,在讨论模型性质的基础上进行模糊化邻域近似空间上的推理,并分析特征子空间下的属性依赖性;最后在NR-FRS的基础上提出特征选择算法,构建使得模糊正域增益优于具体阈值的特征子集,进而剔除冗余特征,保留分类能力强的属性.采用UCI标准数据集进行分类实验,使用径向基核函数(RBF)支持向量机作为分类器.实验结果表明,同基于邻域粗糙集的快速前向特征选择方法以及核主成分分析方法(KPCA)相比,NR-FRS模型特征选择算法所得特征子集中特征数量依据参数变化更加平缓、稳定.同时平均分类准确率提升最好可以达到5.2%,且随特征选择参数呈现更加平稳的变化.  相似文献   

6.
基于粒子群优化和邻域约简的入侵检测日志数据特征选择   总被引:2,自引:0,他引:2  
入侵检测日志数据具有数据量大、特征数目繁多以及连续型属性多的特点.传统的特征选择方法在处理连续型数据时要先进行离散化,这需要花费大量的预处理时间并且离散化过程可能会丢失一些重要信息,导致分类精度下降.针对上述问题,首先引入能直接处理连续型数据的邻域粗糙集约简模型,在此基础上构造计算粒子群优化算法中粒子的适应度函数,最后给出一种基于邻域粗糙集模型和粒子群优化的特征选择算法.仿真实验结果表明该算法可以选择较少的特征,改善分类的能力.  相似文献   

7.
作为数据挖掘领域中一项重要的数据预处理技术,特征选择算法能够有效应对高维数据带来的“维数灾难”问题.然而,如何对高维的混合数据进行特征选取仍然是当前研究的重点和难点之一.基于邻域关系的邻域粗糙集模型因其能够处理名词型属性与数值型属性并存的混合数据,已成功应用于混合数据的特征选择.但是,现有邻域粗糙集对混合数据邻域关系的度量,仍然是基于等价关系的名词型数据划分与基于相似关系的数值型数据划分的简单融合,在利用模型划分的邻域空间和预定义的评价函数对高维混合数据进行特征选取时,适应性较差.为此,在邻域粗糙集模型的基础上,提出一种改进的邻域空间构造方法,并设计相应的邻域空间度量公式作为判别指标,自适应地调节邻域空间下邻域粒的大小;为了准确地表征高维混合数据邻域空间的判别能力,设计一种考虑边界数据和邻域空间大小的评价函数;在此基础上,提出一种启发式的高维混合数据特征选择算法.通过UCI标准数据集验证所提出算法的有效性.  相似文献   

8.
对医学图像进行分类时,特征选择是影响分类准确率的非常重要的因素。针对医学图像的特殊性,以及目前提出的特征选择算法在应用于医学图像分类时效果不够理想等问题,提出一种基于邻域关系的模糊粗糙集模型,基于该模型给出特征选择算法,并将其应用于乳腺X光图像。实验结果表明,同已有的算法相比,该方法能有效选择特征,分类精度有较大的提升。  相似文献   

9.
孟军  李锐  郝涵 《计算机科学》2015,42(6):37-40, 66
在对基因微阵列数据的特征选择和分类的研究中,粗糙集理论是一个可以消除冗余基因的有效工具.但是传统的粗糙集模型不能很好地处理连续型数值数据,而离散化方法可能会导致信息的丢失.为此,提出了一种基于相交邻域粗糙集模型的属性约简算法,即将传统粗糙集中的距离邻域扩展为相交邻域,采用基于集合的方式来定义近似,以此构建粗糙集模型.在癌症数据集上进行实验,结果表明基于集合近似和相交邻域的粗糙集模型可以取得较好的分类效果,并且通过对选择出的基因进行GO术语分析,进一步证明了该模型的有效性.  相似文献   

10.
多标记数据的特征选择是机器学习和数据挖掘领域的重要研究内容,当前对于多标记数据的特征选择研究大多是针对完备性数据,但在许多应用领域中,连续型数值数据较多,且由于诊测成本和隐私保护等因素导致数据往往呈现出不完备性。为解决上述问题,提出了一种面向多标记不完备数据的特征选择算法。该算法将邻域粗糙集模型应用于多标记不完备数据的特征选择,根据邻域阈值求解多标记不完备数据的邻域粒度,并基于邻域粒度给出了度量多标记不完备数据的特征重要性准则,以此设计了面向多标记不完备数据的特征选择算法。最后,通过在Mulan数据集上的实验结果验证了算法的有效性和可行性。  相似文献   

11.
Neighborhood rough set based heterogeneous feature subset selection   总被引:6,自引:0,他引:6  
Feature subset selection is viewed as an important preprocessing step for pattern recognition, machine learning and data mining. Most of researches are focused on dealing with homogeneous feature selection, namely, numerical or categorical features. In this paper, we introduce a neighborhood rough set model to deal with the problem of heterogeneous feature subset selection. As the classical rough set model can just be used to evaluate categorical features, we generalize this model with neighborhood relations and introduce a neighborhood rough set model. The proposed model will degrade to the classical one if we specify the size of neighborhood zero. The neighborhood model is used to reduce numerical and categorical features by assigning different thresholds for different kinds of attributes. In this model the sizes of the neighborhood lower and upper approximations of decisions reflect the discriminating capability of feature subsets. The size of lower approximation is computed as the dependency between decision and condition attributes. We use the neighborhood dependency to evaluate the significance of a subset of heterogeneous features and construct forward feature subset selection algorithms. The proposed algorithms are compared with some classical techniques. Experimental results show that the neighborhood model based method is more flexible to deal with heterogeneous data.  相似文献   

12.
基于邻域粒化和遗传算法的数值型属性约简方法   总被引:1,自引:0,他引:1  
针对现实中含有数值型属性的决策系统的约简问题,提出了基于邻域粒化和遗传算法的约简方法。该方法采用基于邻域等价关系建立的粗糙集模型,用邻域等价关系度量粗糙集不可分辨关系,通过邻域信息粒子逼近论域空间。构造了遗传约简算法,论述了遗传算法适应度函数的选择,设计了自适应交叉概率,给出了算法的具体实现。对经典数据集和UCI数据库中4个数据库约简的结果证明了算法的有效性和可行性。  相似文献   

13.
Qinghua Hu  Jinfu Liu  Daren Yu 《Knowledge》2008,21(4):294-304
Feature subset selection presents a common challenge for the applications where data with tens or hundreds of features are available. Existing feature selection algorithms are mainly designed for dealing with numerical or categorical attributes. However, data usually comes with a mixed format in real-world applications. In this paper, we generalize Pawlak’s rough set model into δ neighborhood rough set model and k-nearest-neighbor rough set model, where the objects with numerical attributes are granulated with δ neighborhood relations or k-nearest-neighbor relations, while objects with categorical features are granulated with equivalence relations. Then the induced information granules are used to approximate the decision with lower and upper approximations. We compute the lower approximations of decision to measure the significance of attributes. Based on the proposed models, we give the definition of significance of mixed features and construct a greedy attribute reduction algorithm. We compare the proposed algorithm with others in terms of the number of selected features and classification performance. Experiments show the proposed technique is effective.  相似文献   

14.
实域粗糙集理论及属性约简   总被引:14,自引:1,他引:14  
肖迪  胡寿松 《自动化学报》2007,33(3):253-258
本文引入属性和属性子集广义重要度的概念以及空间中的广义近邻关系,提出广义近邻关系下的实域粗糙集扩展模型. 在实域粗糙集理论中,利用广义近邻关系在全局中划分相容模块,构成集合的下、上近似,避免了Pawlak粗糙集必须量化数据的麻烦. 另外,本文给出了实域粗糙集的属性约简定义和一种贪心算法,分析了约简属性集合的质量. 最后,通过实例验证了本文理论和方法的正确性和有效性.  相似文献   

15.
属性约简和属性值约简是决策表的两种简化方法,本文研究决策表的论域约简.提出了决策表论域约简的总体框架及一致决策表的连续性假设,给出了纯信息粒的概念及三种表示方法,通过实例说明了可以在不影响决策能力的情况下对决策表的论域进行约简.  相似文献   

16.
由于可以从多粒度、多层次的角度对名词型和数值型属性并存的混合数据进行有效处理,邻域多粒度粗糙集模型受到了广泛关注.为了有效降低属性约简计算过程中的迭代次数,实现邻域多粒度粗糙集模型的快速属性约简算法,基于双重粒化准则,深入分析不同属性子集序列和邻域半径对正域的影响,结合正域在属性子集和邻域半径共同作用下的单调性,提出一种基于双重粒化准则的邻域多粒度粗集快速约简算法,并通过理论分析与实例对比验证了算法的有效性和优越性.  相似文献   

17.
针对名义型属性和数值型属性并存的混合型数据,结合多粒度邻域粗糙集和直觉模糊集,分别定义模糊覆盖粗糙隶属度和非隶属度.基于不同的属性集序列和不同的邻域半径,构建多粒度邻域粗糙直觉模糊集模型,证明模型相关性质.然后提出乐观和悲观多粒度邻域粗糙直觉模糊集的近似集,并讨论模型性质.最后使用文中模型计算实例,说明其能较好地解决名义型属性和数值型属性的混合型数据的处理问题.  相似文献   

18.
Rough set theory has been extensively discussed in the domain of machine learning and data mining. Pawlak’s rough set theory offers a formal theoretical framework for attribute reduction and rule learning from nominal data. However, this model is not applicable to numerical data, which widely exist in real-world applications. In this work, we extend this framework to numerical feature spaces by replacing partition of universe with neighborhood covering and derive a neighborhood covering reduction based approach to extracting rules from numerical data. We first analyze the definition of covering reduction and point out its advantages and disadvantages. Then we introduce the definition of relative covering reduction and develop an algorithm to compute it. Given a feature space, we compute the neighborhood of each sample and form a neighborhood covering of the universe, and then employ the algorithm of relative covering reduction to the neighborhood covering, thus derive a minimal covering rule set. Some numerical experiments are presented to show the effectiveness of the proposed technique.  相似文献   

19.
针对冗余属性和不相关属性过多对肺部肿瘤诊断的影响以及Pawlak粗糙集只适合处理离散变量而导致原始信息大量丢失的问题,提出混合信息增益和邻域粗糙集的肺部肿瘤高维特征选择算法(Information gain-neighborhood rough set-support vector machine,IG-NRS-SVM)。该算法首先提取3 000例肺部肿瘤CT图像的104维特征构造决策信息表,借助信息增益结果选出高相关的特征子集,再通过邻域粗糙集剔除高冗余的属性,通过两次属性约简得到最优的特征子集,最后采用网格寻优算法优化的支持向量机构建分类识别模型进行肺部肿瘤良恶性的鉴别。从约简和分类识别两个角度验证方法的可行性与有效性,并与不约简算法、Pawlak粗糙集、信息增益和邻域粗糙集约简算法进行对比。结果表明混合算法精确度优于其他对比算法,精确度达到96.17%,并且有效降低了时间复杂度,对肺部肿瘤计算机辅助诊断具有一定的参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号