首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
一种基于粗糙集启发式的特征选择算法   总被引:1,自引:0,他引:1  
梁琰  何中市 《计算机科学》2007,34(6):162-165
本文基于粗糙集中关于非精确集和精确集理论思想,提出了一个新的特征度量指标,即相对互信息比RMI,由此,设计了一种基于粗糙集的启发式特征选择算法MRMI-UC。首先利用可辨识矩阵,计算出条件属性相对于决策属性的核,以核形成当前候选特征子集作为基准点,以最大化相对互信息和不确定性系数为原则,筛选剩余特征。通过对比实验,结果表明,本文提出的算法在多数情况下能够得到较优的特征子集,算法是有效的,切实可行的。  相似文献   

2.
特征选取技术主要目的之一是选取代表问题域的最优特征子集,提高分类的有效性和可伸缩性。文章在粗糙集理论框架下,提出了一种能处理不相容数据的特征选取算法,它以属性重要性和平均规则支持度作为特征选取的启发式信息,并且通过实验验证该算法的有效性。最后,将该算法应用到客户满意度特征选取中,对于识别和保留客户具有重要现实意义。  相似文献   

3.
借鉴已有的特征选取方法和粗糙集相关理论,本文提出了一种改进的基于粗糙集理论的特征选择方法,其主要思想是通过构造粒度函数将其应用于特征在分类中的重要性度量和约简,最后通过实验验证了该方法是有效的,并能够显著降低文本特征维数,提高分类的效率和精度。  相似文献   

4.
知识约简的一种启发式算法   总被引:345,自引:1,他引:345  
知识约简是Rough Set理论研究中的核心内容之一,现已证明了寻找决策表的最小约简是NP-hard问题,文中首先从信息的角度,对决策表中属性的重要性给出度量;在此基础上,提出了一种基于互信息的知识相对约简的启发式算法,并指出算法的复杂性是多项式的;最后,通过  相似文献   

5.
基于粗糙集理论的数据挖掘算法研究   总被引:13,自引:1,他引:12  
本文提出一种基于粗糙集理论的数据挖掘模型,从实际数据出发,运用不同简化层次的算法,导出每个层次上的信息集,最后得到规则集,在进行推理和决策分析时,按照一定算法进行匹配得出结论。还给出了模拟例子说明如何建立和运用这种数据挖掘模型。  相似文献   

6.
在数据分析中,特征选择是能够保留信息的数据约简的一个有效方法。粗糙集理论提供了一种发现所有可能的特征子集的数学工具。提出了一种新的基于粗糙集的启发函数叫做加权平均支持启发函数。该方法的优点是它考虑了可能性规则集的整体质量。也就是说,对所有的决策类,它考虑了规则的加权平均支持度。最后,实例表明该方法是有效的。  相似文献   

7.
一种新的启发式知识约简算法   总被引:3,自引:0,他引:3  
知识约简是Rough Set理论研究的重要内容.通过分辨矩阵定义了简化分辨函数,然后针对此分辨函数构造了两种操作以及定义了覆盖、最小覆盖等概念,并基于这种操作、概念和相关原理将决策系统的约简问题转化为寻求简化分辨函数最小覆盖的问题;面向最小属性约简定义了基于简化分辨函数的属性重要度,并以此为启发信息,结合已导出的有关最小覆盖的定理构造了一种新的知识约简算法--算法SDFAR.文中,在理论上详细证明了提出算法的完备性并给出了算法的复杂性分析,说明其高效性,对寻找最小约简是相对有效的,这在最后的实验中也得到了验证.  相似文献   

8.
王莎莎  刘辉  方国华  马驰 《计算机应用》2007,27(5):1201-1203
通过研究粗糙集理论中基于可辨识矩阵的属性约简算法,提出了一种适用于案例故障特征优化的属性启发式约简算法。该算法综合考虑了决定故障特征重要性的三个要素,并以通信装备故障案例特征优化为例,验证了该算法的有效性。  相似文献   

9.
约简的一种启发式算法   总被引:4,自引:0,他引:4  
本文揭示了约简在数量上的蕴涵的一个重要性质,由此给出又一种属性重要性的定义及相应的启发式算法,并对算法进行了详细的分析。文章最后还类似地讨论了相对约简。  相似文献   

10.
一种分布式数据分布的启发式算法   总被引:3,自引:0,他引:3  
本文提出了一种分布式数据数据分布模型的启发式算法,采用按组局部优化逐次迭代的方法明显降低了算法的时间复杂度,且达到了较高的精度。  相似文献   

11.
本文在基于粗糙集理论的最小差异表MDL上,使用增量方式构造了与MDL相类似的简单差异矩阵SDM,以SDM近似约简集为起点对属性子集空间进行前向搜索,提出了一种基于粗糙集的混合特征选择算法。该算法大大提高了特征选择的效率和准确性,适用于数据挖掘的预处理过程。  相似文献   

12.
模糊粗糙集由于能够处理实数值数据,甚至是混合值数据中的不确定性受到人们的广泛关注,其最重要的应用之一是特征选择,相关的特征选择方法已有不少研究,但其快速的特征选择算法研究很少。实际中的数据一般含有噪声点或信息含量低的样例,如果对数据集先筛选出代表样例,再对筛选的样例集进行数据挖掘便会降低挖掘计算量。本文基于模糊粗糙集,先根据样例的模糊下近似值对样例进行筛选,然后利用筛选样例的模糊粗糙信息熵构造特征选择的评估度量,并给出相应的特征选择算法,从而降低了算法的计算复杂度。数值试验表明该快速算法具有有效性,并且对控制筛选样例个数的参数给出了建议。  相似文献   

13.
王希雷 《微机发展》2007,17(6):26-28
车牌首位汉字特征提取和识别是一个难点。传统的车牌汉字的特征提取方法是在具有先验知识的情况下进行的,先验知识的好坏对结果有着非常重要的影响。Rough集,理论上可以从数据集中直接提取特征,不依靠先验知识。先用Rough集理论提取待识别汉字的特征,再用这些特征进行模板匹配。实验结果表明该方法有比较好的识别效果。  相似文献   

14.
车牌首位汉字特征提取和识别是一个难点。传统的车牌汉字的特征提取方法是在具有先验知识的情况下进行的,先验知识的好坏对结果有着非常重要的影响。Rough集,理论上可以从数据集中直接提取特征,不依靠先验知识。先用Rough集理论提取待识别汉字的特征,再用这些特征进行模板匹配。实验结果表明该方法有比较好的识别效果。  相似文献   

15.
Using Rough Sets with Heuristics for Feature Selection   总被引:32,自引:0,他引:32  
Practical machine learning algorithms are known to degrade in performance (prediction accuracy) when faced with many features (sometimes attribute is used instead of feature) that are not necessary for rule discovery. To cope with this problem, many methods for selecting a subset of features have been proposed. Among such methods, the filter approach that selects a feature subset using a preprocessing step, and the wrapper approach that selects an optimal feature subset from the space of possible subsets of features using the induction algorithm itself as a part of the evaluation function, are two typical ones. Although the filter approach is a faster one, it has some blindness and the performance of induction is not considered. On the other hand, the optimal feature subsets can be obtained by using the wrapper approach, but it is not easy to use because of the complexity of time and space. In this paper, we propose an algorithm which is using rough set theory with greedy heuristics for feature selection. Selecting features is similar to the filter approach, but the evaluation criterion is related to the performance of induction. That is, we select the features that do not damage the performance of induction.  相似文献   

16.
基于邻域粗糙集的多标记分类特征选择算法   总被引:4,自引:0,他引:4  
多标记学习是一类复杂的决策任务,同一个对象可能同时属于多个类别.此类任务在文本分类、图像识别、基因功能分析等领域广泛存在.多标记分类任务往往由高维特征描述,存在大量无关和冗余的信息.目前已经提出了大量的单标记特征选择算法以应对维数灾难问题,但对于多标记的属性约简和特征选择却鲜有研究.将粗糙集应用于多标记数据的特征选择中,针对多标记分类任务,重新定义了邻域粗糙集的下近似和依赖度计算方法,探讨了这一模型的性质,进而构造了基于邻域粗糙集的多标记分类任务的特征选择算法,并给出了在公开数据上的实验结果.实验分析证明算法的有效性.  相似文献   

17.
在多标记学习中,数据降维是一项重要且具有挑战性的任务,而特征选择又是一种高效的数据降维技术。在邻域粗糙集理论的基础上提出一种多标记专属特征选择方法,该方法从理论上确保了所得到的专属特征与相应标记具有较强的相关性,进而改善了约简效果。首先,该方法运用粗糙集理论的约简算法来减少冗余属性,在保持分类能力不变的情况下获得标记的专属特征;然后,在邻域精确度和邻域粗糙度概念的基础上,重新定义了基于邻域粗糙集的依赖度与重要度的计算方法,探讨了该模型的相关性质;最后,构建了一种基于邻域粗糙集的多标记专属特征选择模型,实现了多标记分类任务的特征选择算法。在多个公开的数据集上进行仿真实验,结果表明了该算法是有效的。  相似文献   

18.
针对冗余属性和不相关属性过多对肺部肿瘤诊断的影响以及Pawlak粗糙集只适合处理离散变量而导致原始信息大量丢失的问题,提出混合信息增益和邻域粗糙集的肺部肿瘤高维特征选择算法(Information gain-neighborhood rough set-support vector machine,IG-NRS-SVM)。该算法首先提取3 000例肺部肿瘤CT图像的104维特征构造决策信息表,借助信息增益结果选出高相关的特征子集,再通过邻域粗糙集剔除高冗余的属性,通过两次属性约简得到最优的特征子集,最后采用网格寻优算法优化的支持向量机构建分类识别模型进行肺部肿瘤良恶性的鉴别。从约简和分类识别两个角度验证方法的可行性与有效性,并与不约简算法、Pawlak粗糙集、信息增益和邻域粗糙集约简算法进行对比。结果表明混合算法精确度优于其他对比算法,精确度达到96.17%,并且有效降低了时间复杂度,对肺部肿瘤计算机辅助诊断具有一定的参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号