首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
一种基于粗糙集启发式的特征选择算法   总被引:1,自引:0,他引:1  
梁琰  何中市 《计算机科学》2007,34(6):162-165
本文基于粗糙集中关于非精确集和精确集理论思想,提出了一个新的特征度量指标,即相对互信息比RMI,由此,设计了一种基于粗糙集的启发式特征选择算法MRMI-UC。首先利用可辨识矩阵,计算出条件属性相对于决策属性的核,以核形成当前候选特征子集作为基准点,以最大化相对互信息和不确定性系数为原则,筛选剩余特征。通过对比实验,结果表明,本文提出的算法在多数情况下能够得到较优的特征子集,算法是有效的,切实可行的。  相似文献   

2.
粗糙集理论作为一种处理不精确和不一致数据的数学工具被广泛应用于特征子集选择和属性约简中。在大多数现存的算法中,属性依赖度被用来度量特征子集的重要性,而依赖度在处理不一致信息系统时会出现找不到任何特征子集的问题。文中讨论了使用属性依赖性作为度量的缺点和不足,引入一种一致性度量,分析了其和依赖性之间的关系,重新定义了信息系统的多余属性和约简的概念,并构造了基于一致性度量的前向贪婪搜索算法。通过UCI数据集合验证了算法能够有效地处理不一致信息系统。  相似文献   

3.
粗糙集理论作为一种处理不精确和不一致数据的数学工具被广泛应用于特征子集选择和属性约简中.在大多数现存的算法中,属性依赖度被用来度量特征子集的重要性,而依赖度在处理不一致信息系统时会出现找不到任何特征子集的问题.文中讨论了使用属性依赖性作为度量的缺点和不足,引入一种一致性度量,分析了其和依赖性之间的关系,重新定义了信息系统的多余属性和约简的概念,并构造了基于一致性度量的前向贪婪搜索算法.通过UCI数据集合验证了算法能够有效地处理不一致信息系统.  相似文献   

4.
提出了一种新的面向高维数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用基于边界点的可分性度量作为评价指标及适应度。实验结果表明,该算法可有效地找出具有较好的可分离性的特征子集,从而实现降维并提高分类 精度。  相似文献   

5.
特征选择是数据挖掘、机器学习和模式识别中始终面临的一个重要问题。针对类和特征分布不均时,传统信息增益在特征选择中存在的选择偏好问题,本文提出了一种基于信息增益率与随机森林的特征选择算法。该算法结合Filter和Wrapper模式的优点,首先从信息相关性和分类能力两个方面对特征进行综合度量,然后采用序列前向选择(Sequential Forward Selection, SFS)策略对特征进行选择,并以分类精度作为评价指标对特征子集进行度量,从而获取最优特征子集。实验结果表明,本文算法不仅能够达到特征空间降维的效果,而且能够有效提高分类算法的分类性能和查全率。  相似文献   

6.
深入研究大间隔从样本间相似性、信息熵从特征间相关性进行特征选择的特点,提出一种有效地融合这两类方法的特征选择算法。采用Relief算法得到一个有效的特征排序,进而将其划分为若干区段。设置各区段的采样率,以对称不确定性作为启发因子获得每个局部随机子空间的特征子集。将获得的所有特征子集作为最终的特征选择结果。实验结果表明该方法优于一些常用的特征选择算法。  相似文献   

7.
针对离散值数据集特征选择问题,提出基于相对分类信息熵的进化特征选择算法.使用遗传算法搜索最优特征子集,使用相对分类信息熵度量特征子集的重要性.以相对分类信息熵作为适应度函数,使用二进制编码问题的解,使用赌轮方法选择产生下一代个体.实验表明文中算法在测试精度上优于其它方法,此外还从理论上证明文中算法的可行性.  相似文献   

8.
模糊粗糙神经网络特征选择方法研究   总被引:1,自引:0,他引:1  
实际采集的数据中往往存在模糊不确定性和粗糙不确定性,为全面度量数据的不确定性,引入了模糊粗糙集中的模糊粗糙隶属函数概念,并结合容错能力较强的神经网络设计了一种新的模糊粗糙神经网络.该网络不仅训练速度快,且具有较好的分类效果.利用该网络设计了一种新的特征选择算法,根据精度下降指标对输入节点进行结构修剪,实现最优特征子集的搜索.通过UCI数据集实验,并与RBF网络选择结果进行比较,表明该算法具有精度高、速度快、泛化性能好等优点,是有效的.  相似文献   

9.
杨震宇  叶军  季雨瑄  敖家欣  王磊 《计算机应用研究》2022,39(4):1118-1123+1131
目前已有蚁群算法优化的特征选择方法,大多采用的是以属性依赖度和信息熵属性重要度作为路径上启发搜索因子,但这类搜索方法在某些决策表中存在算法早熟或搜索到的特征子集包含了冗余特征,从而导致选择精度显著下降。针对此类问题,根据条件属性在分辨矩阵中的占比提出了一种属性重要度的度量方法,以分辨矩阵重要度作为路径上启发因子,设计了一种基于分辨矩阵与蚁群算法优化的特征子集搜索方法。该算法从特征核出发,蚁群依次选择概率大的特征加入特征核集,直至找到最小特征子集算法终止。通过实例验证和UCI数据集实验结果表明,与基于属性依赖度和信息熵属性重要度的特征选择方法相比,在通常情况下,该算法能较小代价找到最小特征子集,并且可以有效减少计算工作量。  相似文献   

10.
《电子技术应用》2018,(1):84-87
利用网络流量的统计特征进行流量的分类识别需要从众多的特征中选取最优特征集合,以避免冗余和不相关特征造成的系统模型复杂度过高、分类准确率和效率下降等问题。针对该问题,提出一种基于统计排序的网络流量特征选择方法。首先利用基于统计方法定义的特征选择系数生成初始特征子集,再将基于分类准确率构建的特征影响系数作为特征评估排序的依据,对初始特征子集进行二次特征选择,生成最优特征子集。实验结果表明,该方法在保证分类整体准确率的同时有效减少了流量统计特征的个数,在分类效果、效率以及稳定性之间实现了较好的平衡。  相似文献   

11.
针对网络流量分类中的多类不均衡问题,提出一种基于相对不确定性和对称不确定性的Hybrid型特征选择方法。首先,利用相对不确定性为每个类选择候选特征集;然后,保留每个候选特征集中对称不确定性较高的特征并去除其它特征;最后,利用基于C4.5决策树的Wrapper型特征选择方法确定最优特征子集。在真实网络流量数据集上的实验结果表明,与传统方法相比,该方法具有较高的整体准确率、小类召回率和g-mean值,从而可以减轻多类不均衡问题带来的不良影响。  相似文献   

12.
目前特征选择方法中常用的特征相关性测度可有效评估两个特征之间的相关性,但却将特征孤立看待,没有考虑其它特征对它们相关性的影响。文中在整体考虑特征之间关系的前提下,提出用稀疏表示系数评估特征的相关性,它与现有特征相关性测度的不同之处在于可揭示特征在其它所有特征影响下与目标的相关性,反映特征间的相互影响。为验证稀疏表示系数评估特征相关性的有效性,在典型的高维小样本数据上,比较了Relief F方法及分别以稀疏表示系数、对称不确定性和皮尔森相关系数为相关性测度的特征选择方法选择的特征集的分类能力。实验结果表明文中方法选择的特征集的分类能力高且较稳定。  相似文献   

13.
Feature Subset Selection within a Simulated Annealing Data Mining Algorithm   总被引:2,自引:0,他引:2  
An overview of the principle feature subset selection methods isgiven. We investigate a number of measures of feature subset quality, usinglarge commercial databases. We develop an entropic measure, based upon theinformation gain approach used within ID3 and C4.5 to build trees, which isshown to give the best performance over our databases. This measure is usedwithin a simple feature subset selection algorithm and the technique is usedto generate subsets of high quality features from the databases. A simulatedannealing based data mining technique is presented and applied to thedatabases. The performance using all features is compared to that achievedusing the subset selected by our algorithm. We show that a substantialreduction in the number of features may be achieved together with animprovement in the performance of our data mining system. We also present amodification of the data mining algorithm, which allows it to simultaneouslysearch for promising feature subsets and high quality rules. The effect ofvarying the generality level of the desired pattern is alsoinvestigated.  相似文献   

14.
谢娟英  吴肇中 《软件学报》2022,33(4):1338-1353
针对基于信息增益与皮尔森相关系数的特征选择算法FSIP(feature selection based on information gain and Pearson correlation coefficient)存在的特征子集选取需要人工参与的问题,提出基于可辨识矩阵的完全自适应2D特征选择算法DFSIP(disc...  相似文献   

15.
With the explosion of multimedia data, it is usual that different multimedia data often coexist in web repositories. Accordingly, it is more and more important to explore underlying intricate cross-media correlation instead of single-modality distance measure so as to improve multimedia semantics understanding. Cross-media distance metric learning focuses on correlation measure between multimedia data of different modalities. However, the existence of content heterogeneity and semantic gap makes it very challenging to measure cross-media distance. In this paper, we propose a novel cross-media distance metric learning framework based on sparse feature selection and multi-view matching. First, we employ sparse feature selection to select a subset of relevant features and remove redundant features for high-dimensional image features and audio features. Secondly, we maximize the canonical coefficient during image-audio feature dimension reduction for cross-media correlation mining. Thirdly, we further construct a Multi-modal Semantic Graph to find embedded manifold cross-media correlation. Moreover, we fuse the canonical correlation and the manifold information into multi-view matching which harmonizes different correlations with an iteration process and build Cross-media Semantic Space for cross-media distance measure. The experiments are conducted on image-audio dataset for cross-media retrieval. Experiment results are encouraging and show that the performance of our approach is effective.  相似文献   

16.
《Applied Soft Computing》2007,7(3):1135-1143
Relations and relation matrices are important concepts in set theory and intelligent computation. Some general uncertainty measures for fuzzy relations are proposed by generalizing Shannon's information entropy. Then, the proposed measures are used to calculate the diversity quantity of multiple classifier systems and the granularity of granulated problem spaces, respectively. As a diversity measure, it is shown that the fusion system whose classifiers are of little similarity produces a great uncertainty quantity, which means that much complementary information is achieved with a diverse multiple classifier system. In granular computing, a “coarse–fine” order is introduced for a family of problem spaces with the proposed granularity measures. The problem space that is finely granulated will get a great uncertainty quantity compared with the coarse problem space. Based on the observation, we employ the proposed measure to evaluate the significance of numerical attributes for classification. Each numerical attribute generates a fuzzy similarity relation over the sample space. We compute the condition entropy of a numerical attribute or a set of numerical attribute relative to the decision, where the greater the condition entropy is, the less important the attribute subset is. A forward greedy search algorithm for numerical feature selection is constructed with the proposed measure. Experimental results show that the proposed method presents an efficient and effective solution for numerical feature analysis.  相似文献   

17.
Feature subset selection is a substantial problem in the field of data classification tasks. The purpose of feature subset selection is a mechanism to find efficient subset retrieved from original datasets to increase both efficiency and accuracy rate and reduce the costs of data classification. Working on high-dimensional datasets with a very large number of predictive attributes while the number of instances is presented in a low volume needs to be employed techniques to select an optimal feature subset. In this paper, a hybrid method is proposed for efficient subset selection in high-dimensional datasets. The proposed algorithm runs filter-wrapper algorithms in two phases. The symmetrical uncertainty (SU) criterion is exploited to weight features in filter phase for discriminating the classes. In wrapper phase, both FICA (fuzzy imperialist competitive algorithm) and IWSSr (Incremental Wrapper Subset Selection with replacement) in weighted feature space are executed to find relevant attributes. The new scheme is successfully applied on 10 standard high-dimensional datasets, especially within the field of biosciences and medicine, where the number of features compared to the number of samples is large, inducing a severe curse of dimensionality problem. The comparison between the results of our method and other algorithms confirms that our method has the most accuracy rate and it is also able to achieve to the efficient compact subset.  相似文献   

18.
基于特征相关性的特征选择   总被引:4,自引:1,他引:3       下载免费PDF全文
提出了一种基于特征相关性的特征选择方法。该方法以特征之间相互依赖程度(相关度)为聚类依据先对特征进行聚类,再从各特征簇中挑选出具有代表性的特征,然后在被选择出来的特征中删除与目标特征无关或是弱相关的特征,最后留下的特征作为最终的特征子集。理论分析表明该方法的运算效率高,时间复杂度低,适合于大规模数据集中的特征选择。在UCI数据集上与文献中的经典方法进行实验比较和分析,结果显示提出的特征选择方法在特征约减和分类等方面具有更好的性能。  相似文献   

19.
在三角形隶属度函数的基础上,研究了基于模糊值的最优特征子集选取算法的不同相似性度量公式得出的类间交叠度、选取的特征子集以及该特征子集用于分类的准确性之间的关系,找到了比较适合于基于模糊值的最优特征子集选取算法的相似性度量公式.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号