首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
葛倩  张光斌  张小凤 《计算机应用》2022,42(10):3046-3053
为解决特征选择ReliefF算法在利用欧氏距离选取近邻样本过程中,算法稳定性差以及选取的特征子集分类准确率低的问题,提出了一种利用最大信息系数(MIC)作为近邻样本选择标准的MICReliefF算法;同时,以支持向量机(SVM)模型的分类准确率作为评价指标,并多次寻优,以自动确定其最优特征子集,从而实现MICReliefF算法与分类模型的交互优化,即MICReliefF-SVM自动特征选择算法。在多个UCI公开数据集上对MICReliefF-SVM算法的性能进行了验证。实验结果表明,MICReliefF-SVM自动特征选择算法不仅可以筛除更多的冗余特征,而且可以选择出具有良好稳定性和泛化能力的特征子集。与随机森林(RF)、最大相关最小冗余(mRMR)、相关性特征选择(CFS)等经典的特征选择算法相比,MICReliefF-SVM算法具有更高的分类准确率。  相似文献   

2.
特征选择就是从特征集合中选择出与分类类别相关性强而特征之间冗余性最小的特征子集,这样一方面可以提高分类器的计算效率,另一方面可以提高分类器的泛化能力,进而提高分类精度。基于互信息的特征相关性和冗余性的评价准则,在实际应用中存在以下的问题:(1)变量的概率计算困难,进而影响特征的信息熵计算困难;(2)互信息倾向于选择值较多的特征;(3)基于累积加和的候选特征与特征子集之间冗余性度量准则在特征维数较高的情况下容易失效。为了解决上述问题,提出了基于归一化模糊互信息最大的特征评价准则,基于模糊等价关系计算变量的信息熵、条件熵、联合熵;利用联合互信息最大替换累积加和的度量方法;基于归一化联合互信息对特征重要性进行评价;基于该准则建立了基于前向贪婪搜索的特征选择算法。在UCI机器学习标准数据集上的多组实验,证明算法能够有效地选择出对分类类别有效的特征子集,能够明显提高分类精度。  相似文献   

3.
电力电缆早期故障严重威胁用电安全且难以准确识别,在基于特征提取与特征选择的识别方法中,一旦不能准确获得关键特征信息会直接导致识别精度下降。鉴于此,提出一种基于S变换特征提取和最大相关最小冗余(mRMR)特征选择的电缆早期故障识别方法。对故障相电流进行S变换,提取一些具有相关性、冗余性的统计量、熵和能量等构成初始特征集;采用mRMR选择出具有最佳分类效果的特征子集;利用带核函数的SVM分类器对多种电缆故障进行识别。仿真结果表明,在不同噪声环境下该方法在识别精度和鲁棒性方面都优于同类算法。  相似文献   

4.
为了解决基因数据集的基因选择难题,提出一种基于K-S检验与最小冗余最大相关(Minimum Redundancy-Maximum Relevance,mRMR)原则的基因选择算法。该算法先采用K-S检验选择出具有一定区分能力的基因,然后对选择到的基因进行mRMR判断,保留与类别高度相关而其间相关性较小的基因构成最终被选基因子集。以SVM为分类器,以F1_measure、分类准确率和AUC为评价指标对本文算法选择的基因子集进行评估,并将本文算法与K-S检验、mRMR,以及经典的RELIEF和FAST算法进行比较。5个经典基因数据集上的平均实验结果揭示:本文算法的运行时间远低于mRMR算法,且其各项评价指标值优于其他比较算法。因此,本文提出的K-S检验与mRMR结合的基因选择算法能选择到非常有效的基因子集。  相似文献   

5.
基于信噪比与邻域粗糙集的特征基因选择方法   总被引:3,自引:3,他引:0  
鉴于传统基因选择方 法会选出大量冗余基因从而导致样本预测准确率较低,提出了一种基于信噪比与邻域粗糙集 的特征基因选择方法(Signal noise ration and the neighborhood rough set, SNRS) 。 首先采用信噪比指标获得分类能力较强的预选特征子集;然后利用邻域粗糙集约简算法 对预选特征子集进行寻优;最后采用不同的分类器对特征基因子集进行分类。通过实验表 明,该方法能够克服传统分类算法精度不高的缺陷,并且能够在较少的特征基因下取得较高 的分类精度,验证了该方法的可行性和有效性。  相似文献   

6.
一种文本特征选择方法的研究   总被引:2,自引:2,他引:0  
在文本分类中,对高维的特征集进行降维是非常重要的,不但可以提高分类精度和效率,也可以找出富含信息的特征子集.而特征选择是有效降低特征向量维数的一种方法.目前常用的一些特征选择算法仅仅考虑了特征词与类别间的相关性,而忽略了特征词与特征词之间的相关性,从而存在特征冗余,影响了分类效果.为此,在分析了常用的一些特征选择算法之后,提出了一种基于mRMR模型的特征选择方法.实验表明,该特征选择方法有助于提高分类性能.  相似文献   

7.
针对Relief F算法局限于单标签数据问题,提出两种多标签特征选择算法Mult-Relief F和M-A算法。Mult-Relief F算法重新定义了类内最近邻和类外最近邻的查找方法,并加入标签的贡献值更新特征权重公式。MA算法在Mult-Relief F算法的基础下,利用邻域能去除冗余的特性,更多地去除冗余特征达到更好的降维效果。采用ML-KNN分类算法进行实验。在多个数据集上测试表明,Mult-Relief F算法能提高分类效果,M-A算法能获得最小的特征子集。  相似文献   

8.
针对传统K近邻(K-nearest neighbor)方法用于数据分类存在分类精度低的问题,将特征选择与KNN分类方法结合,并利用改进海洋捕食者算法对数据特征进行优化研究。使用领域学习提供丰富邻域位置信息扩大海洋捕食者的搜索范围,引入维度变异机制增加种群多样性避免过早陷入局部最优,利用正余弦扰动算子和跳跃步长控制因子更新捕食者位置,加强全局搜索和局部搜索能力。将特征选择对象作为优化目标,获得所选的最优特征子集。通过对14个经典测试函数优化测试和14组经典数据集的分类研究,在优化性能、平均特征子集数和平均分类精度进行对比研究,实验结果表明所提算法能够有效降低冗余特征干扰,实现特征提纯,在数据挖掘中具有广阔的应用前景。  相似文献   

9.
为提高特征提取方法的文本分类精确度,结合信息增益(IG)和改进的最大相关最小冗余(mRMR),提出一种IG_CDmRMR二阶段文本特征选择方法。通过IG提取与类别相关性较强的特征集合,利用类差分度动态改变mRMR中特征与类别之间的互信息值权重,并筛选最优特征子集,从而得到文本分类结果。实验结果表明,与IG方法、IG_mRMR方法相比,在特征数量相同的情况下,该方法可使准确率提升约2%。  相似文献   

10.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

11.
谢娟英  吴肇中 《软件学报》2022,33(4):1338-1353
针对基于信息增益与皮尔森相关系数的特征选择算法FSIP(feature selection based on information gain and Pearson correlation coefficient)存在的特征子集选取需要人工参与的问题,提出基于可辨识矩阵的完全自适应2D特征选择算法DFSIP(disc...  相似文献   

12.
目前已有蚁群算法优化的特征选择方法,大多采用的是以属性依赖度和信息熵属性重要度作为路径上启发搜索因子,但这类搜索方法在某些决策表中存在算法早熟或搜索到的特征子集包含了冗余特征,从而导致选择精度显著下降。针对此类问题,根据条件属性在分辨矩阵中的占比提出了一种属性重要度的度量方法,以分辨矩阵重要度作为路径上启发因子,设计了一种基于分辨矩阵与蚁群算法优化的特征子集搜索方法。该算法从特征核出发,蚁群依次选择概率大的特征加入特征核集,直至找到最小特征子集算法终止。通过实例验证和UCI数据集实验结果表明,与基于属性依赖度和信息熵属性重要度的特征选择方法相比,在通常情况下,该算法能较小代价找到最小特征子集,并且可以有效减少计算工作量。  相似文献   

13.
样本数据集的不一致性和冗余特征会降低分类的质量和效率。提出了一种一致化特征选择约简方法,该方法基于贝叶斯公式,采用阈值,将非一致数据归为最可能的一类,使数据集一致化。并在一致数据集上,运用类别区分矩阵选择可准确区分各类数据的最小特征变量集。给出的启发式搜索策略和应用实例表明:一致化特征选择约简方法能有效消除分类数据集的不一致性,选择最优的特征变量、降低数据的维数、减少数据集中的冗余信息。  相似文献   

14.
针对在数据挖掘过程中存在的维度灾难和特征冗余问题,本文在传统特征选择方法的基础上结合强化学习中Q学习方法,提出基于强化学习的特征选择算法,智能体Agent通过训练学习后自主决策得到特征子集.实验结果表明,本文提出的算法能有效的减少特征数量并有较高的分类性能.  相似文献   

15.
针对不满足忠实分布的高维数据分类问题,一种新的基于粒子群算法的马尔科夫毯特征选择方法被提出。它通过有效地提取相关特征和剔除冗余特征,能够产生更好的分类结果。在特征预处理阶段,该算法通过最大信息系数衡量标准对特征的相关度和冗余性进行分析得到类属性的马尔科夫毯代表集和次最优特征子集;在搜索评价阶段,采用新的适应度函数通过粒子群算法选出最优特征子集;用此模型对测试集进行预测。实验结果表明,该算法在12个数据集上具有一定的优势。  相似文献   

16.
针对标签排序问题的特点,提出一种面向标签排序数据集的特征选择算法(Label Ranking Based Feature Selection, LRFS)。该算法首先基于邻域粗糙集定义了新的邻域信息测度,能直接度量连续型、离散型以及排序型特征间的相关性、冗余性和关联性。然后,在此基础上提出基于邻域关联权重因子的标签排序特征选择算法。实验结果表明,LRFS算法能够在不降低排序准确率的前提下,有效剔除标签排序数据集中的无关特征或冗余特征。  相似文献   

17.
结合像元形状特征分割的高分辨率影像面向对象分类   总被引:3,自引:0,他引:3  
针对高分辨率遥感影像空间分辨率高,结构形状、纹理、细节信息丰富等特点,提出一种新的融合特征的面向对象影像分类方法来提取城市空间信息。基本过程包含以下4个方面:①提取影像的几何纹理等结构;②融合几何与纹理特征的面向对象影像分割;③提取对象的形状、纹理和光谱特征,并优选最佳特征子集;④最后基于支持向量机(SVM)完成面向对象的影像分类。通过对福州IKONOS影像数据实验,结果表明融入影像特征后的分割效果明显优于原始影像的分割结果,而信息最大化(mRMR)的特征选择能够快速地获得较好的特征子集。通过与eCognition最邻近分类方法比较,表明本文方法的分类总体精度大约提高了6%,效果显著。  相似文献   

18.
基因数据的特点是高维度、小样本、大噪声,在处理过程中容易造成维数灾难和过度拟合等问题。针对这种情况提出一种新的基因数据集的特征选择方法,第一步是通过ReliefF算法对基因特征进行权重重要度的筛选;第二步是对筛选过的特征集合进行mRMR算法判断,留下与目标类别高度相关而其间相关性较小的基因特征;第三步利用邻域粗糙集特征选择算法对简化后的基因数据集进行寻优处理,选出最优化的特征基因子集。为了证明新算法的有效性,以SVM为分类器,使用外部交叉验证法对整个过程来计算,从而验证本文新特征选择方法的有效性。  相似文献   

19.
特征选择旨在从原始特征空间中选择一组规模较小的特征子集,在分类学习任务中提供与原集合近似或更好的性能.文中提出基于信息粒化的多标记特征选择算法,融合标记权重与样本平均间隔,将改进的邻域信息熵应用到特征选择过程中.在6组数据集以及5个评价指标上的实验表明文中算法在分类上的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号