首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 171 毫秒
1.
针对特征选择中存在数据缺乏类别信息的问题,提出一种新型的基于改进ReliefF的无监督特征选择方法UFS-IR.由于ReliefF类算法存在小类样本抽样概率低、无法删除冗余特征的缺陷,该方法以DBSCAN聚类算法指导分类,通过改进抽样策略,使用调整的余弦相似度度量特征间的相关性作为去冗余的凭据.实验表明UFS-IR可以有效缩减数据维度的同时保证特征子集的最大相关最小冗余性,具有很好的性能.  相似文献   

2.
为了解决ReliefF算法随机抽样会抽取到不具代表性的样本且未考虑特征间相关性的问题,提出基于冗余性分析的ReliefF特征选择算法。首先改进ReliefF的抽样策略,其次将特征权重序列划分为几个子集,分别利用最大信息系数及Pearson系数共同衡量特征相关性,设置相应采样比例剔除冗余特征。将改进算法与其他特征选择算法进行对比,结果表明相较于传统ReliefF,在LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机器学习)上的分类准确率可提升0.63%~12.10%,在SVM(Support Vector Machine,支持向量机)上的分类准确率可提升0.92%~9.06%,改进算法的分类准确率明显优于其他几种特征选择算法,在考虑特征与标签相关性的同时,能有效剔除冗余信息。  相似文献   

3.
妊娠期肝内胆汁淤积症(ICP)是妊娠期严重危害母婴的并发症,原始的ICP数据集中含有大量的生物标志物信息,特征间通常会存在相关性,且不同妊娠结局间的人数差异较大.论文针对ICP数据集的高冗余和非平衡性,提出了一种新的特征选择算法—SC-ReliefF.SC-ReliefF算法在ReliefF的基础上,根据类内平均距离提出了新的样本选择方法,能很好地适应非平衡数据的特点;同时为了减少特征冗余,SC-ReliefF算法引入余弦相似度,将其作为特征冗余度的度量方式,提出一种去冗余方法,能够得到更小的特征子集.在医院提供的临床数据实验表明,SC-ReliefF算法与ReliefF、mRMR和RS-ReliefF相比得到的ICP特征子集规模较小,且在SVM和BP-NN上具有较好的分类效果,能够提升学习的效率.  相似文献   

4.
大数据时代,数据的共享与挖掘存在隐私泄露的安全隐患。针对使用K-匿名隐藏实现隐私保护会大幅降低数据分类挖掘性能问题,提出一种基于随机森林特征重要性的K-匿名特征选择算法(RFKA)用于分类挖掘。使用随机森林特征重要性度量特征的分类性能;采用前向序列搜索策略每次选择不破坏K-匿名且分类性能最大的特征加入特征子集;使用特征子集对应的数据集构建模型进行分类实验。实验结果表明,该算法能更有效地平衡K-匿名和分类挖掘性能,且算法运行效率更高。  相似文献   

5.
葛倩  张光斌  张小凤 《计算机应用》2022,42(10):3046-3053
为解决特征选择ReliefF算法在利用欧氏距离选取近邻样本过程中,算法稳定性差以及选取的特征子集分类准确率低的问题,提出了一种利用最大信息系数(MIC)作为近邻样本选择标准的MICReliefF算法;同时,以支持向量机(SVM)模型的分类准确率作为评价指标,并多次寻优,以自动确定其最优特征子集,从而实现MICReliefF算法与分类模型的交互优化,即MICReliefF-SVM自动特征选择算法。在多个UCI公开数据集上对MICReliefF-SVM算法的性能进行了验证。实验结果表明,MICReliefF-SVM自动特征选择算法不仅可以筛除更多的冗余特征,而且可以选择出具有良好稳定性和泛化能力的特征子集。与随机森林(RF)、最大相关最小冗余(mRMR)、相关性特征选择(CFS)等经典的特征选择算法相比,MICReliefF-SVM算法具有更高的分类准确率。  相似文献   

6.
针对高维小样本的DNA微阵列数据多分类问题,提出一种基于ReliefF和蚁群算法的特征基因选择方法(ReliefF and Ant Colony Optimization, ReFACO)。该方法首先采用ReliefF算法评估特征权重,根据阈值筛选出无关基因;然后引入改进的蚁群算法,在迭代改进的过程中寻找最优基因子集;最后利用经典分类算法对维数约简后的数据分类识别。经实验证明,该方法可以有效地剔除无关和冗余基因,并利用较少特征基因达到较高多分类效果。  相似文献   

7.
传感器网络中多种数据故障会同时出现,为了同时检测出多种数据故障,使用多标签分类模型对传感器网络数据故障的检测过程进行建模.为了提高多标签分类器对数据故障的检测性能,提出了一种基于多标签ReliefF和遗传算法的特征选择算法.该方法将ReliefF扩展成可以对特征子集进行评估的多标签ReliefF,特征选择过程首先使用遗传算法搜索特征子集,然后使用多标签ReliefF对特征子集进行评估.在三个多标签分类器上的实验结果表明,提出的特征选择算法可以显著地提升多标签分类器对传感器网络数据故障的检测性能.  相似文献   

8.
针对现有欠采样处理算法中存在样本缺少代表性、分类性能差等问题,提出了一种基于聚类欠采样的加权随机森林算法(weighted random forest algorithm based on clustering under-sampling,CUS-WRF)。利用K-means算法对多数类样本聚类,引入欧氏距离作为欠采样时分配样本个数的权重依据,使采样后的多数类样本与少数类样本形成一个平衡的样本集,以CART决策树为基分类器,加权随机森林为整体框架,同时将测试样本的准确率作为每棵树的权值来完成对结果的最终投票,有效提高了整体分类性能。选择八组KEEL数据集进行实验,结果表明,与其余四种基于随机森林的不平衡数据处理算法相比,CUS-WRF算法的分类性能及稳定性更具优势。  相似文献   

9.
针对高维度小样本数据在特征选择时出现的维数灾难和过拟合的问题,提出一种混合Filter模式与Wrapper模式的特征选择方法(ReFS-AGA)。该方法结合ReliefF算法和归一化互信息,评估特征的相关性并快速筛选重要特征;采用改进的自适应遗传算法,引入最优策略平衡特征多样性,同时以最小化特征数和最大化分类精度为目标,选择特征数作为调节项设计新的评价函数,在迭代进化过程中高效获得最优特征子集。在基因表达数据上利用不同分类算法对简化后的特征子集分类识别,实验结果表明,该方法有效消除了不相关特征,提高了特征选择的效率,与ReliefF算法和二阶段特征选择算法mRMR-GA相比,在取得最小特征子集维度的同时平均分类准确率分别提高了11.18个百分点和4.04个百分点。  相似文献   

10.
针对蜜罐中数据分析系统的薄弱性,提出了基于PCA和改进的ReliefF方法的告警日志分析系统。通过主成分分析,去除特征之间的冗余性,能够有效降低算法的复杂性,再利用改进的ReliefF算法,选择出最能代表样本的特征,构成有效特征子集,实现特征的降维。该方法能够在保证较高分类精度的同时,显著提高分类速度,并在一定程度上实现了数据分析的智能化和自动化,实验结果表明了其正确性。  相似文献   

11.
大数据的类别不平衡与维度爆炸问题严重影响着算法的预测效率和分类精度。因此,提出了一种基于插值与特征压缩的大数据分类方法ASE-RFXT。改进ADASYN(adaptive synthetic sampling approach)的插值中心,减少了噪声的引入,改善了少数类样本的分布。改进ReliefF(特征权重法),并将它与集成算法XGDT(extreme gradient dart tree)结合对特征进行并行加权,减少了权重受异常值的影响,使得评估更加准确。利用特征之间的相关性过滤低权重冗余特征,以XGDT的分类精度为评价指标通过SFS(sequential forward selection)压缩特征。实验结果表明ASE-RFXT方法可以降低特征维度,节约训练时间,提高不平衡小样本数据的分类精度。  相似文献   

12.
传统的分类算法大都默认所有类别的分类代价一致,导致样本数据非均衡时产生分类性能急剧下降的问题.对于非均衡数据分类问题,结合神经网络与降噪自编码器,提出一种改进的神经网络实现非均衡数据分类算法,在神经网络模型输入层与隐层之间加入一层特征受损层,致使部分冗余特征值丢失,降低数据集的不平衡度,训练模型得到最优参数后进行特征分类得到结果.选取UCI标准数据集的3组非均衡数据集进行实验,结果表明采用该算法对小数据集的分类精度有明显改善,但是数据集较大时,分类效果低于某些分类器.该算法的整体分类效果要优于其他分类器.  相似文献   

13.
针对直升机系统与传递路径复杂,采集信号中成分多样,传统方式提取的特征难以有效反映信号健康状态,影响滚动轴承诊断精度等问题,在传统时域指标的基础上,结合多尺度空间对特征空间重叠和信号跨尺度复杂性问题上的优势,构建多尺度指标作为故障分类的依据。根据ReliefF算法对原始高维多尺度特征迭代计算得到权重,利用权重值进行特征选择,同时减轻计算成本。权重最大的一部分特征将作为随机森林模型的输入,利用其多分类器集成学习的优势,进行滚动轴承故障分类诊断。通过滚动轴承公开数据集来说明所提方法的优势和可行性。数据处理结果表明,多尺度特征较原始时域特征具有更好的分类性能,并且随机森林在该算法中较其他分类模型分类效果更好。  相似文献   

14.
黄莉莉  汤进  孙登第  罗斌 《计算机应用》2012,32(10):2888-2890
针对传统特征选择算法局限于单标签数据问题,提出一种多标签数据特征选择算法——多标签ReliefF算法。该算法依据多标签数据类别的共现性,假设样本各类标签的贡献值是相等的,结合三种贡献值计算方法,改进特征权值更新公式,最终获得有效的分类特征。分类实验结果表明,在特征维数相同的情况下,多标签ReliefF算法的分类正确率明显高于传统特征选择算法。  相似文献   

15.
随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降低计算开销和去除冗余特征,以提高机器学习模型的性能,并保留了数据的原始特征,具有良好的可解释性。特征选择已经成为机器学习领域中重要的数据预处理步骤之一。粗糙集理论是一种可用于特征选择的有效方法,它可以通过去除冗余信息来保留原始特征的特性。然而,由于计算所有的特征子集组合的开销较大,传统的基于粗糙集的特征选择方法很难找到全局最优的特征子集。针对上述问题,文中提出了一种基于粗糙集和改进鲸鱼优化算法的特征选择方法。为避免鲸鱼算法陷入局部优化,文中提出了种群优化和扰动策略的改进鲸鱼算法。该算法首先随机初始化一系列特征子集,然后用基于粗糙集属性依赖度的目标函数来评价各子集的优劣,最后使用改进鲸鱼优化算法,通过不断迭代找到可接受的近似最优特征子集。在UCI数据集上的实验结果表明,当以支持向量机为评价所用的分类器时,文中提出的算法能找到具有较少信息损失的特征子集,且具有较高的分类精度。因此,所提算法在特征选择方面具有一定的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号