首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
从相关熵的角度出发,提出一种基于相关熵和特征流形学习的稀疏正则化方法,用于解决多标签特征选择问题。在相关熵定义的基础上给出多标签特征选择的回归模型;结合?2, 1范数的性质和特征流形学习的定义建立基于相关熵和特征流形学习的稀疏正则化多标签特征选择模型及算法;证明该算法的收敛性并且通过试验验证所给算法的有效性。  相似文献   

2.
通过互信息的思想提出一个新的评价函数来评价属性之间的相关性,并结合LV算法进行特征子集选择.结果表明,该方法对分类问题效果明显.  相似文献   

3.
针对流形学习存在的对噪声敏感、易受缺失值影响问题以及现实世界数据的结构复杂性和稀疏程序大等问题,提出引入ReliefF特征估计,即应用ReliefF在流形学习中。实验分4种情况进行:一是不使用特征提取方法;二是仅使用ReliefF特征估计方法;三是仅使用有代表性的局部线性嵌入算法;四是使用改进算法。结果表明,改进算法得到的分类准确率分别比单纯使用ReliefF特征估计方法和局部线性算法都要高。  相似文献   

4.
针对现有多标签学习算法较少兼顾标签间关联性和不平衡性的问题,提出一种同时考虑多标签间相关性与多标签不平衡问题的学习模型(A Multi-label Learning Model based on Label Correlation and Imbalance,MLCI).该学习模型针对每个标签类别,通过耦合其他标签类别以考量标签间的关联性,并降低缓解标签间不均衡比率,MLCI是一个将当前标签的二类不平衡学习器和多个与其他标签耦合的多类不平衡学习器结合的集成分类器.采用7种常用的多标签算法作为对比算法,针对yeast、scene、emotions和CAL500这4个开放数据集进行分类处理.实验结果表明,MLCI相比其他对比算法,在精度均值(Average-Precision)、排序损失(Ranking-Loss)、宏观平均AUC(Macro-Averaging AUC)和微观平均AUC(Micro-Averaging AUC) 4个性能评估指标上总体占明显优势.  相似文献   

5.
特征选择是生物信息领域中数据预处理阶段必不可少的步骤。传统特征选择算法忽视了特征之间的依赖相关性和冗余性,因此提出一种联合互信息的特征选择算法(JFRR)。该算法利用互信息计算特征之间的冗余值,并利用联合互信息分别计算已选特征集合、候选特征及类标签之间的相关性。将JFRR与其他6个特征选择算法在2个分类器上,使用9个不同基因数据集,进行分类准确率指标(Precision_micro和F1_micro)验证。实验结果表明,该算法能有效提高分类精度。  相似文献   

6.
针对现有入侵检测算法中特征提取不充分、未考虑特征权重的影响、模型分类不够精确等问题,提出一种基于改进ReliefF算法的入侵检测模型。通过优化入侵数据特征权重计算,提出改进的ReliefF算法;根据计算特征的Pearson相关系数,建立特征相关性量表。只保留其中一个相关性高的特征,以实现特征的二次优化;对最优特征子集分别使用决策树(decision tree,DT)、k-最近邻(k-nearest neighbor, KNN)、随机森林(random forest, RF)、朴素贝叶斯(naive bayes, NB)和支持向量机(support vector machine, SVM)5种分类器评价该方法的分类性能和准确性。在NSL-KDD和UNSW-NB15两个数据集上的试验结果表明,该方法不仅具有较好的检测性能,还能有效降低特征维度,对分类器的计算复杂度有积极的影响。  相似文献   

7.
由于候选特征与类标签间的相关性,候选特征、已选特征与类标签间的交互性以及特征间的冗余性是特征选择算法应考虑的重要因素,而一些基于互信息和三维互信息的特征选择算法没有同时考虑相关性、交互性和冗余性信息,这影响了它们的性能。针对该问题,提出一种采用冗余性动态权重的特征选择算法,将对称不确定性和三路交互信息作为评价指标,采用一种动态更新特征权重的方法使目标函数在考虑相关性、交互性的基础上,同时考虑特征间的冗余性。在10种数据集上利用3种分类器与典型的基于互信息的特征选择算法做了对比实验,结果表明所提算法具有更好的特征选择性能。  相似文献   

8.
为避免负荷预测特征集中冗余特征对预测精度的负面影响,降低预测器复杂度,提出一种基于条件互信息(CMI)和高斯过程回归(GPR)的短期负荷预测特征选择方法.首先,为降低建模所用特征量,根据与目标变量具有最大互信息的特征,选取剩余特征中可对目标变量提供最大信息增益的特征,计算CMI值并进行排序;然后,以GPR为预测器,以其预测结果平均绝对百分比误差为决策变量,按照特征CMI值排序顺序,采用序列前向选择方法,确定最优特征子集;最终,以最优特征子集构建GPR预测模型,并与皮尔逊相关系数法(PCC)和互信息(MI)2种特征选择方法分别结合支持向量机和反向传播神经网络开展对比实验.实验结果证明新方法降低了最优特征集合冗余度与预测模型复杂度,且具有更高的预测精度.  相似文献   

9.
针对多标签AdaBoost系列算法,以尽量减小算法的学习错误率为目的,提出了对其进行改进的两种思路。基于改进思路构造出了改进的多标签AdaBoost算法。一种思路是修改算法的样本分布调整策略,破坏现有AdaBoost算法中样本分布的均匀性,以确保增加每一个弱分类器都能降低学习错误的上界估计,从而实现对多标签AdaBoost算法的改进。另一种思路是训练弱分类器时兼顾后续待学习的弱分类器对学习错误的影响,克服现有算法在训练弱分类器时只考虑当前的弱分类器对学习错误的影响,而完全忽略后续待学习的弱分类器对学习错误的影响这一现象,从而改进多标签AdaBoost算法。理论上,对于改进多标签AdaBoost算法,增加每一个弱分类器都能进一步降低学习错误。理论分析和实验结果均表明了提出的改进算法有改进效果。  相似文献   

10.
为了实现Scratch可视化编程领域的作品分类,提出了一种基于标签关联性的多标签分类算法(MLLR),构建了一个有效的多标签Scratch分类模型.首先提取作品的Block使用特征、计算思维技能特征和复杂度特征3类特征作为分类特征;然后针对RAKEL算法随机选择标签子集,忽略了标签间的关联性,提出了改进的MLLR算法,该方法根据多标签之间的关联性来划分标签子集,再训练相应的标签幂集子分类器.实验结果表明,MLLR算法在分类性能和时间性能上优于RAKEL等多标签分类算法,构建的分类模型对于Scratch作品具有较强的适用性,分类的准确率达到81.3%.  相似文献   

11.
在相关性快速过滤特征选择算法(FCBF)基础上,通过最大相关系数的方式改进FCBF算法.首先,通过最大相关系数和对称不确定性度量准则,计算出每个特征与标签之间的相关度量值,并按照数值大小顺序进行排序;其次,通过最大相关系数和近似马尔可夫毯原理进行无关特征和冗余特征的筛选,最终选择出最优特征子集.在加利福尼亚大学欧文分校的机器学习库(UCI)的8个公开数据集中进行对比实验结果表明基于最大相关系数的特征选择算法(NFCBF)总体优于FCBF算法,它所选择出特征数比FCBF算法所选择特征数平均少了3.625个,分类准确率平均提高了0.075%.与互信息最大算法(MIM)、最少的绝对收缩和选择算法(Lasso)和岭算法(Ridge)等相比也具有明显的优势.  相似文献   

12.
应用统计机器学习方法研究大规模单核苷酸多态性(SNP)与复杂疾病的关联关系面临着"维数灾难",首要的工作是把大规模SNP缩减为较小集合.为此,提出了多重遗传算法用于单核苷酸多态性的特征粗选择.该方法首次提出了用互信息衡量SNP与疾病间关联的紧密程度并作为遗传算法(GA)的适应值,通过多次运用遗传算法并合并寻优的结果得到候选的特征SNP集合.在SNP仿真数据上的实验及与最大熵(ME)方法性能比较表明,该方法最大可能丢弃了SNP集合中与疾病无关的SNP,同时保留了与疾病相关的SNP,为进一步研究提供了合适规模的SNP数据,本方法可用于规模中等或较大的SNP集合.  相似文献   

13.
基于冗余分析的特征选择算法   总被引:1,自引:0,他引:1  
针对冗余特征判定难题,分析了特征和特征之间的相关性以及特征和目标值之间相关性的联系,给出了判定冗余特征的准则,在此基础上给出了近似冗余特征的定义,并提出了一种基于冗余分析的特征选择算法.算法分2步去除无关特征和冗余特征.实验结果表明,所提出的特征选择算法能有效降低特征维数,提高预测准确率.  相似文献   

14.
针对Laplacian分值法进行特征选择时过分依赖样本局部结构信息的不足,提出一种改进的基于约束Laplacian分值的半监督特征选择算法。该算法利用样本之间的cannot-link成对约束关系作为全局结构信息,在进行特征选择时,不仅能尽量保持局部结构信息,而且还尽量保持了全局的cannot-link约束关系。基于Yale和PIE(Fave pose,Illamination,Expression dadbase)人脸数据库的实验表明,该算法性能显著优于Laplacian分值法,与Fisher分值法和最新的约束分值法相当,且在稳定性方面优于后者。  相似文献   

15.
潘思远    刘园奎    毛煜    林耀进   《南京师范大学学报》2023,(1):066-74
多标记学习可以同时处理与一组标记相关的数据,多标记学习的研究对于多义性对象的学习建模具有十分重要的意义. 与传统的单标记学习一样,数据的高维性是多标记学习的阻碍,因此数据降维是一项十分重要的工作,而特征选择是一种有效的数据降维技术. 提出了基于邻域近似误差率的多标记特征选择算法. 首先,在邻域粗糙集理论的基础上,引入实例的边界来对所有实例进行粒度化. 其次,基于邻域决策误差率提出了邻域近似误差率的策略来评价特征. 最后,在公开的数据集上进行了大量的实验,结果表明所提算法的有效性.  相似文献   

16.
通过特征选择的方法解决皮肤检测过程中颜色空间的选取问题,针对现有基于互信息的特征选择方法的不足,提出了改进方法:1)使用互信息缩小特征选择范围,然后选择使分类效果最佳的特征子集;2)尝试多种可能的特征子集初始化方案,然后选择其中最优的方案.实验结果和对比分析表明,使用改进后的特征选择方法得到的混合颜色空间,其皮肤检测效果优于传统颜色空间和已有混合颜色空间.  相似文献   

17.
在石漠化信息的分类和提取过程中,冗余特征的存在影响分类器的性能,同时增加计算的复杂度。提出一种基于K2结构学习算法的石漠化数据特征选择方法,该方法通过BIC评分方法得到贝叶斯网络的结构,从中获得类节点的马尔可夫覆盖,继而进行特征选择。同时借用不同评分函数的等价性来确定结构学习时所需的样本数,并且给出了样本数的参考。实验表明,该方法由于结合了样本的分类信息,获得的特征子集是最优的,显著提高了分类精度,降低了计算复杂度。  相似文献   

18.
基于成对约束的特征选择算法通过度量单个特征的重要性得到一个特征序列,但由单个重要特征构成的特征子集未必是最有效的.为此,提出了一种基于成对约束的特征选择改进算法,该算法采用对特征子集进行度量的策略,逐步选择使新的特征子集最有效的特征,从而得到一个有效的特征序列.实验表明新提出的算法是有效可行的.  相似文献   

19.
一种基于聚类集成的无监督特征选择方法   总被引:1,自引:0,他引:1  
提出了一种无监督的特征选择方法,其基本思想是利用聚类来指导特征选择,对于无类别标签的数据样本集,先进行聚类获得数据类标签,再利用ReliefF算法进行特征选择.采用聚类集成方法解决一些聚类结果的不稳定问题,最终特征选择结果通过多次特征选择综合得到.实验结果表明,该算法具有良好的特征选择性能,在去除无关或冗余特征后可进一步提高聚类质量.  相似文献   

20.
特征选择是一种处理维数约简的有效方法。以条件熵为特征子集评价条件,采用随机搜索和启发式搜索相结合的搜索策略,设计了一种新的特征选择方法。该方法不仅能够求得经典启发式特征选择方法的选到特征子集,还可以得到一些与其不同的满足条件特征子集,同时在多数情况下可以减少时间消耗。实验研究表明了提出的算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号