共查询到19条相似文献,搜索用时 93 毫秒
1.
在分类学习任务中,数据的类标记空间存在层次化结构,特征空间伴随着未知性和演化性.因此,文中提出面向大规模层次分类学习的在线流特征选择框架.定义面向层次化结构数据的邻域粗糙模型,基于特征相关性进行重要特征动态选择.最后,基于特征冗余性进行鉴别冗余动态特征.实验验证文中算法的有效性. 相似文献
2.
3.
为了解决ReliefF算法随机抽样会抽取到不具代表性的样本且未考虑特征间相关性的问题,提出基于冗余性分析的ReliefF特征选择算法。首先改进ReliefF的抽样策略,其次将特征权重序列划分为几个子集,分别利用最大信息系数及Pearson系数共同衡量特征相关性,设置相应采样比例剔除冗余特征。将改进算法与其他特征选择算法进行对比,结果表明相较于传统ReliefF,在LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机器学习)上的分类准确率可提升0.63%~12.10%,在SVM(Support Vector Machine,支持向量机)上的分类准确率可提升0.92%~9.06%,改进算法的分类准确率明显优于其他几种特征选择算法,在考虑特征与标签相关性的同时,能有效剔除冗余信息。 相似文献
4.
5.
为进一步提高集成学习中各个神经网络的差异性,该文采用了一种改进的特征选择方法-基于概率抽样的ReliefF算法,并将其引入到集成所用的Bagging方法中。实验结果表明,该文提出的基于改进的ReliefF算法的神经网络集成分类模型的泛化能力优于Bagging方法。 相似文献
7.
《计算机应用与软件》2017,(7)
针对Relief F算法局限于单标签数据问题,提出两种多标签特征选择算法Mult-Relief F和M-A算法。Mult-Relief F算法重新定义了类内最近邻和类外最近邻的查找方法,并加入标签的贡献值更新特征权重公式。MA算法在Mult-Relief F算法的基础下,利用邻域能去除冗余的特性,更多地去除冗余特征达到更好的降维效果。采用ML-KNN分类算法进行实验。在多个数据集上测试表明,Mult-Relief F算法能提高分类效果,M-A算法能获得最小的特征子集。 相似文献
8.
在开放动态环境当中,特征是动态生成的,特征在不同时间戳内流入特征空间称为流特征.然而,在一些基于传统的邻域粗糙集流特征选择算法中,噪声点会对特征的依赖度计算造成影响.基于此,本文提出了基于抗噪声邻域粗糙集的在线流特征选择算法.首先,充分考虑噪声点的影响,定义一种抗噪声的邻域关系,并设计基于抗噪声邻域的依赖度计算公式.进一步,考虑到特征对不同类别所提供的信息不同,结合类别正域,提出了一种新的在线相关性分析方法和冗余分析方法.在8个数据集上的实验研究表明,所提算法得到的特征子集优于一些在线流特征选择算法. 相似文献
9.
10.
流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针对不同类型数据集指定一个统一参数存在巨大挑战。基于此,提出一种基于自适应密度邻域关系的多标签在线流特征选择方法(multi-label online stream feature selection based on adaptive density neighborhood relation, ML-OFS-ADNR),基于邻域粗糙集理论,所提方法在特征依赖计算时无需任何先验领域信息。此外,提出了一种新的自适应密度邻域关系,使用周围实例的密度信息,可以在流特征选择过程中自动选择适当数量的邻域,不需要事先指定任何参数。通过模糊等价约束,ML-OFS-ADNR可以选择高依赖低冗余度的特征。实验表明在10种不同类型的数据集上,所提方法在特征数量相同的情况下优于传统特征选择方法和先进的在线流特征选择方法。 相似文献
11.
12.
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。 相似文献
13.
不平衡数据集上的Relief特征选择算法 总被引:1,自引:0,他引:1
Relief算法为系列特征选择方法,包括最早提出的Relief算法和后来拓展的ReliefF算法,核心思想是对分类贡献大的特征赋予较大的权值;特点是算法简单,运行效率高,因此有着广泛的应用。但直接将Relief算法应用于有干扰的数据集或不平衡数据集,效果并不理想。基于Relief算法,提出一种干扰数据特征选择算法,称为阈值-Relief算法,有效消除了干扰数据对分类结果的影响。结合K-means算法,提出两种不平衡数据集特征选择算法,分别称为K-means-ReliefF算法和
K-means-Relief抽样算法,有效弥补了Relief算法在不平衡数据集上表现出的不足。实验证明了本文算法的有效性。 相似文献
14.
基因数据的特点是高维度、小样本、大噪声,在处理过程中容易造成维数灾难和过度拟合等问题。针对这种情况提出一种新的基因数据集的特征选择方法,第一步是通过ReliefF算法对基因特征进行权重重要度的筛选;第二步是对筛选过的特征集合进行mRMR算法判断,留下与目标类别高度相关而其间相关性较小的基因特征;第三步利用邻域粗糙集特征选择算法对简化后的基因数据集进行寻优处理,选出最优化的特征基因子集。为了证明新算法的有效性,以SVM为分类器,使用外部交叉验证法对整个过程来计算,从而验证本文新特征选择方法的有效性。 相似文献
15.
Feature selection is a useful method for fulfilling the data classification since the inherent heterogeneity of data and the redundancy of features are often encountered in the current data exploding era. Some commonly used feature selection algorithms, which include but are not limited to Pearson, maximal information coefficient, and ReliefF, are well‐posed under the assumption that instances are distributed homogenously in datasets. However, such an assumption might be not true in the practice. As such, in the presence of data imbalance, these traditional feature selection algorithms might be invalid due to their prejudices to the minority class, which includes few samples. The purpose of the addressed problem in this article is to develop an effective feature selection algorithm for imbalanced judicial datasets, which is capable of extracting essential features while deleting negligible ones according to the practical feature requirements. To achieve this goal, the number and the distribution of samples in each class are fully taken into consideration for the correlation analysis. Compared with the traditional feature selection algorithms, the proposed improved ReliefF algorithm is equipped with: (i) different weights of features according to the characteristics of heterogeneous samples in different classes; (ii) justice for imbalanced datasets; and (iii) threshold constraints resulting from the practical feature requirements. Finally, experiments on a judicial dataset and six public datasets well illustrate the effectiveness and the superiority of the proposed feature selection algorithm in improving the classification accuracy for imbalanced datasets. 相似文献
16.
为了成功将土地覆盖进行分类,选择合适的特征是至关重要的。针对利用MODIS数据进行宏观土地覆盖的分类问题,对三种典型的特征选择方法进行了比较研究。研究结果表明:分支定界法(BB)最适合于该土地覆盖分类问题,与此同时,ReliefF和mRMR方法在目标应用中的精度非常接近。研究结果同样表明进行特征选择是非常必要的,它不仅能够大大地降低计算复杂度,而且分类精度能够保持不变,甚至更高。 相似文献
17.
18.
针对高维度小样本数据在特征选择时出现的维数灾难和过拟合的问题,提出一种混合Filter模式与Wrapper模式的特征选择方法(ReFS-AGA)。该方法结合ReliefF算法和归一化互信息,评估特征的相关性并快速筛选重要特征;采用改进的自适应遗传算法,引入最优策略平衡特征多样性,同时以最小化特征数和最大化分类精度为目标,选择特征数作为调节项设计新的评价函数,在迭代进化过程中高效获得最优特征子集。在基因表达数据上利用不同分类算法对简化后的特征子集分类识别,实验结果表明,该方法有效消除了不相关特征,提高了特征选择的效率,与ReliefF算法和二阶段特征选择算法mRMR-GA相比,在取得最小特征子集维度的同时平均分类准确率分别提高了11.18个百分点和4.04个百分点。 相似文献