首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
针对特征排序方法较少考虑特征之间的相关关系,导致选择的特征子集存在冗余的问题,提出一种引入冗余控制的特征排序模型。将特征子集判别能力最大且冗余程度最小作为模型的目标函数,以降低特征之间的冗余;使用贪心方法和非线性规划方法对模型进行求解。在9个开源数据上的实验及与特征排序方法比较表明,本模型在大部分数据上,所选择的特征子集能够获得更好的分类准确性且个数更少;使用非线性规划方法求解时,能够直接得到特征子集,有利于确定特征个数。本模型可用于特征之间存在冗余时的特征选择。  相似文献   

2.
一种基于聚类集成的无监督特征选择方法   总被引:1,自引:0,他引:1  
提出了一种无监督的特征选择方法,其基本思想是利用聚类来指导特征选择,对于无类别标签的数据样本集,先进行聚类获得数据类标签,再利用ReliefF算法进行特征选择.采用聚类集成方法解决一些聚类结果的不稳定问题,最终特征选择结果通过多次特征选择综合得到.实验结果表明,该算法具有良好的特征选择性能,在去除无关或冗余特征后可进一步提高聚类质量.  相似文献   

3.
由于候选特征与类标签间的相关性,候选特征、已选特征与类标签间的交互性以及特征间的冗余性是特征选择算法应考虑的重要因素,而一些基于互信息和三维互信息的特征选择算法没有同时考虑相关性、交互性和冗余性信息,这影响了它们的性能。针对该问题,提出一种采用冗余性动态权重的特征选择算法,将对称不确定性和三路交互信息作为评价指标,采用一种动态更新特征权重的方法使目标函数在考虑相关性、交互性的基础上,同时考虑特征间的冗余性。在10种数据集上利用3种分类器与典型的基于互信息的特征选择算法做了对比实验,结果表明所提算法具有更好的特征选择性能。  相似文献   

4.
为了实现Scratch可视化编程领域的作品分类,提出了一种基于标签关联性的多标签分类算法(MLLR),构建了一个有效的多标签Scratch分类模型.首先提取作品的Block使用特征、计算思维技能特征和复杂度特征3类特征作为分类特征;然后针对RAKEL算法随机选择标签子集,忽略了标签间的关联性,提出了改进的MLLR算法,该方法根据多标签之间的关联性来划分标签子集,再训练相应的标签幂集子分类器.实验结果表明,MLLR算法在分类性能和时间性能上优于RAKEL等多标签分类算法,构建的分类模型对于Scratch作品具有较强的适用性,分类的准确率达到81.3%.  相似文献   

5.
特征选择是生物信息领域中数据预处理阶段必不可少的步骤。传统特征选择算法忽视了特征之间的依赖相关性和冗余性,因此提出一种联合互信息的特征选择算法(JFRR)。该算法利用互信息计算特征之间的冗余值,并利用联合互信息分别计算已选特征集合、候选特征及类标签之间的相关性。将JFRR与其他6个特征选择算法在2个分类器上,使用9个不同基因数据集,进行分类准确率指标(Precision_micro和F1_micro)验证。实验结果表明,该算法能有效提高分类精度。  相似文献   

6.
在相关性快速过滤特征选择算法(FCBF)基础上,通过最大相关系数的方式改进FCBF算法.首先,通过最大相关系数和对称不确定性度量准则,计算出每个特征与标签之间的相关度量值,并按照数值大小顺序进行排序;其次,通过最大相关系数和近似马尔可夫毯原理进行无关特征和冗余特征的筛选,最终选择出最优特征子集.在加利福尼亚大学欧文分校的机器学习库(UCI)的8个公开数据集中进行对比实验结果表明基于最大相关系数的特征选择算法(NFCBF)总体优于FCBF算法,它所选择出特征数比FCBF算法所选择特征数平均少了3.625个,分类准确率平均提高了0.075%.与互信息最大算法(MIM)、最少的绝对收缩和选择算法(Lasso)和岭算法(Ridge)等相比也具有明显的优势.  相似文献   

7.
特征选择是一种处理维数约简的有效方法。以条件熵为特征子集评价条件,采用随机搜索和启发式搜索相结合的搜索策略,设计了一种新的特征选择方法。该方法不仅能够求得经典启发式特征选择方法的选到特征子集,还可以得到一些与其不同的满足条件特征子集,同时在多数情况下可以减少时间消耗。实验研究表明了提出的算法的有效性。  相似文献   

8.
并行免疫克隆特征选择算法   总被引:1,自引:0,他引:1  
针对模式识别中传统的封装式特征选择算法,难以得到较好的特征子集和复杂度较高的分类器评价特征子集的耗时问题,提出了一种用于特征选择的并行免疫克隆算法,采用免疫克隆算法搜索特征,并利用并行算法评价特征子集,即将种群中个体的适应度计算并行在多个计算节点上同时进行.将该算法在Linux刀片集群上基于MPICH软件对UCI数据集进行特征子集选择算法仿真,特征子集采用最近邻分类并采用留一法验证评价.结果表明该算法选出的特征子集优于经典的顺序浮动前向搜索算法和标准遗传算法,与串行算法运行时间相比,在40个CPU时其加速比最高可达29.57.  相似文献   

9.
基于成对约束的特征选择算法通过度量单个特征的重要性得到一个特征序列,但由单个重要特征构成的特征子集未必是最有效的.为此,提出了一种基于成对约束的特征选择改进算法,该算法采用对特征子集进行度量的策略,逐步选择使新的特征子集最有效的特征,从而得到一个有效的特征序列.实验表明新提出的算法是有效可行的.  相似文献   

10.
结合Filter和Wrapper方法的优点,提出一种基于集成遗传算法(FSEGA)的特征选择方法,用于从基因表达谱数据中选择特征基因。根据基因正负样本的分布关系定义信息指标过滤噪声基因,在递归特征消除过程中根据基因的集成权值生成候选基因子集,选择分类测试中具有最高AUC(接收者工作特征曲线下的面积)值的候选基因子集作为基因表达谱数据集的特征基因子集,将支持向量机(SVM)用于算法的适应度函数,研究FSEGA方法与分类器算法之间的关系,对5个肿瘤特征基因表达谱数据集进行基因选取实验。结果表明,采用提出的集成特征选取方法选取的特征基因集合含丰富类别信息,重复性较好,提高了肿瘤特征基因选取的稳定性和鲁棒性。  相似文献   

11.
从相关熵的角度出发,提出一种基于相关熵和特征流形学习的稀疏正则化方法,用于解决多标签特征选择问题。在相关熵定义的基础上给出多标签特征选择的回归模型;结合?2, 1范数的性质和特征流形学习的定义建立基于相关熵和特征流形学习的稀疏正则化多标签特征选择模型及算法;证明该算法的收敛性并且通过试验验证所给算法的有效性。  相似文献   

12.
潘思远    刘园奎    毛煜    林耀进   《南京师范大学学报》2023,(1):066-74
多标记学习可以同时处理与一组标记相关的数据,多标记学习的研究对于多义性对象的学习建模具有十分重要的意义. 与传统的单标记学习一样,数据的高维性是多标记学习的阻碍,因此数据降维是一项十分重要的工作,而特征选择是一种有效的数据降维技术. 提出了基于邻域近似误差率的多标记特征选择算法. 首先,在邻域粗糙集理论的基础上,引入实例的边界来对所有实例进行粒度化. 其次,基于邻域决策误差率提出了邻域近似误差率的策略来评价特征. 最后,在公开的数据集上进行了大量的实验,结果表明所提算法的有效性.  相似文献   

13.
针对工业控制系统流量数据存在特征冗余及深度学习模型对较小规模数据集检测能力较差的问题,提出了一种基于特征选择和时间卷积网络的工业控制系统入侵检测模型。首先,对源域数据集的异常特征和样本不平衡数据进行处理,提高源域数据集质量。其次,针对流量数据的特征冗余,利用信息增益率和主成分分析法构建IGR-PCA特征选择算法,筛选出最优特征子集实现数据降维。然后,根据工业控制系统流量数据的时间序列特性,在较大规模的源域数据集上,利用时间卷积网络(temporal convolution network,TCN)对时间序列数据优异的处理能力,构建源域时间卷积网络预训练模型。最后,在较小规模的目标域数据集上,结合迁移学习(transfer learning,TL)微调策略,获取源域样本数据的流量特征,构建目标域TCN-TL模型。利用公开的工业控制系统数据集进行实验测试,实验结果表明:流量数据经本文特征算法处理后,相较于其他方法,在降低数据维度减少计算量的同时仍具有良好的检测效果;在较大规模的源域数据集和较小规模的目标域数据集上,本文模型均取得了良好的检测效果,在目标域中利用迁移学习微调策略能够学习到源域中的知识,模型检测准确率为99.06%,在训练时间对比中,本文模型训练时间消耗更少,具有更好的泛化能力,能够更好地保护工业控制系统安全。  相似文献   

14.
针对多标签AdaBoost系列算法,以尽量减小算法的学习错误率为目的,提出了对其进行改进的两种思路。基于改进思路构造出了改进的多标签AdaBoost算法。一种思路是修改算法的样本分布调整策略,破坏现有AdaBoost算法中样本分布的均匀性,以确保增加每一个弱分类器都能降低学习错误的上界估计,从而实现对多标签AdaBoost算法的改进。另一种思路是训练弱分类器时兼顾后续待学习的弱分类器对学习错误的影响,克服现有算法在训练弱分类器时只考虑当前的弱分类器对学习错误的影响,而完全忽略后续待学习的弱分类器对学习错误的影响这一现象,从而改进多标签AdaBoost算法。理论上,对于改进多标签AdaBoost算法,增加每一个弱分类器都能进一步降低学习错误。理论分析和实验结果均表明了提出的改进算法有改进效果。  相似文献   

15.
改进的离散PSO和SVM的特征基因选择算法   总被引:2,自引:0,他引:2  
针对现有的基于粒子群的特征基因选择算法易于陷入局部最优的问题,提出了一种改进的离散粒子群和支持向量机的特征基因选择算法IDPSO-SVM.该算法首先预选一些与分类强相关的基因组成特征基因备选集合,然后基于此集合采用PSO进行寻优搜索,并应用SVM对选出的特征子集的分类能力进行评估,最后得出最优特征子集.该算法加入了一种可以有效克服粒子群在寻优过程中陷入局部最优的机制,因而可以不断探测到新的最优解.该算法在结肠癌与前列腺癌数据集上的分类精度分别达到了96.8%与99.0%,从而证明了其有效性与可行性.  相似文献   

16.
为了提高不同工况下的轴承故障诊断准确率,提出了一种基于特征筛选和集成学习的轴承故障诊断方法。考虑到特征向量复杂冗余的问题,结合特征有效性和最大均值差异提出了新的特征评分函数,并在此基础上进一步考虑特征关联度和特征维度,筛选出有利于变工况故障诊断的特征子集。针对单一机器学习模型故障诊断准确率不高的问题,将AdaBoost和Stacking算法相结合构造集成学习故障诊断模型。实验结果表明:筛选出的特征子集在相同分类器下拥有更高的故障诊断准确率;集成学习模型相较于单一模型有更高的故障诊断准确率和鲁棒性。  相似文献   

17.
In learning and classification problems, feature selection (FS) is critical in finding features that are both meaningful and non-redundant. Today, big data is an integral aspect of all industry sectors. All firms in any industry, such as power, finance, commerce, electronics, communications, and so on, create massive amounts of heterogeneous data that needed to be handled effectively and evaluated correctly. When it comes to big data, feature selection approaches are taken as game-changer since they can assist in minimizing the complexity of genetic data, making it simpler to study and translating it into meaningful information. To enhance classification performance, feature selection is done to remove unnecessary and redundant characteristics from the dataset. In this paper, we presented a novel Grey Wolf Approach based on Quantum leaping neighbor memeplexes which is termed QLGWONM for feature selection and reduction to achieve better classification accuracy. The paper implemented other optimization algorithms such as particle swarm optimization (PSO), slime mould algorithm (SMA), salp swarm algorithm (SSA), artificial butterfly algorithm (ABA), whale optimization (WO), crow search optimization algorithm (CSA), and Jaya models. After the implementation of these algorithms, QLGWONM outperformed other algorithms. The QLGWONM model performed well with an accuracy of 100% for Brain Tumor, CNS, Lung dataset and 97.1% for Ionosphere dataset, and 99% for NSL-KDD. Apart from these, some state-of-art comparisons were also evaluated and QLGWONM gave better results as compared with other existing algorithms.  相似文献   

18.
提出一种改进的多类别单阶检测器(SSD)算法. 借鉴特征金字塔算法的思想,将Conv4-3层的特征与Conv7、Conv3-3层的特征进行融合,同时增加融合后特征图每个位置对应的默认框数量. 在网络结构中增加裁剪-权重分配网络(SENet),对每层的特征通道进行权重分配,提升有用的特征权重并抑制无效的特征权重. 为了增强网络的泛化能力,对训练数据集进行一系列增强处理. 实验结果表明,改进后的算法在VOC数据集(07+12)上的检测效果良好,平均精度均值为80.4%,比改进前的算法提高了2.7%;在COCO数据集(2017)上的平均精度均值为42.5%,比改进前的算法提高了2.3%. 所提算法能够准确检测出不小于16×16像素的目标.  相似文献   

19.
改进粒子群与支持向量机混合的特征变换   总被引:1,自引:0,他引:1  
研究了数据挖掘中通过特征变换的数据预处理来提高支持向量机(SVM)分类精度的方法,提出了改进粒子群优化(PSO)和SVM混合的方法. 用推广t统计、Fisher判别式和随机森林的线性加权度量来排序特征,得到预选特征子集,再用启发式信息加速改进PSO搜索特征的线性变换因子,并用二进制PSO对特征变换子集进行特征选择,在后处理中通过格子搜索获取了高精度SVM分类器. 在NIPS 2003的madelon及10个UCI数据集上的实验表明,与有C-SVM分类精度相比,新方法在4个数据集上的精度更高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号