首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对高维生物医学数据包含大量无关或弱相关特征,影响疾病诊断效率的现状,提出了一种基于改进混合蛙跳算法的高维生物医学数据特征选择方法。该方法将混沌记忆权重因子和平衡分组策略引入基本混合蛙跳算法,在强化算法多样性的同时,维持了算法全局和局部寻优之间的平衡,降低了算法陷入局部最优的可能,进一步提高了混合蛙跳算法特征选择方法在特征空间的探索能力。实验结果表明:与改进遗传算法、粒子群优化算法特征选择方法比较,改进混合蛙跳算法特征选择方法在高维生物医学数据特征子集识别、分类精度方面取得了更好的效果。  相似文献   

2.
特征选择作为一种数据预处理技术被广泛研究,由于其具有NP难度而一直无法找到有效的求解方法。鉴于目前在特征选择中应用较多的遗传算法存在进化机制上的局限,将量子进化算法应用于特征选择,提出了一种基于改进量子进化算法的特征选择算法。以增加种群多样性和提高寻优性能为目标改进了量子进化算法,以Fisher比和特征维度为特征子集的评价准则构造了适应度函数,按照量子进化算法求解优化问题的步骤设计了特征选择算法。使用UCI数据库中的数据集对三种算法作对比验证,通过识别重要特征、提高学习算法性能、特征选择效率三组实验,结果表明,该算法能够识别出重要特征,并随着数据集特征维度升高,特征选择的性能逐渐优于对比算法,到了高维数据集,特征选择效率明显优于对比算法。  相似文献   

3.
随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降低计算开销和去除冗余特征,以提高机器学习模型的性能,并保留了数据的原始特征,具有良好的可解释性。特征选择已经成为机器学习领域中重要的数据预处理步骤之一。粗糙集理论是一种可用于特征选择的有效方法,它可以通过去除冗余信息来保留原始特征的特性。然而,由于计算所有的特征子集组合的开销较大,传统的基于粗糙集的特征选择方法很难找到全局最优的特征子集。针对上述问题,文中提出了一种基于粗糙集和改进鲸鱼优化算法的特征选择方法。为避免鲸鱼算法陷入局部优化,文中提出了种群优化和扰动策略的改进鲸鱼算法。该算法首先随机初始化一系列特征子集,然后用基于粗糙集属性依赖度的目标函数来评价各子集的优劣,最后使用改进鲸鱼优化算法,通过不断迭代找到可接受的近似最优特征子集。在UCI数据集上的实验结果表明,当以支持向量机为评价所用的分类器时,文中提出的算法能找到具有较少信息损失的特征子集,且具有较高的分类精度。因此,所提算法在特征选择方面具有一定的优势。  相似文献   

4.
针对数据的特征存在单一和协同特征的选择问题,基于平方误差标准核密度估计和随机置换理论,首先提出一种针对单一特征的特征选择方法(FSKDE-RP);然后,针对协同特征的情况,通过拓展随机置换理论,提出多维协同特征选择算法(SFSKDE-MRP),并利用核神经网络(KNN)分类器的分类精度选择最优特征子集.在模拟数据和真实数据集上的实验结果表明了所提出算法的有效性.  相似文献   

5.
大规模特征选择问题的求解通常面临两大挑战:一是真实标签不足,难以引导算法进行特征选择;二是搜索空间规模大,难以搜索到满意的高质量解。为此,提出了新型的面向大规模特征选择的自监督数据驱动粒子群优化算法。第一,提出了自监督数据驱动特征选择的新型算法框架,可不依赖于真实标签进行特征选择。第二,提出了基于离散区域编码的搜索策略,帮助算法在大规模搜索空间中找到更优解。第三,基于上述的框架和方法,提出了自监督数据驱动粒子群优化算法,实现对问题的求解。在大规模特征数据集上的实验结果显示,提出的算法与主流有监督算法表现相当,并比前沿无监督算法具有更高的特征选择效率。  相似文献   

6.
基于粒子群优化算法和相关性分析的特征子集选择   总被引:3,自引:0,他引:3  
特征选择是模式识别与数据挖掘等领域的重要问题之一.针对此问题,提出了基于离散粒子群和相关性分析的特征子集选择算法,算法中采用过滤模式的特征选择方法,通过分析网络入侵数据中所有特征之间的相关性,利用离散粒子群算法在所有特征的空间里优化搜索,自动选择有效的特征子集以降低数据维度.1999 KDD Cup Data中IDS数据集的实验结果表明了提出算法的有效性.  相似文献   

7.
基于模糊粗糙集信息熵的蚁群特征选择方法   总被引:1,自引:0,他引:1  
赵军阳  张志利 《计算机应用》2009,29(1):109-111,
目前针对高维数据特征选择提出的启发式算法多数容易陷入局部最优,无法对整个特征空间进行有效搜索。为了提高对特征域的并行搜索能力,基于模糊粗糙集的信息熵原理,对蚁群模型的搜索策略、信息素更新和状态转移规则等进行了改进,提出蚁群特征选择方法。经UCI数据实验验证,该算法比传统的特征选择算法具有更好的选择效果,是有效的。  相似文献   

8.
针对监督分类中的特征选择问题, 提出一种基于量子进化算法的包装式特征选择方法. 首先分析了现有子集评价方法存在过度偏好分类精度的缺点, 进而提出基于固定阈值和统计检验的两种子集评价方法. 然后改进了量子进化算法的进化策略, 即将整个进化过程分为两个阶段, 分别选用个体极值和全局极值作为种群的进化目标. 在此基础上, 按照包装式特征选择遵循的一般框架设计了特征选择算法. 最后, 通过15个UCI数据集分别验证了子集评价方法和进化策略的有效性, 以及新方法相较于其它6种特征选择方法的优越性. 结果表明, 新方法在80%以上的数据集上取得相似甚至更好的分类精度, 在86.67%的数据集上选择了特征个数更小的子集.  相似文献   

9.
随着网络的发展,大量的文档数据涌现在网上,自动文本分类已经成为处理和组织大量文档数据的关键技术.其困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题.本文结合了多种特征选择方法,提出一种基于差值思想的多特征选择算法,并应用于KNN文本分类算法,实验表明,本文提出的特征选择算法能进一步提高分类性能.  相似文献   

10.
不平衡数据集上的Relief特征选择算法   总被引:1,自引:0,他引:1  
Relief算法为系列特征选择方法,包括最早提出的Relief算法和后来拓展的ReliefF算法,核心思想是对分类贡献大的特征赋予较大的权值;特点是算法简单,运行效率高,因此有着广泛的应用。但直接将Relief算法应用于有干扰的数据集或不平衡数据集,效果并不理想。基于Relief算法,提出一种干扰数据特征选择算法,称为阈值-Relief算法,有效消除了干扰数据对分类结果的影响。结合K-means算法,提出两种不平衡数据集特征选择算法,分别称为K-means-ReliefF算法和 K-means-Relief抽样算法,有效弥补了Relief算法在不平衡数据集上表现出的不足。实验证明了本文算法的有效性。  相似文献   

11.
高明磊  张钟江  姬波 《计算机科学》2015,42(10):251-255
Pearson相关系数是一种衡量变量间线性关系的方法,广泛用于变压器中油中气体故障诊断(DGA)的范例推理匹配算法。但是,现有方法存在偏袒数据区间较大的特征以及认为所有特征对相关系数判定的贡献相同这两个问题。因此,在深入分析DGA色谱数据的基础上,提出采用对数特征变换方法缩小特征值域来解决偏袒大数据区间特征的问题,采用均方差特征赋权区分特征贡献度的方法进一步提高DGA故障检测效果,并构造了基于特征变换和特征权重的Pearson相关系数DGA诊断(FTW_Pearson)算法。实验结果表明,FTW_Pearson算法的DGA诊断正确率优于业界普遍使用的大卫三角形法、未考虑特征变换和权重的Pearson相关系数法以及贝叶斯算法和神经网络算法。  相似文献   

12.
基于数据挖掘的入侵特征选择与构造的新方法   总被引:2,自引:0,他引:2  
入侵检测问题实际上是一个分类问题, 特征选择的好坏直接决定了分类模型的性能。针对计算机安全问题是事后于计算机系统设计、没有标准的审计机制和专门的数据格式用于入侵检测分析用途的现状, 讨论了通过扩展数据挖掘基本算法来对分析数据源进行特征选择, 同时比较挖掘出来的正常模式和异常模式, 构造新的特征, 以加强入侵检测准确率和实时性。  相似文献   

13.
A novel feature selection approach: Combining feature wrappers and filters   总被引:2,自引:0,他引:2  
Feature selection is one of the most important issues in the research fields such as system modelling, data mining and pattern recognition. In this study, a new feature selection algorithm that combines feature wrapper and feature filter approaches is proposed in order to identify the significant input variables in systems with continuous domains. The proposed method utilizes functional dependency concept, correlation coefficients and K-nearest neighbourhood (KNN) method to implement the feature filter and feature wrappers. Four feature selection methods independently select the significant input variables and the input variable combination, which yields best result with respect to their corresponding evaluation function, is selected as the winner. This is similar to the basic information fusion notion of integrating the information collected from different sources. All of the four feature selection methods are performed in two stages: (i) pre-selection, (ii) selection. Two of the four feature selection methods utilize KNN method for evaluating the candidates. These two methods use sequential forward and sequential backward search mechanism, respectively, in pre-selection stage. Whereas, the third feature selection method uses correlation coefficients in the pre-selection stage. It is common to have outliers and noise in real-life data. In order to make the proposed feature selection algorithm noise and outlier resistant, approximate functional dependencies are used by utilizing membership values that inherently cope with uncertainty in the data. Thus, the fourth feature selection method makes use of approximate functional dependencies to evaluate candidates in pre-selection stage. All of these four methods apply KNN method with exhaustive search strategy in order to find the most suitable input variable combination with respect to a performance measure.  相似文献   

14.
提出了一种新的面向高维数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用基于边界点的可分性度量作为评价指标及适应度。实验结果表明,该算法可有效地找出具有较好的可分离性的特征子集,从而实现降维并提高分类 精度。  相似文献   

15.
基于遗传算法及聚类的基因表达数据特征选择   总被引:1,自引:0,他引:1  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。  相似文献   

16.
研究了应用数据挖掘技术预测时间序列数据中事件的方法。针对时间序列数据提出了显著特征提取算法,给出了特征间的相似度量标准,并应用特征聚类算法,将时间序列数据转换成相应的特征序列表示。应用频繁模式发现算法和预测模式生成算法在预测时段内发现与目标事件相关的时序特征模式,预测事件的发生。实验结果表明,该文所提出的方法能够有效地预测时间序列数据中的事件。  相似文献   

17.
一种基于信息增益及遗传算法的特征选择算法   总被引:8,自引:0,他引:8  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,本文提出一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征之间的信息增益进行特征分组及筛选,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。  相似文献   

18.
特征选择在机器学习和数据挖掘中起到了至关重要的作用。Relief作为一种高效的过滤式特征选择算法,能处理多种类型的数据,且对噪声的容忍力较强,因此被广泛应用。然而,经典的Relief算法对离散特征的评价较为简单,在实际进行特征选择时并未充分挖掘特征与类标签之间的潜在关系,具有很大的改进空间。针对经典的Relief算法对离散特征的评价方式较为简单这一不足,提出了一种基于标签相关度的离散特征评价方法。该算法充分考虑了不同特征的特性,给出了一种面向混合特征的距离度量方式,同时从离散特征与标签之间的相关度出发,重新定义了Relief算法对离散特征的评价体系。实验结果表明,改进后的Relief算法与经典的Relief算法和现有的一些面向混合数据的特征选择算法相比,其分类精度均有不同程度的提升,具有良好的性能。  相似文献   

19.
数据挖掘中如何有效地从高维特征空间选择最优特征子集,很大程度上影响模型的预测结果,基于此本文提出一种复合适应性函数、多特征组合搜索的自适应性遗传算法。算法依据统计学原理对原始特征先行过滤构建特征候选集,使用多模型融合的交叉验证结果作为适应性函数以提高每轮进化的适应值,轮盘赌算法、定长基因段交叉算法、随机基因位点变异算法分别构成选择算子、交叉算子和变异算子。通过实验对比表明该遗传算法具有一定的稳定性和有效性,能够在原始特征空间中启发性的选择最优特征子集,从而提高数值型预测准确率。  相似文献   

20.
In big data era, more and more data are collected from multiple views, each of which reflect distinct perspectives of the data. Many multi-view data are accompanied by incompatible views and high dimension, both of which bring challenges for multi-view clustering. This paper proposes a strategy of simultaneous weighting on view and feature to discriminate their importance. Each feature of multi-view data is given bi-level weights to express its importance in feature level and view level, respectively. Furthermore, we implements the proposed weighting method in the classical k-means algorithm to conduct multi-view clustering task. An efficient gradient-based optimization algorithm is embedded into k-means algorithm to compute the bi-level weights automatically. Also, the convergence of the proposed weight updating method is proved by theoretical analysis. In experimental evaluation, synthetic datasets with varied noise and missing-value are created to investigate the robustness of the proposed approach. Then, the proposed approach is also compared with five state-of-the-art algorithms on three real-world datasets. The experiments show that the proposed method compares very favourably against the other methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号