首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
提出了KDD中数据预处理的一种基本算法.针对数据库中的属性,利用非监督学习算法,在获取了面向任务的目标数据子集的基础上,利用混合优化算法进行特征子集的选取.分析了遗传算法和混合遗传算法用于特征子集选择的基本算法,仿真实验说明了混合优化算法的有效性和可行性.  相似文献   

2.
基于自适应聚类的数据预处理算法Ⅰ   总被引:4,自引:1,他引:4  
提出了KDD的一种逻辑模型。以数据库或数据仓库中的数据为例,根据先验知识或可能的挖掘目标,利用SQL命令滤除无关属性,形成基于某种概念分层的归纳数据库或汇总数据库。针对数据库中的属性,利用非监督学习算法,获取相应聚类,从而形成面向任务的目标数据子集,以保证数据挖掘结果的质量和有效性。  相似文献   

3.
容忍噪音的特征子集选择算法研究   总被引:4,自引:0,他引:4  
特征子集选择问题一直是人工智能领域研究的重要内容,特别是近几年来,特征子集选择算法研究已经成为机器学习和数据挖掘等领域的研究热点,提出了一个新的特征子集选择算法-容忍噪音的特征子集选择算法(NFS),该算法将聚类的思想引入到噪音的处理,并将Gini系数和墨西哥帽函数应用于特征选取,实现对偏吸噪音数据集的特征子集选择,实际领域的实验结果表明,NFS算法具有噪音容忍度高,选择特征代表性强和求解速度快的优点,因此能够有效地应用于实际领域。  相似文献   

4.
特征选择是机器学习、模式识别和数据挖掘等领域数据预处理阶段的重要步骤.现实中采集的数据维度很高,存在大量冗余和噪声数据,这使得计算时间增加的同时还会对建模结果产生误导性.结合属性子集的广义重要度和智能优化runner-root算法提出一种特征选择算法,用runner-root算法进行迭代寻优,用属性子集的广义重要度和所...  相似文献   

5.
目前已有蚁群算法优化的特征选择方法,大多采用的是以属性依赖度和信息熵属性重要度作为路径上启发搜索因子,但这类搜索方法在某些决策表中存在算法早熟或搜索到的特征子集包含了冗余特征,从而导致选择精度显著下降。针对此类问题,根据条件属性在分辨矩阵中的占比提出了一种属性重要度的度量方法,以分辨矩阵重要度作为路径上启发因子,设计了一种基于分辨矩阵与蚁群算法优化的特征子集搜索方法。该算法从特征核出发,蚁群依次选择概率大的特征加入特征核集,直至找到最小特征子集算法终止。通过实例验证和UCI数据集实验结果表明,与基于属性依赖度和信息熵属性重要度的特征选择方法相比,在通常情况下,该算法能较小代价找到最小特征子集,并且可以有效减少计算工作量。  相似文献   

6.
基于信息熵的特征子集选择启发式算法的研究   总被引:2,自引:0,他引:2  
特征子集选择问题是机器学习和模式识别中的一个重要问题,最优特征子集选择问题已被证明是NP难题。然而,目前的特征子集选择的启发式算法是基于正反例一致的,没有考虑到实际应用中的噪音数据影响,使得选择一个较好的特征子集非常困难,首先从统计学的角度分析了噪音对特征子集选择的影响,给出了含有错误率的一致特征子集概念,然后利用信息熵和拉普拉斯错误估计函数构造了特征子集选择启发式算法EFS。  相似文献   

7.
基于聚类和二进制PSO的特征选择   总被引:1,自引:1,他引:0  
特征选择是模式识别及数据挖掘等领域的重要问题之一.特征选择不但可以提高分类精度和效率,也可以找出富含信息的特征子集.针对此问题,在分析了常用的一些特征选择算法之后,文中提出一种基于聚类和二进制PSO算法的特征选择方法,首先基于特征之间的相关性聚类来进行特征分组及筛选,然后针对经过筛选而精简的特征子集采用二进制粒子群算法进行随机搜索.实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,具有特征精简幅度较大、运行效率较高等优点.  相似文献   

8.
基于关联规则的特征选择算法   总被引:2,自引:0,他引:2  
关联规则能够发现数据库中属性之间的关联,通过优先选择短规则用于相关属性的选择,有可能得到最小的属性子集.基于此,本文提出一种基于关联规则的特征选择算法,实验结果表明在属性子集大小和分类精度上优于多种特征选择方法.同时,对支持度和置信度对算法效果的影响进行探索,结果表明高的支持度和置信度并不导致高的分类精度和小的特征子集,而充足的规则数是基于关联规则特征选择算法高效的必要条件.  相似文献   

9.
翟俊海    刘博  张素芳 《智能系统学报》2017,12(3):397-404
特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程,是数据挖掘的重要预处理步骤。通过剔除冗余属性,以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题,提出了一种将粗糙集相对分类信息熵和粒子群算法相结合的特征选择方法,依托粒子群算法,以相对分类信息熵作为适应度函数,并与其他基于进化算法的特征选择方法进行了实验比较,实验结果表明本文提出的方法具有一定的优势。  相似文献   

10.
本文在基于粗糙集理论的最小差异表MDL上,使用增量方式构造了与MDL相类似的简单差异矩阵SDM,以SDM近似约简集为起点对属性子集空间进行前向搜索,提出了一种基于粗糙集的混合特征选择算法。该算法大大提高了特征选择的效率和准确性,适用于数据挖掘的预处理过程。  相似文献   

11.
基于相关性分析及遗传算法的高维数据特征选择   总被引:4,自引:0,他引:4  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,提出了一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征与类别标签的相关性分析进行特征筛选,只保留与类别标签具有较强相关性的特征,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。  相似文献   

12.
Feature Subset Selection within a Simulated Annealing Data Mining Algorithm   总被引:2,自引:0,他引:2  
An overview of the principle feature subset selection methods isgiven. We investigate a number of measures of feature subset quality, usinglarge commercial databases. We develop an entropic measure, based upon theinformation gain approach used within ID3 and C4.5 to build trees, which isshown to give the best performance over our databases. This measure is usedwithin a simple feature subset selection algorithm and the technique is usedto generate subsets of high quality features from the databases. A simulatedannealing based data mining technique is presented and applied to thedatabases. The performance using all features is compared to that achievedusing the subset selected by our algorithm. We show that a substantialreduction in the number of features may be achieved together with animprovement in the performance of our data mining system. We also present amodification of the data mining algorithm, which allows it to simultaneouslysearch for promising feature subsets and high quality rules. The effect ofvarying the generality level of the desired pattern is alsoinvestigated.  相似文献   

13.
基于遗传算法及聚类的基因表达数据特征选择   总被引:1,自引:0,他引:1  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。  相似文献   

14.
一种基于信息增益及遗传算法的特征选择算法   总被引:8,自引:0,他引:8  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,本文提出一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征之间的信息增益进行特征分组及筛选,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。  相似文献   

15.
Intrusion Detection System (IDS) is an important and necessary component in ensuring network security and protecting network resources and network infrastructures. How to build a lightweight IDS is a hot topic in network security. Moreover, feature selection is a classic research topic in data mining and it has attracted much interest from researchers in many fields such as network security, pattern recognition and data mining. In this paper, we effectively introduced feature selection methods to intrusion detection domain. We propose a wrapper-based feature selection algorithm aiming at building lightweight intrusion detection system by using modified random mutation hill climbing (RMHC) as search strategy to specify a candidate subset for evaluation, as well as using modified linear Support Vector Machines (SVMs) iterative procedure as wrapper approach to obtain the optimum feature subset. We verify the effectiveness and the feasibility of our feature selection algorithm by several experiments on KDD Cup 1999 intrusion detection dataset. The experimental results strongly show that our approach is not only able to speed up the process of selecting important features but also to yield high detection rates. Furthermore, our experimental results indicate that intrusion detection system with feature selection algorithm has better performance than that without feature selection algorithm both in detection performance and computational cost.  相似文献   

16.
在很多的机器学习和数据挖掘任务中,特征子集选择是重要的数据预处理步骤之一。提出一种基于图方法的无监督式特征选择方法(GBFS),构造一个以样本数据为顶点,数据间相似性作为边的图,再根据各特征的得分优先选择那些具有局部信息保持和全局区分能力的特征。实验结果表明,基于该方法选择的特征子集,在大多数情况下都能取得较好的分类效果。  相似文献   

17.
针对在数据挖掘过程中存在的维度灾难和特征冗余问题,本文在传统特征选择方法的基础上结合强化学习中Q学习方法,提出基于强化学习的特征选择算法,智能体Agent通过训练学习后自主决策得到特征子集.实验结果表明,本文提出的算法能有效的减少特征数量并有较高的分类性能.  相似文献   

18.
大数据时代,数据的共享与挖掘存在隐私泄露的安全隐患。针对使用K-匿名隐藏实现隐私保护会大幅降低数据分类挖掘性能问题,提出一种基于随机森林特征重要性的K-匿名特征选择算法(RFKA)用于分类挖掘。使用随机森林特征重要性度量特征的分类性能;采用前向序列搜索策略每次选择不破坏K-匿名且分类性能最大的特征加入特征子集;使用特征子集对应的数据集构建模型进行分类实验。实验结果表明,该算法能更有效地平衡K-匿名和分类挖掘性能,且算法运行效率更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号