首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
一种基于粗糙集启发式的特征选择算法   总被引:1,自引:0,他引:1  
梁琰  何中市 《计算机科学》2007,34(6):162-165
本文基于粗糙集中关于非精确集和精确集理论思想,提出了一个新的特征度量指标,即相对互信息比RMI,由此,设计了一种基于粗糙集的启发式特征选择算法MRMI-UC。首先利用可辨识矩阵,计算出条件属性相对于决策属性的核,以核形成当前候选特征子集作为基准点,以最大化相对互信息和不确定性系数为原则,筛选剩余特征。通过对比实验,结果表明,本文提出的算法在多数情况下能够得到较优的特征子集,算法是有效的,切实可行的。  相似文献   

2.
1.引言特征属性选择(feature attribute selection,FAS)是机器学习和模式识别中比较困难而又非常有意义的一个问题。FAS问题是从一个大的侯选属性集合中选择一个较好的、有代表性的属性子集。由于在实际应用中,过多的属性会严重影响归纳学习的质量,一些不必要的属性会加大训练数据量,影响学习速度,损害所生成规则的精度,因此FAS是一个有实际意义的问题。  相似文献   

3.
新的特征选择方法   总被引:1,自引:0,他引:1  
对于一个给定的待分类模式,特征选择要求人们从大量的特征中选取一个最优特征子集,以代表被分类的模式.对特征选择问题提出了基于一种特殊度量的特征选择方法,先通过对数据集的训练得到特殊的度量,然后用该度量对特征进行分类,从各类中选取一个特征,最后再用特征选择算法对所选的特征进行选择.大量实验的结果表示该方法具有较好的效果.  相似文献   

4.
特征降维是文本分类过程中的一个重要环节。在现有特征选择方法的基础上,综合考虑特征词在正类和负类中的分布性质,综合四种衡量特征类别区分能力的指标,提出了一个新的特征选择方法,即综合比率(CR)方法。实验采用K-最近邻分类算法(KNN)来考查CR方法的有效性,实验结果表明该方法能够取得比现有特征选择方法更优的降维效果。  相似文献   

5.
在处理高维特征数据时通常会面临冗余和不相关的问题,Relief作为一种传统的特征选择算法因其具有较高的稳定性和计算效率,从而被广泛应用。但其特征选择结果具有随机性,且对于特征之间存在较强依赖关系的数据集,如共线性等,可能会导致结果不准确。基于对特征选择方法的研究,给出了基于LightGBM和蚁群算法的L-ACO方法,使用LightGBM算法的特征重要性来表示L-ACO算法蚁群路径搜索过程的启发式信息。同时,使用特征之间的皮尔森相关系数来调整信息素浓度,以便更好地控制特征的相关性。实验证明,L-ACO方法可以在保证分类准确率的前提下,减少特征数量,降低特征冗余,并提高算法性能。  相似文献   

6.
基于特征关联性的特征选择算法研究   总被引:5,自引:0,他引:5  
从特征与特征、特征与类的关联性出发,说明了非搜索性特征选择的原理及相关算法。  相似文献   

7.
基于特征的空间数据不确定性管理模型   总被引:1,自引:0,他引:1  
从空间数据的质量表达方法和管理的角度出发,对基于特征的空间数据不确定性管理模型进行研究。首先对现行的元数据质量管理方法进行了分析,指出其不足。随后根据GIS发展的趋势,指出空间数据质量管理面临的挑战和问题,进一步提出了基于特征的空间数据不确定性管理模型,并对模型中几个关键的问题进行了探讨。  相似文献   

8.
9.
特征选择是模式识别系统的分类器设计之前一个重要而困难的一个课题。在目前现有的方法中,基于决策界的特征选择是其中一类方法。文中将覆盖算法应用于特征提取,提出了基于覆盖算法决策界的特征选择算法(Feature SelectionAlgorithm based on the Decision Boundary of Covering Algorithm,简称FSACA法),然后将该算法应用于一个字符识别的实例并与其他算法比较。实验结果证明了FSACA法的可行性和有效性。  相似文献   

10.
特征选择是模式识别系统的分类器设计之前一个重要而困难的一个课题。在目前现有的方法中,基于决策界的特征选择是其中一类方法。文中将覆盖算法应用于特征提取,提出了基于覆盖算法决策界的特征选择算法(Feature Selection Algorithm based on the Derision Boundary of Covering Algorithm,简称FSACA法),然后将该算法应用于一个字符识别的实例并与其他算法比较。实验结果证明了FSACA法的可行性和有效性。  相似文献   

11.
基于最大信息系数和近似马尔科夫毯的特征选择方法   总被引:6,自引:0,他引:6  
最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于新度量标准的近似马尔科夫毯特征选择方法,删除冗余特征.在此基础上提出了基于特征排序和近似马尔科夫毯的两阶段特征选择方法,分别对特征的相关性和冗余性进行分析,选择有效的特征子集.在UCI和ASU上的多个公开数据集上的对比实验表明,本文提出的方法总体优于快速相关滤波(Fast correlation-based filter,FCBF)方法,与ReliefF,FAST,Lasso和RFS方法相比也具有优势.  相似文献   

12.
黄源  李茂  吕建成 《计算机科学》2015,42(5):54-56, 77
开方检验是目前文本分类中一种常用的特征选择方法.该方法仅关注词语和类别间的关系,而没有考虑词与词之间的关联,因此选择出的特征集具有较大的冗余度.定义了词语的“剩余互信息”概念,提出了对开方检验的选择结果进行优化的方法.使用该方法可以得到既有很强表征性又有很高独立性的特征集.实验表明,该方法表现良好.  相似文献   

13.
张莉  陈恭和 《计算机工程》2007,33(4):184-186
研究训练样本重要特征选择问题,提出了一种适合大规模数据集的特征选择方法。在不同的样本空间中利用特征相似性和浮动搜索方法的思想选择特征,基于互信息和分类准确度加权选择分类器,提出了基于Bagging选择性组合算法来提高特征选择算法稳定性。采用KDD Cup’99中的入侵检测数据对算法性能进行了验证。  相似文献   

14.
基于遗传算法和模拟退火算法的特征选择方法   总被引:9,自引:0,他引:9  
针对模式识别时原始特征数量大而有冗余的现象,提出了一种基于遗传退火算法的特征选优方法。首先对遗传算法和模拟退火做了简要评论,然后在遗传算法中引入模拟退火的Boltzmann更新机制,以克服传统的遗传算法易于过早收敛和易于陷入局部极小的问题。最后阐述、设计了适应度函数和遗传算子。仿真实验表明,该方法在求解的效率和解的质量方面都达到了令人满意的效果。  相似文献   

15.
基因表达谱中存在大量与肿瘤分类无关的基因,严重降低肿瘤诊断的准确率.基因表达谱还存在高维小样本、噪声大等问题,增加肿瘤诊断的难度.为了获取基因数量较少且分类能力较强的信息基因子集,文中提出基于对称不确定性(SU)和支持向量机递归特征消除(SVM-RFE)的信息基因选择方法.首先利用SU评估基因和类标签之间的相关性,根据SU定义近似马尔科夫毯,快速消除大量无关和冗余基因.然后利用SVM-RFE进一步剔除冗余基因,获取有效的信息基因子集.实验表明,文中方法可以在选取维数较少或相等的信息基因子集情况下获取较高的肿瘤分类性能.  相似文献   

16.
Arrhythmia has been classified using a variety of methods. Because of the dynamic nature of electrocardiogram (ECG) data, traditional handcrafted approaches are difficult to execute, making the machine learning (ML) solutions more appealing. Patients with cardiac arrhythmias can benefit from competent monitoring to save their lives. Cardiac arrhythmia classification and prediction have greatly improved in recent years. Arrhythmias are a category of conditions in which the heart's electrical activity is abnormally rapid or sluggish. Every year, it is one of the main reasons of mortality for both men and women, worldwide. For the classification of arrhythmias, this work proposes a novel technique based on optimized feature selection and optimized K-nearest neighbors (KNN) classifier. The proposed method makes advantage of the UCI repository, which has a 279-attribute high-dimensional cardiac arrhythmia dataset. The proposed approach is based on dividing cardiac arrhythmia patients into 16 groups based on the electrocardiography dataset’s features. The purpose is to design an efficient intelligent system employing the dipper throated optimization method to categorize cardiac arrhythmia patients. This method of comprehensive arrhythmia classification outperforms earlier methods presented in the literature. The achieved classification accuracy using the proposed approach is 99.8%.  相似文献   

17.
本文针对入侵检测系统(IDS)被检测数据的特点,对适用于IDS的特征选择算法进行了研究,提出了一种基于分类的多次模糊迭代特征选择算法。该算法包括在属性空间中搜索特征子集、评估每个候选特征子集和分类这3个步骤,设计了与之相应的搜索算法和评估函数;算法通过多次迭代去除特征值集的冗余特征,得到精确度较高的特征值集;使用模糊逻辑得到与精确度要求相应的取值范围;由于单纯对数据进行操作,能比依赖于领域知识的算法更客观地分析数据。文内还对所提出的算法做了测试实验;并将实验结果与用可视化工具产生的特征可视化结果进行了比较。结果表明:该算法在IDS数据集上可取得良好的特征选择效果。  相似文献   

18.
入侵检测建模过程中特征提取最优化评估   总被引:2,自引:0,他引:2  
胡威  李建华  陈波 《计算机工程》2006,32(12):150-151,168
在入侵检测建模过程中,特征提取是一个重要的步骤。特征提取有利干提高入侵检测的效率和准确性,好的特征可以在特征空间提供完美的分类独立性。但在以往的入侵检测模型评估中,对原始数据的特征提取并没有涉及提取的标准和原则。文章利用KDD数据集,针对不同种类的网络入侵攻击,使用经典聚类算法对特征提取的特征类别进行比较,以获取该领域的知识。  相似文献   

19.
电子邮件是互联网的最重要应用之一,尽管给人们日常工作和生活带来很大便利,但也带来了一种令人讨厌的副产品一一垃圾邮件。对邮件进行分类已成为当前的一个研究热点,而如何进行邮件特征选择,是邮件分类中一个基本也是很重要的问题。本文在分析比较几种用于邮件分类的典型特征选择方法基础上,提出一种新的结合了Mitra's算法和顺序前进搜索法优点的邮件特征选择方法。实验结果表明该方法能够改进邮件分类的准确率,验证了本文方法的有效性和可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号