共查询到20条相似文献,搜索用时 85 毫秒
1.
2.
3.
针对冗余属性和不相关属性过多对肺部肿瘤诊断的影响以及Pawlak粗糙集只适合处理离散变量而导致原始信息大量丢失的问题,提出混合信息增益和邻域粗糙集的肺部肿瘤高维特征选择算法(Information gain-neighborhood rough set-support vector machine,IG-NRS-SVM)。该算法首先提取3 000例肺部肿瘤CT图像的104维特征构造决策信息表,借助信息增益结果选出高相关的特征子集,再通过邻域粗糙集剔除高冗余的属性,通过两次属性约简得到最优的特征子集,最后采用网格寻优算法优化的支持向量机构建分类识别模型进行肺部肿瘤良恶性的鉴别。从约简和分类识别两个角度验证方法的可行性与有效性,并与不约简算法、Pawlak粗糙集、信息增益和邻域粗糙集约简算法进行对比。结果表明混合算法精确度优于其他对比算法,精确度达到96.17%,并且有效降低了时间复杂度,对肺部肿瘤计算机辅助诊断具有一定的参考价值。 相似文献
4.
胡颖 《计算机与数字工程》2013,41(3)
论文提出了一种基于信息增益改进的信息增益文本特征选择方法.首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响.其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰.最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集.通过对照不同算法的测评函数值,表明论文选取的特征子集具有更好的分类能力. 相似文献
5.
6.
特征选择是文本分类的一个重要环节,它可以有效提高分类精度和效率。在研究文本分类特征选择方法的基础上,分析了信息增益方法的不足,将频度、集中度、分散度应用到信息增益方法上,提出了一种基于信息增益的特征优化选择方法。实验表明,该方法在分类效果与性能上都优于传统方法。 相似文献
7.
一种基于信息增益及遗传算法的特征选择算法 总被引:8,自引:0,他引:8
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,本文提出一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征之间的信息增益进行特征分组及筛选,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。 相似文献
8.
目前在识别钓鱼网站的研究中,对识别速度有着越来越高的需求,因此提出了一种基于混合特征选择模型的钓鱼网站快速识别方法.混合特征选择模型包含初次特征选择、二次特征选择和分类三个主要部分,使用信息增益、卡方检验相结合以及基于随机森林的递归特征消除算法建立了混合特征选择模型,并在模型中使用分布函数与梯度,获取最佳截断阈值,得到... 相似文献
9.
支持向量机是一种基于核的学习方法,核函数及核参数的选择直接影响到SVM的泛化能力。传统的参数选择方法如网格搜索法,由于其计算量大,训练过程十分耗时,提出了一种新的快速选择最优核参数方法,该方法通过计算各类别在特征空间的可分性度量值来决定最优核参数,不需训练相应SVM分类模型,从而大大缩减了训练时间,提高了训练速度,且分类精度与传统方法相比,具有相当的竞争力。实验证明,该算法是可行有效的。 相似文献
10.
11.
针对网页欺诈检测中特征的高维、冗余问题,提出一个基于信息增益和遗传算法的改进特征选择算法(IFS-BIGGA)。首先,通过信息增益(IG)给出特征重要性排序,设定动态阈值减少冗余特征;其次,改进遗传算法(GA)中染色体编码函数和选择算子,并结合随机森林(RF)的受试者工作特征曲线面积(AUC)作为适应度函数,选择高辨识度特征;最后,增加实验迭代次数避免算法随机性,产生最佳最小的特征集合(OMFS)。实验验证表明,应用IFS-BIGGA生成的OMFS与高维特征集合相比,尽管RF下的AUC减小了2%,但是真阳性率(TPR)提高了21%,并且特征维度减少了92%;同时多个常用分类器的平均检测时间减少了83%;另外,IFS-BIGGA的F1值相比传统的遗传算法(TGA)和帝国主义竞争算法(ICA)分别提高了4.2%和3.5%。实验结果表明,IFS-BIGGA可以进行高效特征降维,在实际的网页检测工程中,有效减少计算代价,提高检测效率。 相似文献
12.
为解决特征选择ReliefF算法在利用欧氏距离选取近邻样本过程中,算法稳定性差以及选取的特征子集分类准确率低的问题,提出了一种利用最大信息系数(MIC)作为近邻样本选择标准的MICReliefF算法;同时,以支持向量机(SVM)模型的分类准确率作为评价指标,并多次寻优,以自动确定其最优特征子集,从而实现MICReliefF算法与分类模型的交互优化,即MICReliefF-SVM自动特征选择算法。在多个UCI公开数据集上对MICReliefF-SVM算法的性能进行了验证。实验结果表明,MICReliefF-SVM自动特征选择算法不仅可以筛除更多的冗余特征,而且可以选择出具有良好稳定性和泛化能力的特征子集。与随机森林(RF)、最大相关最小冗余(mRMR)、相关性特征选择(CFS)等经典的特征选择算法相比,MICReliefF-SVM算法具有更高的分类准确率。 相似文献
13.
针对故障诊断中数据存在噪声和高维的缺点,使用一种快速特征提取方法对故障数据进行降维,该方法以特征信号的均值和方差作为其权重衡量的依据。利用支持向量机的模式分类功能,构造了基于特征提取的多故障分类器。实例表明,在保证诊断效果的情况下,该方法实现了数据降维,降低了运算复杂度。 相似文献
14.
利用支持向量机进行模式分类时,特征选择是数据预处理的一项重要内容。有效的特征选择在很大程度上影响着分类器的性能。根据样本各特征分量的均值与方差对分类的影响,提出根据分类权值进行特征选择,以提高支持向量机性能的简便方法,制定了两个具体实施方案。在三个常用数据集上进行了仿真实验,结果验证了方法的有效性。 相似文献
15.
为了提高网络入侵检测正确率,利用特征选择和检测分类器参数间的相互联系,提出一种特征和分类器联合优化的网络入侵检测算法。联合优化方法将网络状态特征和分类器参数作为遗传算法的个体,网络入侵检测正确率作为个体适应度函数,通过选择、交叉和变异等遗传操作获得最优特征和分类器参数,利用KDD 1999数据集对联合优化算法进行验证性测试。实验结果表明,相对于其他入侵检测算法,联合优化算法既解决了特征与分类器不匹配带来的入检测检测能力下降,又提高了网络入侵检测正确率和效率,为网络入侵检测提供了一种新的研究思路。 相似文献
16.
17.
针对支持向量机在特征选择方面具有自动选择的功能,提出了一种改进的最少核分类器。在样本测试中使用更少的特征维数,减少识别过程计算量。数值试验表明,改进过的分类器能有效压缩无用的特征属性,具有较强的泛化能力。 相似文献
18.
特征子集选择和训练参数的优化一直是SVM研究中的两个重要方面,选择合适的特征和合理的训练参数可以提高SVM分类器的性能,以往的研究是将两个问题分别进行解决。随着遗传优化等自然计算技术在人工智能领域的应用,开始出现特征选择及参数的同时优化研究。研究采用免疫遗传算法(IGA)对特征选择及SVM 参数的同时优化,提出了一种IGA-SVM 算法。实验表明,该方法可找出合适的特征子集及SVM 参数,并取得较好的分类效果,证明算法的有效性。 相似文献
19.
20.
随着生物信息学、基因表达谱微阵列、图像识别等技术的发展,高维小样本分类问题成为数据挖掘(包括机器学习、模式识别)中的一项挑战性任务,容易引发"维数灾难"和过拟合问题。针对这个问题,特征选择可以有效避免维数灾难,提升分类模型泛化能力,成为研究的热点,有必要对国内外高维小样本特征选择主要研究情况进行综述。首先分析了高维小样本特征选择问题的本质;其次,根据其算法的本质区别,重点对高维小样本数据的特征选择方法进行分类剖析和比较;最后对高维小样本特征选择研究面临的挑战以及研究方向作了展望。 相似文献