首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 80 毫秒
1.
特征选择是一种处理维数约简的有效方法。以条件熵为特征子集评价条件,采用随机搜索和启发式搜索相结合的搜索策略,设计了一种新的特征选择方法。该方法不仅能够求得经典启发式特征选择方法的选到特征子集,还可以得到一些与其不同的满足条件特征子集,同时在多数情况下可以减少时间消耗。实验研究表明了提出的算法的有效性。  相似文献   

2.
基于模糊自适应粒子群的垃圾邮件过滤新方法   总被引:1,自引:1,他引:0  
提出了一种新的垃圾邮件过滤方法(NSFM),从高维的文本特征中删除冗余的特征,选择对分类精度提高有贡献的特征,从而提高了垃圾邮件过滤的分类准确率。提出了一种模糊自适应粒子群(IFAPSO),通过模糊控制,动态的调控粒子群的惯性权重、学习因子和粒子数量比。NSFM包含核心特征选择、特征选择、垃圾邮件过滤3个阶段,第一阶段利用信息增益求取每个特征的信息值,构建核心特征集合,生成一定数量的核心特征子集;第二阶段根据核心特征子集对IFAPSO进行初始化,利用模糊控制器对粒子群进行自适应的调节,完成特征选择;第三阶段使用支持向量机对最优的特征子集分类,完成垃圾邮件过滤。本文采用PU1、Ling-Spam、SpamAssassin数据集数,通过多种对比实验证明:本方法自适应性强,可选择到较优的特征子集,有效地提高了分类精度,提升了垃圾邮件过滤的性能,具有较高的实用价值。  相似文献   

3.
基于自适应多种群遗传算法的特征选择   总被引:1,自引:0,他引:1  
针对标准遗传算法早熟收敛和局部搜索能力弱的缺点,提出了一种自适应多种群的遗传算法(AMGA),包含了多种群规划模型(MPP)和动态选择操作算法(DSA),应用于特征选择处理,从多维特征集合中寻找最优的特征子集。该方法扩展了搜索空间,自适应地调整多个种群的运行状态,有效地控制早熟收敛,增强了局部搜索能力。最后,将本文方法与标准遗传算法的试验结果进行比较,表明本文算法选择的特征数量较少、分类精度较高,可广泛应用于特征选择领域。  相似文献   

4.
针对特征排序方法较少考虑特征之间的相关关系,导致选择的特征子集存在冗余的问题,提出一种引入冗余控制的特征排序模型。将特征子集判别能力最大且冗余程度最小作为模型的目标函数,以降低特征之间的冗余;使用贪心方法和非线性规划方法对模型进行求解。在9个开源数据上的实验及与特征排序方法比较表明,本模型在大部分数据上,所选择的特征子集能够获得更好的分类准确性且个数更少;使用非线性规划方法求解时,能够直接得到特征子集,有利于确定特征个数。本模型可用于特征之间存在冗余时的特征选择。  相似文献   

5.
常用的特征选择方法利用样本空间的整个区域提取最优的特征子集。与此相反,本文中提出一种新的局部特征选择方法,即样本空间的每个区域都与各自不同的最优特征集相关联,这些特征集能够最优地适应样本空间的局部变化。同时,在求解最优特征集对应的子空间时,基于最近邻思想,本文提出了一种度量测试数据与各个类相似性的方法,用来对测试样本进行分类。本文提出的方法可以描述为线性规划优化问题,因此可以通过简单的凸优化来求解全局最优解。在三组真实数据集和三个主流的方法上进行的对比实验结果证明了该算法的可行性和有效性。  相似文献   

6.
根据基因表达谱数据高维度、小样本、高噪声的特点,提出一种基于相关特征选择(Correlation- based Feature Selection ,CFS)的分层抽样的基因特征选择方法(简称CFS- SS)。首先,利用CFS算法提取与分类相关性大的特征基因集,然后通过分层方法构造多层特征子集空间,在部分层空间中寻找最优特征子集。在Leukemia, Colon, Prostate数据集上进行了交叉测试实验。实验结果表明, CFS- SS有效地从不同层次的特征子集样本中可以提取出有价值的基因特征集,在不同的分类器上取得较好的分类性能。  相似文献   

7.
基于成对约束的特征选择算法通过度量单个特征的重要性得到一个特征序列,但由单个重要特征构成的特征子集未必是最有效的.为此,提出了一种基于成对约束的特征选择改进算法,该算法采用对特征子集进行度量的策略,逐步选择使新的特征子集最有效的特征,从而得到一个有效的特征序列.实验表明新提出的算法是有效可行的.  相似文献   

8.
特征降维是文本分类中的重要环节.在对常用的特征选择方法分析研究的基础上,提出一种将评估函数和Boosting算法相结合的特征选择方法,该算法采用基于Boosting算法的汉明损失作为最终特征子集的评估准则,进一步寻找具有关键作用的特征项,进而形成最终用于分类的特征子集.数据集上的实验结果表明,该方法有效地改善了分类性能.  相似文献   

9.
并行免疫克隆特征选择算法   总被引:1,自引:0,他引:1  
针对模式识别中传统的封装式特征选择算法,难以得到较好的特征子集和复杂度较高的分类器评价特征子集的耗时问题,提出了一种用于特征选择的并行免疫克隆算法,采用免疫克隆算法搜索特征,并利用并行算法评价特征子集,即将种群中个体的适应度计算并行在多个计算节点上同时进行.将该算法在Linux刀片集群上基于MPICH软件对UCI数据集进行特征子集选择算法仿真,特征子集采用最近邻分类并采用留一法验证评价.结果表明该算法选出的特征子集优于经典的顺序浮动前向搜索算法和标准遗传算法,与串行算法运行时间相比,在40个CPU时其加速比最高可达29.57.  相似文献   

10.
粗糙集与支持向量机在肝炎诊断中的应用   总被引:3,自引:1,他引:2  
提出了一种基于粗糙集与支持向量机(SVM)的肝炎诊断方法.利用粗糙集对原始特征进行约减,得到多个特征子集,然后采用组选择算法进行二次约减,根据约减后的特征子集生成新的数据集,使用SVM对新的数据集进行训练和预测.采用UCI机器学习公共数据集,试验结果与数据分析表明,与SVM、神经网络(NN)、决策树所预测的结果对比,本...  相似文献   

11.
为了解决基因选择困难问题,提出一种基于改进的K-means算法融合微粒群优化(IKPSO)的基因选择方法。该方法首先运用过滤法(Relief)对基因进行筛选,选择出对分类贡献大的基因构成备选基因子集;然后,利用改进的K-means算法将备选基因子集划分为一定数目的簇,并运用微粒群(PSO)对每一类簇进行搜索选择出相应类簇中的最优和次优基因构成最优特征基因子集;最后,训练支持向量机(SVM),并利用其分类的性能来评价获得的最优特征基因子集的质量。在两个典型的、公开的小样本的高维微阵列数据集上进行的实验,结果表明该IKPSO算法总体分类性能相对较好,并且与传统方法相比,IK-PSO分类性能得到显著的提高,证明了IK-PSO的可行性以及有效性。  相似文献   

12.
为避免负荷预测特征集中冗余特征对预测精度的负面影响,降低预测器复杂度,提出一种基于条件互信息(CMI)和高斯过程回归(GPR)的短期负荷预测特征选择方法.首先,为降低建模所用特征量,根据与目标变量具有最大互信息的特征,选取剩余特征中可对目标变量提供最大信息增益的特征,计算CMI值并进行排序;然后,以GPR为预测器,以其预测结果平均绝对百分比误差为决策变量,按照特征CMI值排序顺序,采用序列前向选择方法,确定最优特征子集;最终,以最优特征子集构建GPR预测模型,并与皮尔逊相关系数法(PCC)和互信息(MI)2种特征选择方法分别结合支持向量机和反向传播神经网络开展对比实验.实验结果证明新方法降低了最优特征集合冗余度与预测模型复杂度,且具有更高的预测精度.  相似文献   

13.
在石漠化信息的分类和提取过程中,冗余特征的存在影响分类器的性能,同时增加计算的复杂度。提出一种基于K2结构学习算法的石漠化数据特征选择方法,该方法通过BIC评分方法得到贝叶斯网络的结构,从中获得类节点的马尔可夫覆盖,继而进行特征选择。同时借用不同评分函数的等价性来确定结构学习时所需的样本数,并且给出了样本数的参考。实验表明,该方法由于结合了样本的分类信息,获得的特征子集是最优的,显著提高了分类精度,降低了计算复杂度。  相似文献   

14.
机器人在进行动态目标识别过程中,由于同一物体在运动中会引起多种目标图像参数的改变,对特征选择与提取造成困难.介绍一种新的基于遗传算法的机器人动态目标特征选择方法.用遗传算法对目标的不变矩特征进行选择.通过对特征进行二进制编码,采用类内类间距离作为适应度函数,对其进行选择和优化,获得最优特征子集.实验结果表明与其他方法相比,提高了目标的识别率.  相似文献   

15.
针对传统单标签特征选择算法不能直接应用于多标签数据的问题,提出一种多标签特征选择算法——MML-RF算法.在ReliefF的基础上,MML-RF算法提出新的类内最近邻样本查找方式,并结合多标签的贡献值改进特征权值的计算方法,能很好地适应多标签数据的特点;同时为了减少特征冗余,MML-RF算法以互信息作为特征冗余度量方式,提出一种去冗余方法,能够得到更小的特征子集.实验表明,MML-RF多标签特征选择算法得到的特征子集规模较小,且在多标签数据集上具有很好的分类效果,能够提升多标签学习和数据挖掘工作的效率.  相似文献   

16.
面向不平衡问题的集成特征选择   总被引:3,自引:1,他引:2  
传统的特征选择方法基本上是以精度为优化目标,没有充分考虑数据样本类别分布倾斜性,在数据分布不平衡的数据集上性能表现不理想。在不平衡数据集上通过有放回的抽样方法独立地从数据集大类样本集中随机抽取多个样本子集,使每次随机抽取的样本数量与小类样本数量一致,然后将各抽取的样本子集分别与小类样本集组合成多个新的训练样本集。对多个新样本集的特征子集以集成学习的方式采用投票机制进行投票,数据集的最终特征子集以得票数目超过半数的特征共同组合而成。在UCI不平衡数据集上的实验结果显示,提出的方法表现出了较好的性能,是一种能够处理不平衡问题的有效特征选择方法。  相似文献   

17.
本文主要提出了一种结合机会调度(OS)和发射天线子集选择(Tx-AnSS)的STBC-MIMO系统并对它进行了性能分析,其中用户和天线子集是根据从接收端反馈的信道状态信息(CSI)而自适应选择的。首先推导得到了平均有效信噪比、符号误码率以及中断概率的解析表达和近似表达式,分析结果表明在结合多用户分集(MUD)和发射天线子集选择的STBC-MIMO系统相对于没有多用户分集和发射天线子集选择的系统提供了更大的分集合更好的性能。 此外,通过渐近分析得到了基于中断概率的分集增益的量化表达式。最后,通过相应的仿真结果很好的验证了分析结果。  相似文献   

18.
特征选择是机器学习和模式识别等领域的重要问题之一.从特征相关性和冗余性的出发,分析了特征相关性的大小与分类能力之间的联系,并利用相关系数对相关特征和冗余特征进行预选取,然后使用顺序前向搜索方法作进一步的降维处理,得到了一种基于相关性的最优特征子集选择方法.实验结果表明,该方法是一种有效的特征选择方法.  相似文献   

19.
通过特征选择的方法解决皮肤检测过程中颜色空间的选取问题,针对现有基于互信息的特征选择方法的不足,提出了改进方法:1)使用互信息缩小特征选择范围,然后选择使分类效果最佳的特征子集;2)尝试多种可能的特征子集初始化方案,然后选择其中最优的方案.实验结果和对比分析表明,使用改进后的特征选择方法得到的混合颜色空间,其皮肤检测效果优于传统颜色空间和已有混合颜色空间.  相似文献   

20.
在模式识别中,对于一些常用的特征选择算法存在理论性不强、随机性高、计算量大的缺点,提出了一种基于主成分分析(PCA)的特征选择方法。对训练数据进行PCA变换;以识别率为准则,考察不同的累积方差贡献率对识别精度的影响;根据识别率的最高点选择相应的变换矩阵进行分析;利用变换矩阵分析出各种原始特征的变换权重,根据权重的大小选择出重要的特征。实验结果表明,选择出的特征子集对不同分类器具备稳定性,并且对识别率具有较高贡献。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号