首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
集成数据选择特征基因   总被引:2,自引:0,他引:2  
特征选择技术在利用基因芯片进行疾病的分类和诊断中起到了关键作用。该文提出了一种新的集成数据选择特征基因的方法;针对多来源数据中的每一个,首先计算每个基因在这一数据上的差异表达统计量,然后用这些统计量来代替这一原始数据进而提取特征。在4个真实的基因表达数据集上对提出的方法进行测试并与对照的方法比较,实验结果显示,提出的方法所选出的特征应用于分类的效果更好。  相似文献   

2.
由于候选特征与类标签间的相关性,候选特征、已选特征与类标签间的交互性以及特征间的冗余性是特征选择算法应考虑的重要因素,而一些基于互信息和三维互信息的特征选择算法没有同时考虑相关性、交互性和冗余性信息,这影响了它们的性能。针对该问题,提出一种采用冗余性动态权重的特征选择算法,将对称不确定性和三路交互信息作为评价指标,采用一种动态更新特征权重的方法使目标函数在考虑相关性、交互性的基础上,同时考虑特征间的冗余性。在10种数据集上利用3种分类器与典型的基于互信息的特征选择算法做了对比实验,结果表明所提算法具有更好的特征选择性能。  相似文献   

3.
结合ReliefF和互信息的多标签特征选择算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统单标签特征选择算法不能直接应用于多标签数据的问题,提出一种多标签特征选择算法——MML-RF算法.在ReliefF的基础上,MML-RF算法提出新的类内最近邻样本查找方式,并结合多标签的贡献值改进特征权值的计算方法,能很好地适应多标签数据的特点;同时为了减少特征冗余,MML-RF算法以互信息作为特征冗余度量方式,提出一种去冗余方法,能够得到更小的特征子集.实验表明,MML-RF多标签特征选择算法得到的特征子集规模较小,且在多标签数据集上具有很好的分类效果,能够提升多标签学习和数据挖掘工作的效率.  相似文献   

4.
并行免疫克隆特征选择算法   总被引:1,自引:0,他引:1  
针对模式识别中传统的封装式特征选择算法,难以得到较好的特征子集和复杂度较高的分类器评价特征子集的耗时问题,提出了一种用于特征选择的并行免疫克隆算法,采用免疫克隆算法搜索特征,并利用并行算法评价特征子集,即将种群中个体的适应度计算并行在多个计算节点上同时进行.将该算法在Linux刀片集群上基于MPICH软件对UCI数据集进行特征子集选择算法仿真,特征子集采用最近邻分类并采用留一法验证评价.结果表明该算法选出的特征子集优于经典的顺序浮动前向搜索算法和标准遗传算法,与串行算法运行时间相比,在40个CPU时其加速比最高可达29.57.  相似文献   

5.
用知识的条件粗糙熵定义了特征的相对重要性,提出了一种基于条件粗糙熵的入侵数据特征并行选择算法。算法首先将入侵数据决策表划分成多个子表,然后利用特征的相对重要性对各子表并行求解,最后以子表选出的局部特征为基础求得原决策表的约简。实验表明,该算法适用于大规模的入侵数据集,选出的特征属性不仅可以大大减少数据在存储、分析以及各组件共享中的代价,还能够保持并提高入侵分类的准确性。  相似文献   

6.
通过互信息的思想提出一个新的评价函数来评价属性之间的相关性,并结合LV算法进行特征子集选择.结果表明,该方法对分类问题效果明显.  相似文献   

7.
压缩特征向量的维数,在较低维特征空间中进行分类器设计是特征选择与提取的目的。本文介绍了相关概念,给出了常见的几种类别可分性判据,讨论了特征选择的几种常用算法。  相似文献   

8.
特征选择及其常用算法   总被引:1,自引:0,他引:1  
压缩特征向量的维数,在较低维特征空间中进行分类器设计是特征选择与提取的目的.本文介绍了相关概念,给出了常见的几种类别可分性判据,讨论了特征选择的几种常用算法。  相似文献   

9.
在开放动态环境下分类学习的任务中,数据通常存在类别长尾分布的特点,且数据标记空间存在层次化结构关系以及动态性.针对实际任务中不同的需求,许多特征选择算法被提出,但是这些已有的特征选择算法忽略数据的长尾分布特点和特征空间的不确定性.针对上述问题,文中提出基于邻域粗糙集的长尾分布数据在线流特征选择算法.借助邻域粗糙集模型,并考虑邻域内样本间的关系后,定义了自适应邻域关系,设计基于稀有类样本重要性的依赖度计算公式.同时,利用层次结构降低类别不平衡性,提出在线冗余度分析和在线重要度分析两种在线特征评价指标,用于选出具有高可分离性和强区分性的特征子集.实验结果表明所提算法优于其它先进算法.  相似文献   

10.
将一种新的特征选择算法(F-sco re)与多种机器学习算法相结合用于多分类问题中.使用十折交叉验证对比模型的分类效果,利用分类误差验证该方法的鲁棒性.实验结果表明,文中使用的新的基于F-score的特征选择方法与传统机器学习算法相结合具有很好的性能,能够使用比原始数据集更少特征并产生良好分类结果,尤其在与迭代随机森林方法相结合的情况下,能够显著提高模型分类精度.  相似文献   

11.
使用遗传算法的乳腺微钙化点特征优化   总被引:1,自引:0,他引:1  
乳腺微钙化点包含众多属性,由于其中存在的冗余和不相关属性降低了微钙化点病变类型判别的性能。因此,特征子集选择问题成为微钙化点病变类型识别中的重要问题。该文针对传统优化方法用于特征选择的种种缺陷,提出了基于遗传算法的特征子集选择测算法。经乳腺微钙化点特征选择实例分析,证明该方法拥有较强的并行性和寻优能力,在特征选择领域有广阔的应用前景。  相似文献   

12.
结合Filter和Wrapper方法的优点,提出一种基于集成遗传算法(FSEGA)的特征选择方法,用于从基因表达谱数据中选择特征基因。根据基因正负样本的分布关系定义信息指标过滤噪声基因,在递归特征消除过程中根据基因的集成权值生成候选基因子集,选择分类测试中具有最高AUC(接收者工作特征曲线下的面积)值的候选基因子集作为基因表达谱数据集的特征基因子集,将支持向量机(SVM)用于算法的适应度函数,研究FSEGA方法与分类器算法之间的关系,对5个肿瘤特征基因表达谱数据集进行基因选取实验。结果表明,采用提出的集成特征选取方法选取的特征基因集合含丰富类别信息,重复性较好,提高了肿瘤特征基因选取的稳定性和鲁棒性。  相似文献   

13.
应用统计机器学习方法研究大规模单核苷酸多态性(SNP)与复杂疾病的关联关系面临着"维数灾难",首要的工作是把大规模SNP缩减为较小集合.为此,提出了多重遗传算法用于单核苷酸多态性的特征粗选择.该方法首次提出了用互信息衡量SNP与疾病间关联的紧密程度并作为遗传算法(GA)的适应值,通过多次运用遗传算法并合并寻优的结果得到候选的特征SNP集合.在SNP仿真数据上的实验及与最大熵(ME)方法性能比较表明,该方法最大可能丢弃了SNP集合中与疾病无关的SNP,同时保留了与疾病相关的SNP,为进一步研究提供了合适规模的SNP数据,本方法可用于规模中等或较大的SNP集合.  相似文献   

14.
基于成对约束的特征选择算法通过度量单个特征的重要性得到一个特征序列,但由单个重要特征构成的特征子集未必是最有效的.为此,提出了一种基于成对约束的特征选择改进算法,该算法采用对特征子集进行度量的策略,逐步选择使新的特征子集最有效的特征,从而得到一个有效的特征序列.实验表明新提出的算法是有效可行的.  相似文献   

15.
特征选择是一种处理维数约简的有效方法。以条件熵为特征子集评价条件,采用随机搜索和启发式搜索相结合的搜索策略,设计了一种新的特征选择方法。该方法不仅能够求得经典启发式特征选择方法的选到特征子集,还可以得到一些与其不同的满足条件特征子集,同时在多数情况下可以减少时间消耗。实验研究表明了提出的算法的有效性。  相似文献   

16.
10 kV配电网所处环境复杂,引发故障的原因很多,在使用数据挖掘方法对配电网故障进行分析时,太多的特征会对挖掘模型造成负面影响.为了防止挖掘模型考虑过多无用信息,需首先对数据进行特征选择来实现降维,因此提出了基于贝叶斯信息准则(BIC)的模型评估后向选择算法,对故障因素进行降维.BIC评估准则能够尽可能地简化模型,降低维度,而后向选择算法可以快速得到最优的简化模型,两者的结合提升了降维的速度,并能够得到更加简化的模型.实验结果表明,采用基于BIC评估的后向选择算法有助于后续模型准确性的提升,可提高训练效率.  相似文献   

17.
封装式特征选择算法可以准确地选择出有价值的特征,但是其评价过程伴随着极大的时间复杂度。为此,该文针对封装式特征选择算法中时间复杂度最高的交叉验证评价环节,提出了可以替代交叉验证的特征集直接评价方法——LW测量。进一步,将该方法与封装式特征选择算法中常用的序列搜索策略相结合,提出了改进的序列前(后)向搜索特征选择算法SFS-LW(SBS-LW)。通过在2个UCI数据集上与传统的基于交叉验证的封装式特征选择算法进行3组对比实验,结果表明该改进特征选择方法具有与传统方法近似的分类精度,但在时间复杂度上则有数倍的改善。  相似文献   

18.
给出了遗传算法的计算过程,对算法中动态遗传算子的选择方法进行了探讨。应用遗传算法解决水电站中观测数据拟合问题的计算实例表明,该方法是有效的。  相似文献   

19.
在石漠化信息的分类和提取过程中,冗余特征的存在影响分类器的性能,同时增加计算的复杂度。提出一种基于K2结构学习算法的石漠化数据特征选择方法,该方法通过BIC评分方法得到贝叶斯网络的结构,从中获得类节点的马尔可夫覆盖,继而进行特征选择。同时借用不同评分函数的等价性来确定结构学习时所需的样本数,并且给出了样本数的参考。实验表明,该方法由于结合了样本的分类信息,获得的特征子集是最优的,显著提高了分类精度,降低了计算复杂度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号