首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
在多标记学习的任务中,多标记学习的每个样本可被多个标签标记,比单标记学习的应用空间更广关注度更高,多标记学习可以利用关联性提高算法的性能。在多标记学习中,传统特征选择算法已不再适用,一方面,传统的特征选择算法可被用于单标记的评估标准。多标记学习使得多个标记被同时优化;而且在多标记学习中关联信息存在于不同标记间。因此,可设计一种能够处理多标记问题的特征选择算法,使标记之间的关联信息能够被提取和利用。通过设计最优的目标损失函数,提出了基于指数损失间隔的多标记特征选择算法。该算法可以通过样本相似性的方法,将特征空间和标记空间的信息融合在一起,独立于特定的分类算法或转换策略。优于其他特征选择算法的分类性能。在现实世界的数据集上验证了所提算法的正确性以及较好的性能。  相似文献   

2.
基于可信间隔的特征选择方法研究   总被引:1,自引:0,他引:1  
姜慧研  柴天佑 《控制与决策》2011,26(8):1229-1232
传统的特征选择方法没有很好地考虑数据的模式特性而导致性能下降.ReliefF是较为有效的特征选择方法,但存在特征权值随样本波动和不能去除冗余特征的问题.对此,从数据本身的模式特性出发,提出了可信间隔的概念和基于可信间隔进行特征选择的方法.以氧化铝回转窑烧结过程数据为实验数据进行特征选择和烧结工况识别实验,结果表明,所提出的方法能去除冗余特征,有效地提高了识别率.  相似文献   

3.
林梦雷  刘景华  王晨曦  林耀进 《计算机科学》2017,44(10):289-295, 317
在多标记学习中,特征选择是解决多标记数据高维性的有效手段。每个标记对样本的可分性程度不同,这可能会为多标记学习提供一定的信息。基于这一假设,提出了一种基于标记权重的多标记特征选择算法。该算法首先利用样本在整个特征空间的分类间隔对标记进行加权,然后将特征在整个标记集合下对样本的可区分性作为特征权重,以此衡量特征对标记集合的重要性。最后,根据特征权重对特征进行降序排列,从而得到一组新的特征排序。在6个多标记数据集和4个评价指标上的实验结果表明,所提算法优于一些当前流行的多标记特征选择算法。  相似文献   

4.
提出了一种针对分类属性数据特征选择的新算法。通过给出一种能够直接评价分类属性数据特征选择的评价函数新定义,重新构造能实现分类属性数据信息量、条件互信息、特征之间依赖度定义的计算公式,并在此基础上,提出了一种基于互信息较大相关、较小冗余的特征选择(MRLR)算法。MRLR算法在特征选择时不仅考虑了特征与类标签之间的相关性,而且还考虑了特征之间的冗余性。大量的仿真实验表明,MRLR算法在针对分类属性数据的特征选择时,能获得冗余度小且更具代表性的特征子集,具有较好的高效性和稳定性。  相似文献   

5.
以高脂血症文献分类为背景,通过对传统特征选择算法的研究,结合特征出现概率、特征与类别的相关度,提出一种基于二类信息差值的特征选择方法。使用该算法及k近邻距离分类法在高脂血症文献数据集上进行分类,实验显示该算法优于文档频率和信息增益,可提高文本分类的查准率。  相似文献   

6.
文本分类是根据未知文本的内容将其划分到一个或多个预先定义的类别的过程,是许多基于内容的信息管理任务的重要组成部分.文本分类问题的难点是特征空间的高维性,通常采用特征选择作为降维的重要方法.将属性约简和文本分类的特点相结合,提出了一种基于粗糙集的特征选择算法即改进的快速约简算法.实验表明该算法是有效的,不仅可以降低特征空间的维度,而且能够维持高精度.  相似文献   

7.
当特征集合存在强相关的特征子集且共同对分类问题有重要贡献时,传统方法通常从该子集中随机选择一个特征,导致数据可读性和分类性能下降.为此,面向多分类问题,提出一种基于支持向量机的特征选择算法,并设计一种快速迭代算法.该算法能够自动选择或剔除强相关的特征子集,在得到有效特征的同时实现特征降维.利用人工数据集和标准数据集进行试验,结果表明文中算法在特征选择可行性和有效性方面都有良好表现.  相似文献   

8.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

9.
唐小川  邱曦伟  罗亮 《计算机应用》2018,38(7):1857-1861
针对文本分类中的特征选择问题,提出了一种考虑特征之间交互作用的文本分类特征选择算法——Max-Interaction。首先,通过联合互信息(JMI),建立基于信息论的文本分类特征选择模型;其次,放松现有特征选择算法的假设条件,将特征选择问题转化为交互作用优化问题;再次,通过最大最小法避免过高估计高阶交互作用;最后,提出一个基于前向搜索和高阶交互作用的文本分类特征选择算法。实验结果表明,Max-Interaction比交互作用权重特征选择(IWFS)的平均分类精度提升了5.5%,Max-Interaction比卡方统计法(Chi-square)的平均分类精度提升了6%,Max-Interaction在93%的实验中分类精度高于对比方法,因此,Max-Interaction能有效利用交互作用提升文本分类特征选择的性能。  相似文献   

10.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

11.
基于零范数特征选择的支持向量机模型   总被引:2,自引:1,他引:1  
为解决高维稀疏建模问题, 本文从经验风险最小化原则出发推导出一个基于零范数约束的特征选择判据, 并利用嵌入式设计模式的特点将其与支持向量机方法相结合. 仿真实验和真实数据实验表明, 该方法不仅具备良好的特征选择性能, 而且在稀疏建模问题中表现出良好的分类准确性和泛化能力.  相似文献   

12.
高维数据的1-范数支持向量机集成特征选择   总被引:1,自引:0,他引:1  
特征选择是机器学习和模式识别领域的关键问题之一.随着模式识别与数据挖掘的深入,研究对象越来越复杂,对象的特征维数也越来越高,此时特征选择的稳定性也显得尤为重要.分析了1-范数支持向量机,用该方法对高维数据进行特征选择,并对特征选择的结果进行集成;提出了一种针对高维数据的稳定性度量方法;在基因表达数据上的实验结果表明,集成特征选择可以有效提高算法的稳定性.  相似文献   

13.
基于特征选择的网络入侵检测模型   总被引:5,自引:0,他引:5  
研究网络安全问题,网络入侵手段多样,特征多,存在大量不利的冗余特征,传统网络入侵检测不考虑特征冗余,检测效率和正确论低。为更一步提高了网络安全,提出一种特征选择的网络入侵检测模模型。采用粒子群算法对网络系统状态特征和支持向量机参数进行同步选择,找到最优网络入侵检测模型特征和模型参数,降低了模型的输入样本维数。仿真结果表明,改进算法可降低特征维数,消除了不利于提高检测结果的冗余特征,并提高了网络入侵检测正确率,适合于小样本、实时要求高的网络入侵检测。  相似文献   

14.
基于支持向量机的肿瘤分类特征基因选取   总被引:19,自引:0,他引:19  
依据基因表达谱有效建立肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因.针对该问题,在分析肿瘤基因表达谱特征的基础上,研究了肿瘤分类特征基因选取问题.首先,提出了一种新的类别可分性判据以滤除分类无关基因,并采用支持向量机作为分类器进行特征基因分类性能的检验.然后,采用两两冗余分析及基于支持向量机分类模型的灵敏度分析法进行冗余基因的剔除.以急性白血病亚型分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性.  相似文献   

15.
入侵检测系统面临的主要问题是计算量大,特征选择被引入解决这一问题。针对现有方法的缺点,利用改进的粒子群算法来搜索最优特征子集,提出了一种基于混合CatfishPSO和最小二乘支持向量机的特征选择方法,利用混合的CatfishBPSO和CatfishPSO选择特征子集并同步对LSSVM的参数进行优化,最后建立了一个基于该特征选择方法的入侵检测模型。在KDD Cup 99数据集上进行的实验结果表明该模型的检测性能较高。  相似文献   

16.
基于自适应遗传算法和SVM的特征选择   总被引:2,自引:2,他引:0       下载免费PDF全文
计智伟  吴耿锋  胡珉 《计算机工程》2009,35(14):200-202
针对传统风险辨识方法无法实现盾构隧道施工过程中的风险状态实时识别的问题,提出一种自适应遗传算法和支持向量机结合的特征选择方法(AGASVM),筛选出与施工质量风险关系最为密切的关键特征集。实验结果表明,用AGASVM所获得的关键特征集用于施工风险状态实时识别的分类准确率较高。其特征集规模比原始特征集有明显缩减,而且绝大部分关键特征与领域专家的意见是吻合的。  相似文献   

17.
基于文档频率的特征选择方法   总被引:1,自引:1,他引:0       下载免费PDF全文
杨凯峰  张毅坤  李燕 《计算机工程》2010,36(17):33-35,38
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器。实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能。  相似文献   

18.
为了降低Wrapper模式网络故障特征选择方法分类算法的计算量,文章提出了一种基于元学习和二进制粒子群(ML-BPSO)的特征选择方法;算法在封装的分类训练中采用元学习方法估算分类精度,并利用BPSO在特征空间中进行全局搜索选出最优特征集;在DARPA数据集上的实验可以看出本文方法选取结果与BPSO-SVM相当但是计算量大大降低;实验结果表明文章提出的方法能够显著的降低网络故障特征选择计算量,同时保证了较高的诊断精度和较好的降维效果.  相似文献   

19.
谓词的自动识别是浅层句法分析的重要内容。本文提出了基于支持向量机分类算法的谓词自动识别方法,重点描述了在特征构建过程中基于信息增益的特征筛选方法与基于同义词词林的特征词度量方法。信息增益方法选取对分类影响较大的特征,降低了特征维度;同义词词林的度量方法将特征词映射为深层次的语义概念,增强了特征的表达能力,强调了属性特征与模型的相关度。在小规模语料库上的实验表明,谓词识别的最好F-Score达到了84.0%,相较于对数据无任何处理的情况F-Score提高了4.6%。结果表明,这种新的特征筛选与特征度量方法在谓词识别中十分有效,可以极大提高分类器的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号