首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
在中文多标签文本分类中,面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。文本提出的特征选择方法相比于现有最常用的特征选择算法,更注重删除稀疏特征、保留更有区分度、有利于分类的特征。  相似文献   

2.
k子凸包分类方法在实际问题中有广泛应用。但随着问题维数的增加,该方法计算得到的凸包距离非常接近甚至相等,这严重影响了分类性能。针对此问题,本文设计了一种基于特征选择的相对k子凸包分类方法。首先根据绝对凸包距离存在的不足引入相对k子凸包距离,然后在k邻域内利用判别正则化技术进行特征选择,并将特征选择融入相对k子凸包优化模型中,为每个测试样本在不同的类别中学习一个自适应的特征子集,从而得到一个用于分类的有效相对k子凸包距离。实验结果表明,该方法不仅能够进行特征选择,而且分类性能也有了明显提高。  相似文献   

3.
蔡剑  牟甲鹏  余孟池  徐建 《计算机与数字工程》2021,49(10):1967-1972,1997
多标签分类在现实世界中有着广泛的应用,是当今机器学习领域的热点问题之一.多标签分类的代表性算法BR(Binary Relevance)虽有较多的改进工作,但大都仅针对标签相关性或特征选择中某一个方面进行改进,因此现有改进算法的性能仍存在提升空间.针对上述现状,论文提出一种基于特征选择和标签相关性的多标签分类算法,该算法先使用信息增益为每个标签选择与其相关的特征属性,而后采用新的控制结构的方式考虑标签相关性,最后使用新的特征集合为每个标签训练二分类器.在6个基准数据集上的实验结果表明,该算法在5种不同评价指标下的表现优于其它典型的BR改进算法.  相似文献   

4.
针对基于互信息(MI)传统特征选择方法中要求确定冗余度参数β的问题,提出一种改进型特征选择算法NMIFS-FS2。该算法在对连续或离散特征进行选择时,输入为特征组合与类之间的MI,代替传统算法中单一特征与类之间的MI,解决了冗余度参数β很难确定的问题,扩大了应用范围。进行的两组实验验证了该算法的有效性。实验结果表明,相比几种传统的分类算法,该算法具有更好的鲁棒性、稳定性和高效性。  相似文献   

5.
一种基于关联性的特征选择算法   总被引:1,自引:0,他引:1  
目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.提出一种新的基于关联分析的特征选择算法,该方法以信息论量度为基本工具,综合考虑了计算代价以及特征评估的客观性等问题.算法在保留类别相关特征的同时识别并摒弃了冗余特征,取得了较好的约简效果.  相似文献   

6.
武妍  杨洋 《计算机应用》2006,26(2):433-0435
为了获得重要的特征集合,提出了一种基于判别式分析算法和神经网络的特征选择方法。通过最小化扩展互熵误差函数来训练神经网络,这一误差函数的使用减小了神经网络传输函数的导数,降低了输出敏感度。该方法首先利用判别式分析算法得到一个有序的特征队列,然后通过正则化神经网络进行特征的选择,特征选择过程是基于单个特征的移除带来验证数据集上分类误差变化这一原理。与其他基于不同原理的四种方法进行了比较,实验结果表明,利用该算法训练的网络能够获得较高分类准确率。  相似文献   

7.
一种基于递归分类树的集成特征基因选择方法   总被引:14,自引:1,他引:14  
李霞  张田文  郭政 《计算机学报》2004,27(5):675-682
利用DNA芯片基因表达谱信息识别疾病相关基因,对癌症等疾病分型、诊断及病理学研究有非常重要的实际意义.该文提出了一种基于递归分类树的特征基因选择的集成方法EFST(Ensemble Feature Selection based on Recursive Partition—Tree).EFST可选择多组基于不同样本分布结构的特征基因,结合有监督机器学习中的多分类器集成(ensemble)决策技术,利用提出的衡量特征基因稳定性与显著性测度.集成各特征基因组选择最终的特征基因.应用结肠癌2000个基因的表达谱实验数据分析结果显示:EFST方法不仅具有寻找疾病相关基因的能力和较强的数据维数压缩能力,而且由支持向量机(SVM)等4种模式分类方法证实EFST方法可以明显地提高疾病鉴别分类的准确率.  相似文献   

8.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

9.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

10.
伪标签目标检测算法利用大量未标注数据生成伪标签数据来增加训练数据规模,从而提高目标检测模型的性能。针对伪标签数据中存在大量错误标注数据且伪标签目标检测模型性能难以提升的问题,提出基于SoftTeacher-CUC的伪标签目标检测算法。SoftTeacher-CUC算法在SoftTeacher伪标签目标检测算法的基础上,利用分类不确定性方法计算模型生成的伪标签分类结果的不确定性来判断伪标签是否可靠,不确定性越低说明伪标签的分类结果越可靠。在此基础上,将计算得到的不确定性作为权重加入伪标签数据的分类损失函数中,进一步减少高不确定性伪标签为模型带来的负面影响。根据Teacher模型中不同模块的作用,采用不同权重的指数滑动平均方法更新Teacher模型,降低Teacher模型和Student模型参数之间的相似性,使一致性正则化方法发挥效用。实验结果表明,在标注数据分别占训练集1%、5%和10%的情况下,与SoftTeacher算法相比,SoftTeacher-CUC算法的平均精度均值分别提高了1.4、1.2和1.7个百分点,在标注数据较少的情况下,该算法具有更好的检测效果。  相似文献   

11.
不平衡情感分类中的特征选择方法研究   总被引:1,自引:0,他引:1  
随着网络的发展,情感分类任务受到广大研究人员的密切关注。针对情感分类中的不平衡数据分布和高维特征问题,该文比较研究了四种经典的特征选择方法在不平衡情感分类中的应用。同时,该文提出了三种不同的特征选择模式并实验比较了这三种模式在分类和降维性能方面的表现。实验结果表明在不平衡数据的情感分类任务中,特征选择方法能够在不损失分类效果的前提下显著降低特征向量的维度。此外,特征选择方法中信息增益(IG)结合“先随机欠采样后特征选择”模式能够取得最佳的分类效果。  相似文献   

12.
分类问题的一种可伸缩特征选择算法   总被引:4,自引:0,他引:4  
张巍  邹翔  吴晓如 《计算机学报》2005,28(7):1223-1229
特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式——BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效.  相似文献   

13.
声学场景分类技术可以通过在公共区域中录制的音频分析出它的录制环境, 在日常生活中发挥着重要的作用. 与传统分类问题类与类之间没有关系不同, 声学场景分类的类别间存在着层次结构关系(父类与子类), 如机场和购物中心的父类为室内. 而现有的方法在设计时并未考虑声学场景分类任务的这一特性, 忽略了父类和子类间的依赖关系. 因此, 本文利用声学场景类别间的层次结构关系, 提出了一种基于层次信息融合的声学场景分类方法. 该方法为父类和子类分别设计了单独的分类器, 在子类分类的过程中融合了父类的信息, 并设计了层次依赖损失来对预测的父类和子类不匹配的情况进行惩罚. 在TAU城市声学场景2020移动开发数据集上的实验结果表明, 基于层次信息融合的方法有效地提升了声学场景分类模型的性能, 分类准确率提升了1.1%.  相似文献   

14.
王杰  李德玉  王素格 《计算机科学》2016,43(10):206-210, 224
非平衡数据中样本数量的不平衡分布往往伴随着特征分布的不平衡,在多数类文本中经常出现的特征,在少数类中却很少出现。针对非平衡数据特征分布的特点,提出了一种新的双边fisher特征选择算法TSF。该方法通过显式地组合正相关和负相关特征,缓解了特征层面的非平衡性,较好地表示了文本的信息。TSF方法在图书评论和COAE2014微博非平衡数据上进行实验,结果验证了该方法是可行的。  相似文献   

15.
基于特征选取及模糊学习的网页分类方法研究   总被引:2,自引:0,他引:2  
www上的信息极大丰富 ,为准确地从网页中提取有用信息 ,发展一个自动的分类器已成为当务之急 .由于文本集中关键词的数量很多 ,分类存在巨大的维度问题 ,并且以往大多数分类器或者工作速度慢 ,或者不具有自学习功能 .本文提出了一种基于相似度的特征选择算法和适应模糊学习算法来实现分类 .特征选择算法用来解决巨大维度问题 ,提高分类速度 ,适应模糊学习算法为分类提供学习人类知识的能力 ,提高准确率  相似文献   

16.
张彪  刘贵全 《计算机工程》2010,36(22):184-186
提出一种在选取特征时考虑特征与特征之间联系的算法。对特征词之间的关联关系进行挖掘,找出那些对类别有重要影响的特征词组,而这些特征词组中的每个单词在传统单独打分策略的特征选择算法中很可能会因分值过低而被丢弃。在Ruters21578、20Newsgroup文本数据集上进行实验,将算法与广泛应用的特征选择算法(信息增益、CHI等)进行对比、分析。实验结果表明该方法是一种有特点、有效的特征选择方法。  相似文献   

17.
特征选择旨在降低高维度特征空间,进而简化问题和优化学习方法。已有的研究显示特征提取方法能够有效降低监督学习的情感分类中的特征维度空间。同以往研究不一样的是,该文首次探讨半监督情感分类中的特征提取方法,提出一种基于二部图的特征选择方法。该方法首先借助二部图模型来表述文档与单词间的关系;然后,结合小规模标注样本的标签信息和二部图模型,利用标签传播(LP)算法计算每个特征的情感概率;最后,按照特征的情感概率进行排序进而实现特征选择。多个领域的实验结果表明,在半监督情感分类任务中,基于二部图的特征选择方法明显优于随机特征选择,在保证分类效果不下降(甚至提高)的前提下有效降低了特征空间维度。  相似文献   

18.
基于邻域粗糙集的多标记分类特征选择算法   总被引:4,自引:0,他引:4  
多标记学习是一类复杂的决策任务,同一个对象可能同时属于多个类别.此类任务在文本分类、图像识别、基因功能分析等领域广泛存在.多标记分类任务往往由高维特征描述,存在大量无关和冗余的信息.目前已经提出了大量的单标记特征选择算法以应对维数灾难问题,但对于多标记的属性约简和特征选择却鲜有研究.将粗糙集应用于多标记数据的特征选择中,针对多标记分类任务,重新定义了邻域粗糙集的下近似和依赖度计算方法,探讨了这一模型的性质,进而构造了基于邻域粗糙集的多标记分类任务的特征选择算法,并给出了在公开数据上的实验结果.实验分析证明算法的有效性.  相似文献   

19.
20.
首先针对公共情感词典对专业领域适用性较低问题,以公共情感词典作为种子情感词典,以评论语料库中未出现在公共情感词典中的形容词作为候选情感词,在此基础之上利用点互信息理论构建专业领域的情感词典。其次针对在线评论情感分类问题,利用复杂网络理论提出了一种新的情感分类特征选择算法,改进了传统特征选择算法忽略特征语义相关信息,遗漏评论情感资源的问题。通过构建候选特征词关系网络,利用复杂网络节点重要性理论,考虑节点的局部和全局重要性,提出了利用网络节点的度中心性、介数中心性和接近中心性综合衡量节点重要性来选择情感分类特征的算法NTFS(Complex network feature selection)。最后以iPhone手机的在线评论为实验数据,利用SVM、NNET、NB分类器对比了NTFS、GI、CHI传统特征选择方法,实验证明NTFS在分类性能上优于GI,CHI算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号