首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
杨柳  李云 《计算机应用》2021,41(12):3521-3526
K-匿名算法通过对数据的泛化、隐藏等手段使得数据达到K-匿名条件,在隐藏特征的同时考虑数据的隐私性与分类性能,可以视为一种特殊的特征选择方法,即K-匿名特征选择。K-匿名特征选择方法结合K-匿名与特征选择的特点使用多个评价准则选出K-匿名特征子集。过滤式K-匿名特征选择方法难以搜索到所有满足K-匿名条件的候选特征子集,不能保证得到的特征子集的分类性能最优,而封装式特征选择方法计算成本很大,因此,结合过滤式特征排序与封装式特征选择的特点,改进已有方法中的前向搜索策略,设计了一种混合式K-匿名特征选择算法,使用分类性能作为评价准则选出分类性能最好的K-匿名特征子集。在多个公开数据集上进行实验,结果表明,所提算法在分类性能上可以超过现有算法并且信息损失更小。  相似文献   

2.
基于排序融合的特征选择   总被引:3,自引:0,他引:3  
针对模式分类中的特征选择问题,分别依据ReliefF算法、类间可分性及特征相关性等多个评价准则对待约简特征进行评价与排序,基于排序融合方法实现对多个特征选择评价准则的综合利用.基于多个数据集的实验结果表明,该方法在有效降低特征维度的同时,具有比单准则特征选择方法更高的分类性能.  相似文献   

3.
数据挖掘中所获取的数据维数多,常常导致数据存储所需容量大,知识挖掘所需时间长,预测正确率不高等问题,特征选择是解决上述问题的重要方法之一。针对现有特征选择算法最佳特征个数难以确定及分类准确率有待进一步提高等问题,提出一种同时考虑相关性和冗余度的多准则赋权排序的算法(mCRC),mCRC结合两种准则同时对特征进行排序,并利用C-SVM对按重要性降序排好的特征采用顺序前向浮动搜索得出最佳特征子集。实验结果表明,mCRC算法与单独基于互信息或类别可分性赋权排序的特征选择方法相比能在更短的时间内获得分类性能更好的最佳特征子集,为快速并高效地对数据集进行挖掘提供了有力保障。  相似文献   

4.
冯宗翰  吴小俊 《计算机工程》2011,37(17):136-139
提出一种将迹比准则和基于错分区域的+L-R方法相结合的特征选择算法.该算法使用迹比算法得到优秀特征子集,对分类产生的错分区域进行+L-R选择得到新特征,新特征可以区分之前被错分的数据,从而降低错分率.采用+L-R算法降低数据冗余.实验结果表明,该算法有效改进迹比准则特征选择算法,同时降低错分率.  相似文献   

5.
黄琴    钱文彬    王映龙  吴兵龙 《智能系统学报》2019,14(5):929-938
在多标记学习中,特征选择是提升多标记学习分类性能的有效手段。针对多标记特征选择算法计算复杂度较大且未考虑到现实应用中数据的获取往往需要花费代价,本文提出了一种面向代价敏感数据的多标记特征选择算法。该算法利用信息熵分析特征与标记之间的相关性,重新定义了一种基于测试代价的特征重要度准则,并根据服从正态分布的特征重要度和特征代价的标准差,给出一种合理的阈值选择方法,同时通过阈值剔除冗余和不相关特征,得到低总代价的特征子集。通过在多标记数据的实验对比和分析,表明该方法的有效性和可行性。  相似文献   

6.
黄莉莉  汤进  孙登第  罗斌 《计算机应用》2012,32(10):2888-2890
针对传统特征选择算法局限于单标签数据问题,提出一种多标签数据特征选择算法——多标签ReliefF算法。该算法依据多标签数据类别的共现性,假设样本各类标签的贡献值是相等的,结合三种贡献值计算方法,改进特征权值更新公式,最终获得有效的分类特征。分类实验结果表明,在特征维数相同的情况下,多标签ReliefF算法的分类正确率明显高于传统特征选择算法。  相似文献   

7.
现有过滤型特征选择算法并未考虑非线性数据的内在结构,从而分类准确率远远低于封装型算法,对此提出一种基于再生核希尔伯特空间映射的高维数据特征选算法。首先,基于分支定界法建立搜索树,并对其进行搜索;然后,基于再生核希尔伯特空间映射分析非线性数据的内部结构;最终,根据数据集的内部结构选择最优的距离计算方法。对比仿真实验结果表明,本方法与封装型特征选择算法具有接近的分类准确率,同时在计算效率上具有明显的优势,适用于大数据分析。  相似文献   

8.
特征选择一直是机器学习和数据挖掘中的一个重要问题。在多标签学习任务中,数据集中的每个样本都与多个标签相关联,标签与标签之间通常也是相关的。在多标签高维数据分析中,为降低特征维数和提高分类性能,研究者们提出了多标签特征选择方法。系统综述了多标签特征选择的研究进展。在介绍多标签分类以及评价准则之后,详细分析了多标签特征选择的三类方法,即过滤式算法、包裹式算法和嵌入式算法,对多标签特征选择未来的研究提出展望。  相似文献   

9.
在分析现有基于经验特征空间核函数优化方法局限性的基础上,提出一种基于最大子分类间隔准则的核函数优化方法。该方法首先建立最大子分类间隔准则,然后结合数据在经验特征空间中的特点给出样本数据的类间散布矩阵和类内散布矩阵的表达式,最后利用奇异值分解实现核函数参数的优化选取。本文利用UCI(University of California, Irvine)数据对算法进行仿真实验,仿真结果表明了本文方法的正确性和有效性。  相似文献   

10.
传统的基于特征选择的分类算法中,由于其采用的冗余度和相关度评价标准单一,从而使得此类算法应用范围受限。针对这个问题,本文提出一种新的最大相关最小冗余特征选择算法,该算法在度量特征之间冗余度的评价准则中引入了两种不同的评价准则;在度量特征与类别之间的相关度中引入了4种不同的评价准则,衍生出8种不同的特征选择算法,从而使得该算法应用范围增大。此外,由于传统的最大相关最小冗余特征选择算法不能根据用户实际需求的数据维度进行特征选择。所以,引入了指示向量 $\lambda $ 来刻画用户实际的数据维度需求,提出了一种新的目标函数来求解最优特征子集,利用支持向量机对4个UCI数据集的特征子集进行了实验,最后,利用分类正确率、成对单边T检验充分验证了该算法的有效性。  相似文献   

11.
在分类问题中,数据之间存在的大量冗余、不相关的特征不仅不能增加分类准确率,反而会降低分类算法执行的速度。特征选择通过最大化分类正确率和最小化特征数来解决这个问题,由于这是两个相互矛盾的目标,因此可以将特征选择问题视为一种多目标优化问题。为了提升特征选择的效率,提出了一种基于Knee Points的改进多目标人工蜂群算法的特征选择方法(artificial bee colony algorithm based on Knee Points,KnABC),设计了一种快速识别Knee Points的方法,并改进了引领蜂和引领蜂算子。与其他经典多目标算法在11个UCI测试数据集上的特征选择实验结果表明,提出的算法在减小分类特征数、增大分类结果准确率方面具有显著效果。  相似文献   

12.
随着网络的发展,大量的文档数据涌现在网上,自动文本分类已经成为处理和组织大量文档数据的关键技术.其困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题.本文结合了多种特征选择方法,提出一种基于差值思想的多特征选择算法,并应用于KNN文本分类算法,实验表明,本文提出的特征选择算法能进一步提高分类性能.  相似文献   

13.
为了提高文本自动分类准确率,提出一种改进的蜂群优化神经网络的选择特征的文本数据挖掘算法.该算法将文本特征选择转换成一个多目标优化问题,以特征维数最少、分类正确率最高为选择标准,采用蚁群算法找到最优特征子集,最后神经网络建立文本自动分类器,进行仿真实验测试算法性能.仿真实验结果表明,提出的方法从高维文本最优文本特征,提高了文本自动分类的正确率和识别效率,是一种有效的网络文本挖掘算法.  相似文献   

14.
在多标记学习中,数据降维是一项重要且具有挑战性的任务,而特征选择又是一种高效的数据降维技术。在邻域粗糙集理论的基础上提出一种多标记专属特征选择方法,该方法从理论上确保了所得到的专属特征与相应标记具有较强的相关性,进而改善了约简效果。首先,该方法运用粗糙集理论的约简算法来减少冗余属性,在保持分类能力不变的情况下获得标记的专属特征;然后,在邻域精确度和邻域粗糙度概念的基础上,重新定义了基于邻域粗糙集的依赖度与重要度的计算方法,探讨了该模型的相关性质;最后,构建了一种基于邻域粗糙集的多标记专属特征选择模型,实现了多标记分类任务的特征选择算法。在多个公开的数据集上进行仿真实验,结果表明了该算法是有效的。  相似文献   

15.
针对传统原型选择算法易受样本读取序列、异常样本等干扰的缺陷,通过分析原型算法学习规则,借鉴最近特征线法思想,改进传统原型算法,提出一种自适应边界逼近的原型选择算法。该算法在原型学习过程中改进压缩近邻法的同类近邻吸收策略,保留更优于当前最近边界原型的同类样本,同时建立原型更新准则,并运用该准则实现原型集的周期性动态更新。该算法不仅克服读取序列、异常样本对原型选取的影响,而且降低原型集规模。最后通过人工数据和UCI基准数据集验证文中算法。实验表明,文中算法选择的原型集比其他算法产生的原型集更能体现数据集的分布特征,平均压缩率有所提高,且分类精度与运行时间优于其他算法。  相似文献   

16.
当特征集合存在强相关的特征子集且共同对分类问题有重要贡献时,传统方法通常从该子集中随机选择一个特征,导致数据可读性和分类性能下降.为此,面向多分类问题,提出一种基于支持向量机的特征选择算法,并设计一种快速迭代算法.该算法能够自动选择或剔除强相关的特征子集,在得到有效特征的同时实现特征降维.利用人工数据集和标准数据集进行试验,结果表明文中算法在特征选择可行性和有效性方面都有良好表现.  相似文献   

17.
在分类任务中,特征选择是一种提高分类效果的重要方法。现实生活中的数据都是存储在多关系数据库中的。多关系数据库的数据中有许多不相关的且冗余的特征,这些特征对分类任务的贡献很小,甚至没有贡献。如何有效地将特征选择应用到多关系分类中是比较重要的。因此,将最大相关最小冗余的特征选择方法应用到多关系分类中,对关系数据库中的每个关系表进行特征选择,选择出对分类影响较好的特征集,再用多关系朴素贝叶斯分类算法对进行特征选择后的多关系数据库进行分类测试。实验结果表明了该算法的性能有了一定的提高。  相似文献   

18.
基于粒子群优化和邻域约简的入侵检测日志数据特征选择   总被引:2,自引:0,他引:2  
入侵检测日志数据具有数据量大、特征数目繁多以及连续型属性多的特点.传统的特征选择方法在处理连续型数据时要先进行离散化,这需要花费大量的预处理时间并且离散化过程可能会丢失一些重要信息,导致分类精度下降.针对上述问题,首先引入能直接处理连续型数据的邻域粗糙集约简模型,在此基础上构造计算粒子群优化算法中粒子的适应度函数,最后给出一种基于邻域粗糙集模型和粒子群优化的特征选择算法.仿真实验结果表明该算法可以选择较少的特征,改善分类的能力.  相似文献   

19.
用于生理信号情感识别的自适应遗传算法   总被引:3,自引:0,他引:3  
针对用生理信号识别情感中的最优情感特征组合的选择这一组合优化问题,将遗传算法中的交叉、变异操作加以改进形成新的算法.该算法用来选择最能代表相应情感状态的最优特征组合,并以最近邻法的分类正确率作为当前搜索到的最优特征组合的评价准则,对joy、anger、pleasure、sadness这4种情感状态进行识别,得到了较好的情感识别效果.仿真实验表明了该方法的可行性和有效性.  相似文献   

20.
为了提高重采样算法在不均衡数据学习的性能,提出一种基于粒子群优化的不均衡数据学习方法。通过粒子群优化,以不均衡数据分类评价准则作为目标函数,来优化重采样算法中最佳的采样率,同时对特征进行选择,从而达到最佳的数据分布。该算法在大量UCI数据集上进行了测试,与其他不均衡学习算法进行比较,结果表明该算法具有更高的分类性能; 并验证了同时优化采样率和特征集合,可有效地改进不均衡数据分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号