首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
不同类型数据中特征与类别以及特征与特征之间存在一定的线性和非线性相关性。针对基于不同度量的特征选择方法在不同类型数据集上选取的特征存在明显差别的问题,本文选择线性相关系数、对称不确定性和互信息三种常用的线性或非线性度量,将它们应用于基于相关性的快速特征选择方法中,对它们在基因微阵列和图像数据上的特征选择效果进行实验验证和比较。实验结果表明,基于相关性的快速特征选择方法使用线性相关系数在基因数据集上选取的特征集往往具有较好分类准确率,使用互信息在图像数据集上选取的特征集的分类效果较好,使用对称不确定性在两种类型数据上选取特征的分类效果较为稳定。  相似文献   

2.
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。  相似文献   

3.
利用一种规则学习方法中的重复增量式降低错误剪枝方法解决网络流量分类问题。利用该方法能够挖掘出网络流属性特征和类别之间的相关关系,并将挖掘出的关系构成分类器用于网络流量分类。该方法能够解决传统机器学习方法在网络流量中有大量的不平衡数据集时,分类错误率高等问题。实验证明,该方法在网络流量分类标准数据集上具有很高的分类准确率、查全率和查准率。  相似文献   

4.
针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及G-mean性能分别可达82.92%、84.6%、88.76%。  相似文献   

5.
在网络恶意流量识别任务中,存在恶意流量样本数量与正常流量样本比例不平衡问题,从而导致训练出的机器学习模型泛化能力差、识别准确率低。为此,在网络流量图片化的基础上提出一种利用具有梯度惩罚项的条件Wasserstein生成对抗网络(CWGAN-GP)对少量数据类进行平衡的分类方法。该方法首先借助网络流量图片化方法将原始流量PCAP数据按照流为单位进行切分、填充、映射到灰度图片中;然后使用CWGAN-GP方法实现数据集的平衡;最后,在公开数据集USTC-TFC2016和CICIDS2017上使用CNN模型对不平衡数据集和平衡后的数据集进行分类测试。实验结果表明,使用CWGAN-GP的平衡方法在精确度、召回率、F1这3个指标上均优于随机过采样、SMOTE、GAN以及WGAN平衡方法。  相似文献   

6.
不均衡问题中的特征选择新算法:Im-IG   总被引:2,自引:2,他引:0  
机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalanced information gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。  相似文献   

7.
面向不平衡问题的集成特征选择   总被引:3,自引:1,他引:2  
传统的特征选择方法基本上是以精度为优化目标,没有充分考虑数据样本类别分布倾斜性,在数据分布不平衡的数据集上性能表现不理想。在不平衡数据集上通过有放回的抽样方法独立地从数据集大类样本集中随机抽取多个样本子集,使每次随机抽取的样本数量与小类样本数量一致,然后将各抽取的样本子集分别与小类样本集组合成多个新的训练样本集。对多个新样本集的特征子集以集成学习的方式采用投票机制进行投票,数据集的最终特征子集以得票数目超过半数的特征共同组合而成。在UCI不平衡数据集上的实验结果显示,提出的方法表现出了较好的性能,是一种能够处理不平衡问题的有效特征选择方法。  相似文献   

8.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(5):16-23, 74
针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数, 然后利用K-means聚类算法对多数类样本进行聚类,用聚类所得类中心作为样本集取代原多数类样本集, 最后对新构造的训练集进行训练得到最终决策函数。其实验结果表明,该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能。    相似文献   

9.
肿瘤基因选择方法LLE Score   总被引:1,自引:0,他引:1  
针对处理肿瘤基因表达数据特征选择问题,提出了一种特征选择方法 LLE Score.该方法是典型的过滤器类型特征选择方法,在样本类别信息的基础上,LLE Score针对特征向量的局部邻域保存能力进行评价,并且根据评价结果进行特征的选取,以此达到良好的特征选择效果.在实验部分对肿瘤数据集进行特征选择,并采用支持向量机分类器计算分类准确率.通过分类准确率说明了该方法的有效性.  相似文献   

10.
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.  相似文献   

11.
通过分析入侵检测样本的分布特点,提出了一种多分类SVM增量学习算法.该算法通过衡量同类样本点和样本中心之间的距离来确定用于训练的支持向量,以选择对分类贡献较大的边缘向量进行训练,通过求解多个超平面的方法划分出不同类别样本的区域,实现了多分类的增量学习.在保证检测率的同时,减少了样本学习数量.利用KDDCUP99标准数据集进行测试,证明该算法可以大幅度降低训练的时间和空间复杂度.  相似文献   

12.
威胁指标(IOC)作为网络威胁的特征描述,是识别和防御网络攻击的重要凭证。当前IOC识别主要依赖于神经网络模型,其效果取决于标注数据的数量。然而,目前IOC识别领域缺乏公认的数据集,且IOC的标注只能由安全专家手动完成,标注成本高,难以获取大量已标注数据。针对该问题,提出了一种结合主动学习的威胁情报IOC识别方法 ICAL。该方法首先基于样本的代表性选择初始样本进行人工标注,然后基于聚类假设对聚类样本进行伪标注,最后基于样本的不确定性继续迭代标注,直到满足终止条件。使用CNNPLUS作为分类模型,在自构建的威胁情报数据集上进行实验。结果表明,相比于传统IOC自动识别策略,ICAL的识别准确率达到94.2%、召回率达到94.1%,同时减少了58%的人工标注工作量,具有较高的实用价值。  相似文献   

13.
一种基于聚类集成的无监督特征选择方法   总被引:1,自引:0,他引:1  
提出了一种无监督的特征选择方法,其基本思想是利用聚类来指导特征选择,对于无类别标签的数据样本集,先进行聚类获得数据类标签,再利用ReliefF算法进行特征选择.采用聚类集成方法解决一些聚类结果的不稳定问题,最终特征选择结果通过多次特征选择综合得到.实验结果表明,该算法具有良好的特征选择性能,在去除无关或冗余特征后可进一步提高聚类质量.  相似文献   

14.
彩色图像数据库中目标特征数据挖掘方法   总被引:2,自引:0,他引:2  
针对由于彩色图像数据特征较多使得目标特征挖掘容易出现不确定性的问题,提出一种新的彩色图像数据库中目标特征数据挖掘方法.采用减法聚类算法对彩色图像数据进行聚类,采用离群点检测技术对聚类数据进行分类处理,采用量子行为粒子群优化方法选取最优目标图像特征数据,并与结构相似度计算方法相结合,实现对最优目标图像特征数据的挖掘.结果证明,该方法相比传统的挖掘方法,其挖掘召回率降低了约17%,挖掘精确度提高了约28.6%.  相似文献   

15.
在分析了传统特征选择方法构造的4项基本信息元素的基础上提出一种强类别信息的度量标准,并在此基础上,提出一种适用于不平衡文本的特征选择方法。该方法综合考虑了类别信息因子、词频因子,分别用于提高少数类和多数类类别分类精度。该方法在reuter-21578数据集上进行了实验,实验结果表明,该特征选择方法比IG、CHI方法都更好,不但微平均指标有一定程度的提高,而且宏平均指标也有一定程度的提高。  相似文献   

16.
时间序列分类是数据挖掘中的重要主题,现有的大部分时间序列分类方法较少考虑到序列形状对分类结果的影响。该文提出了一种基于k-shape的时间序列模糊分类方法。该方法通过使用k-shape聚类算法对时间序列训练数据集各类别的成员进行聚类,获得各类别的聚类中心并形成聚类中心群,将每个类别的聚类中心群作为时间序列数据模糊分类的初始聚类中心,根据隶属度最大原则确定测试时间序列数据的类别标签。在30个时间序列公开数据集上的分类实验结果表明,该方法相较于SVM、Bayes、EAIW和TLCS这4种分类算法具有更好的分类性能,对具有扭曲和位移特征的时间序列数据分类有更好的可用性。  相似文献   

17.
针对在小样本图像分类中,几个样本的特征图不足以描述整个类特征空间,导致误分类的问题,提出了滑动特征向量神经网络(SFV),该方法通过集合同类样本的滑动特征向量构建类特征空间,并利用样本-类的特征向量度量方式分类查询样本。SFV融合了特征块的边缘信息以及位置结构的相关性,最大限度地利用深层特征信息的同时扩充了类特征空间。实验表明:在各数据集中SFV均能取得不错的效果,在细粒度数据集上,达到了最佳精度。  相似文献   

18.
在大数据时代,数据的标签数量急剧增加,且标签集之间往往存在层次结构,利用层次结构进行大规模分类学习可有效解决维数灾难、类别不均衡问题,是近年来的研究热点.模糊粗糙集作为处理不确定性信息的有效工具,对于层次结构的描述有着特别的优势,本文给出了一种基于样本对选择的分层特征选择方法.通过将层次结构融入到目标概念的上、下近似之中,给出了一种新的模糊粗糙集模型,并研究了其详细性质,基于此,设计了一种基于样本对选择的特征选择算法,实验结果表明,本文所提出的算法在效率和准确性方面优于平面算法,从而为基于粒计算的分层特征选择提供了一种可能的框架.  相似文献   

19.
基于一维心电信号,提出了一种改进的卷积双向长短时记忆网络以实现心律失常的自动分类。基于卷积神经网络(CNN)及其注意力机制提取关键特征,搭建双向长短时记忆网络(BiLSTM)挖掘心电信号的时间相关性,最终实现心电信号的自动分类。在MIT-BIH心律失常数据集上进行的实验结果表明,该方法在获得总体精度99.32%的基础上,实现了稀有类别分类的提升,其S与F类分类精确度分别提升了1.02%和10.07%,召回率分别提升了12.52%和4.25%,满足心律失常自动分类的检测要求。  相似文献   

20.
为挖掘属性学习中属性与特征、属性与属性之间的关系,针对属性学习中存在的所有特征与属性被同等对待,底层特征与属性、属性与属性之间的先验知识被忽略的问题,提出一种基于属性关系图正则化特征选择的零样本分类方法.首先,根据训练样本和类别-属性矩阵计算属性之间的正负相关性,进而构建属性关系图;然后,基于属性关系图,对底层特征进行图正则化特征选择,并将选择后的特征用于直接属性预测(DAP)模型的训练;最后,通过直接属性分类器对测试样本进行零样本分类.AWA数据集上的实验结果表明,在40类训练10类测试的情况下,所提方法获得了0.692 6的属性预测平均AUC值及19.5%的零样本分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号